Spark 환경에서 Sentiment analysis를 해보자 (1)
Spark 환경에서 Sentiment analysis를 해보자 (1)
2019.02.24spark-sentiment-analysis Spark 환경에서 Sentiment analysis를 해보자 (1) Sentiment Analysis는 자연 언어처리 필드에서 오랫동안 연구되어 온 주제입니다. 고전적인 방법 (Naive Bayes)부터 비교적 최근에 많이 사용하는 Neural Network 계열 방법까지 다양한 방법이 존재하는데요. 대용량 데이터가 쌓이고 있는 현재 Spark 환경에서 Sentiment Analysis를 End-to-End로 예제를 들어 진행하려고 합니다. 분량 조절을 위해 이번 포스트에서는 데이터의 전처리까지, 다음 포스트에서는 Classifier 생성 및 평가로 나눠서 포스트를 작성하겠습니다. 환경 Spark 2.3.2 Scala 2.11.x Zeppelin 0.8 In..
[Troubleshooting] Spark2 UDF NPE Cases
[Troubleshooting] Spark2 UDF NPE Cases
2018.11.25spark-udf-oom Spark 2 UDF에서의 NullPointerException Cases Hive QL보다 Spark가 가지는 장점 중 하나는 자유도 높게 원하는 동작을 구현할 수 있다는 점이다. 그것이 가능한 하나의 이유는 UDF (User Defined Function)일 것이고, 일반적인 개발자라면 쉽게 작은 함수 블록을 선언 및 구현 후 Spark DataFrame에 적용할 수 있다. 다만, 이런 UDF의 경우 디버깅이 쉽지 않고 에러 메시지를 만나면 워낙 많은 케이스가 존재해서 내가 겪었던 몇 가지 사례를 정리해서 올려본다. UDF가 참조하는 Column이 null 값을 가지고 있는 경우 가장 빨리 의심해봐야 하는 부분이다. 입력으로 들어가는 값이 null이라면 연산 과정에서 OOM이..
Apache Spark Linear Regression Example
Apache Spark Linear Regression Example
2018.02.05Linear Regression Example using Apache Spark Example code import org.apache.spark.ml.feature.VectorAssembler import org.apache.spark.ml.regression.LinearRegression import org.apache.spark.sql.SparkSession object LinearRegressionExample { def main(args: Array[String]): Unit = { val spark = SparkSession .builder() .appName("Linear Regression Example") .getOrCreate() val loadOptions = Map("sep" -> ..