[Troubleshooting] Spark2 UDF NPE Cases
[Troubleshooting] Spark2 UDF NPE Cases
2018.11.25spark-udf-oom Spark 2 UDF에서의 NullPointerException Cases Hive QL보다 Spark가 가지는 장점 중 하나는 자유도 높게 원하는 동작을 구현할 수 있다는 점이다. 그것이 가능한 하나의 이유는 UDF (User Defined Function)일 것이고, 일반적인 개발자라면 쉽게 작은 함수 블록을 선언 및 구현 후 Spark DataFrame에 적용할 수 있다. 다만, 이런 UDF의 경우 디버깅이 쉽지 않고 에러 메시지를 만나면 워낙 많은 케이스가 존재해서 내가 겪었던 몇 가지 사례를 정리해서 올려본다. UDF가 참조하는 Column이 null 값을 가지고 있는 경우 가장 빨리 의심해봐야 하는 부분이다. 입력으로 들어가는 값이 null이라면 연산 과정에서 OOM이..
글또를 시작하면서
글또를 시작하면서
2018.11.11글또 글또를 시작하며 작성하고 싶은 글 이것저것 하고 있었던 일이 많았고, 하고 싶은 일도 많으므로 데이터 엔지니어링 관련 글만 쓰진 않으려고 한다. 특히 데이터 엔지니어링과 데이터 분석 관련 글은 칼로 무 베듯 나누기도 쉽지 않다고 생각한다. 글을 작성하면서 대략적인 목차를 보니, 속된 말로 잘 팔릴만한 콘텐츠가 부족해 보여서 조금 걱정은 된다. 그래도 우선은 최대한 내가 쓰고 싶은 글과 읽는 사람의 관심사의 균형을 잘 맞춘 글들을 써보려고 한다. 데이터 엔지니어링 과정 중 데이터 전처리 때 여러 가지 수학 및 통계학을 사용할 수 있다 데이터 분석 과정에서도 파이프라인과 같은 데이터 엔지니어링의 기법을 빌릴 수 있다 Spark & Hive 배치 용도로는 Spark를 Adhoc한 분석 용도로는 Hi..