데이터 엔지니어의 2018년 회고
데이터 엔지니어의 2018년 회고
2018.12.232018-retrospective 데이터 엔지니어의 2018년 회고 2017년 12월 31일에 신입 엔지니어 회고를 작성한 것이 엊그제 같은데 벌써 또 1년이라는 시간이 지났습니다. 지난 회고 때 나름대로 2018년 계획을 세웠는데, 작성하고 보니 목표를 잘 지킨 부분도 있고 또 그렇지 못한 부분도 있는 게 눈에 보이네요. 올 한해 작성해두었던 문서의 날짜를 더듬으면서 회고, 반성 및 내년 계획을 또 세워보려고 합니다. 역시 계획은 우선 세워야 제맛이니까요 ^^ㅎ 작년에는 월별로 기억을 더듬었었는데 올해는 분기별로 어떤 일을 했고, 반성해야 할지 작성하려고 합니다.회고 2018년 To-do list Information retrieval 도메인 지식 공부 기초 수학 다시 공부 Scala, Spark 기술..
한국어 형태소 분석기 성능 비교
한국어 형태소 분석기 성능 비교
2018.12.10형태소 분석기 비교 자연언어처리 모델 설계 전 데이터 전처리는 매우 중요합니다. 특히, 한국어 자연언어처리에서는 문장 분해의 여러 가지 최소 단위를 가질 수 있습니다. 한국어에서 최소 단위는 자소, 음절, 형태소 등이 될 수 있고 자소나 음절 분해보다 형태소 분해는 문장에서의 위치나 문맥에 따라 달라지므로 쉽지 않은 문제가 있는데요. 예를 들어 '하늘을 나는 자동차'와 '나는 밥을 먹는다'에서 '나는'은 문맥에 따라 주어 '나'를 의미할 수도 있고 '날다'를 의미할 수도 있습니다. 최근 카카오에서 딥러닝 기반의 형태소 분석기 khaiii를 발표했습니다. 기존에도 여러 형태소 분석기(한나눔, KOMORAN 등)들이 존재했지만, 딥러닝 기반의 형태소 분석기는 제가 아는 한 처음이었기 때문에 관심이 생겨 여러..