글또

글또를 시작하며

작성하고 싶은 글

이것저것 하고 있었던 일이 많았고, 하고 싶은 일도 많으므로 데이터 엔지니어링 관련 글만 쓰진 않으려고 한다. 특히 데이터 엔지니어링과 데이터 분석 관련 글은 칼로 무 베듯 나누기도 쉽지 않다고 생각한다. 글을 작성하면서 대략적인 목차를 보니, 속된 말로 잘 팔릴만한 콘텐츠가 부족해 보여서 조금 걱정은 된다. 그래도 우선은 최대한 내가 쓰고 싶은 글과 읽는 사람의 관심사의 균형을 잘 맞춘 글들을 써보려고 한다.

  • 데이터 엔지니어링 과정 중 데이터 전처리 때 여러 가지 수학 및 통계학을 사용할 수 있다
  • 데이터 분석 과정에서도 파이프라인과 같은 데이터 엔지니어링의 기법을 빌릴 수 있다

Spark & Hive

배치 용도로는 Spark를 Adhoc한 분석 용도로는 Hive를 많이 사용하고 있다. 실제로 데이터 엔지니어링팀에서 가장 인기가 있을 만한 주제라고 생각한다. 나도 입사 후 Spark와 Hive를 써봤기 때문에 대부분의 경험이 회사에서 있었던 일이다. 따라서 문제가 될 수 있는 Confidential한 내용을 없애고 아래와 같은 포스팅을 쓰려고 한다.

  • Troubleshooting 경험
  • Best practice 공유
  • Spark Toy Project

R & Python

많은 사람이 데이터 분석 때 사용하는 언어가 R과 Python일 것으로 생각한다. 내 경우 데이터의 특성을 EDA를 통해서 체크를 하는 편이다. 따라서 단순한 R과 Python 사용법이 아닌 데이터 전처리나 분석에서 R이나 Python 코드를 어떻게 활용할 수 있는지에 대해서 작성해보려고 한다.

수학 & 통계

데이터 관련 일을 하다 보면, 싫어도 필연적으로 만나게 되는 기초 학문이 수학과 통계이다. 글을 작성하기 전에 나도 다시 공부하면서 몇 가지 수학이나 통계 개념에 대해서 작성해보려고 한다. 최근에는 SVM과 RF 때문에 최적화와 통계 관련 공부를 다시 했었고 이것을 글로 정리해보려고 한다.

  • Optimization (최적화)
  • Statistics (통계학)

논문 리뷰

아마도 가장 인기가 없을 만한 글 타래라고 생각한다. 그래도 기록은 기억을 지배한다고 믿기 때문에 논문 중 공유할 만한 것들을 리뷰해보려고 한다. 최근 읽었던 논문 중 아이디어가 굉장히 좋거나, 논리 서술 구조가 아주 깔끔하거나 또는 논문에 관심이 있는데 어떤 논문을 처음 읽어보면 좋을지 고민하는 초심자가 시작해보면 좋은 논문으로 시작하려고 한다. 현재 검색 조직에 있으므로 타겟하는 학회는 아래와 같다.

  • SIGIR
  • SIGKDD
  • WSDM

다짐

첫 모임 때도 말했었지만, 독서 모임에 참여해서 주 1회 서평을 작성해본 경험이 있다. 해당 모임을 통해서 책을 읽고 서평을 쓰는 것이 못하는 것이 아닌 그동안 안 했던 것임을 확실히 알았고 서평 작성을 통해 개인적인 내적 성장에 많은 도움이 되었다. 이번 글또 모임은 대략 2주에 한 번씩 기술적인 글을 작성해야 하므로 피로도는 주 1회 서평과 큰 차이는 없을 것 같다. 엔지니어는 실력도 중요하지만, 그것을 실제 비즈니스팀에 설명하고 이해시킬 수 있는 능력도 중요하다고 생각한다. 해당 능력의 향상에 글쓰기보다 더 좋은 것은 없지 않을까? 이번 6개월 장기프로젝트를 통해, 서로 지치지 않고 열심히 피드백하면서 성장할 수 있었으면 한다.