[묘공단] 코딩테스트 스터디 7주차
[묘공단] 코딩테스트 스터디 7주차
2024.01.12이 글은 골든래빗 코딩 테스트 합격자 되기 파이썬 편의 11장 써머리입니다 그래프의 개념 노드와 간선을 이용한 비선형 자료 구조. 간선은 1) 무방향/유방향 2) 가중치 O/X 조합이 가능함 방향이 있는 그래프를 Directed Graph, 없는 그래프를 Undirected Graph 라고 한다 특정 노드에서 시작해 다시 돌아오는 경로가 있을 경우 Cycle (순혼)이 존재한다고 하며 Cycle Graph라고 함 그래프 구현 인접 행렬 인접 리스트 인접 행렬 구현은 배열을 주로 활용하며, 배열의 인덱스는 노드 그리고 값은 노드의 가중치로 볼 수 있다 반대로 인접 리스트 구현은 배열과 노드 객체를 이용해서 주로 표현함. 그러면 배열의 인덱스는 시작 노드를 의미하며 값에는 다음 노드를 연결할 수 있음 인접 ..
[묘공단] 코딩테스트 스터디 6주차
[묘공단] 코딩테스트 스터디 6주차
2023.12.30이 글은 골든래빗 코딩 테스트 합격자 되기 파이썬 편의 10장 써머리입니다 집합과 상호배타적 집합의 개념 집합은 순서와 중복이 없는 원소들을 갖는 자료구조, Python에서는 간단하게 set()을 활용할 수 있다. 상호배타적 집합은 서로 다른 두 집합 사이에 공통 원소가 없는 경우를 말함 코딩 테스트에서 상호배타적 집합을 활용하는 가장 큰 이유는 그래프 알고리즘 중 사이클을 판별하기 위해서 활용. 그 외에는 아래와 같은 응용 사례들이 존재한다 이미지 분할 도로 네트워크 구성 최소 신장 트리 알고리즘 구현 게임 개발 클러스터링 작업 집합의 연산 집합의 표현은 앞서 배운 트리의 배열 표현과 거의 유사하게 구현할 수 있고, 대표적인 연산은 합치기와 탐색 (Union-Find)가 있음. 배열의 인덱스는 자기 자..
외부 API가 의도한 대로 동작을 안 해요 (2) - contextlib 활용
외부 API가 의도한 대로 동작을 안 해요 (2) - contextlib 활용
2023.12.24문제 정의 및 현재 상황 이전 포스트에서 얘기한 것처럼 외부 API의 호출 전후로 그래프의 개형이 바뀌는 문제의 원인은 파악했는데요. 이제 그러면 우리가 원하는 동작을 하도록 코드를 수정하거나 개선을 할 차례입니다. 하고 싶은 일은 외부 API가 의존하는 onnxsim.simplify에 skipped_optimizers를 전달하는 것인데요. 자세한 내용 서술에 앞서서 전체적인 호출자 로직과 3rd Party API의 예제 구현체는 다음과 같습니다 호출자 로직 import onnx from transformers import AutoTokenizer, GPTNeoForCausalLM from third_party_api import prepare_model if __name__ == "__main__": ..
[묘공단] 코딩테스트 스터디 5주차
[묘공단] 코딩테스트 스터디 5주차
2023.12.22이 글은 골든래빗 코딩 테스트 합격자 되기 파이썬 편의 9장 써머리입니다. 트리 트리 개념 트리는 앞에서 다룬 선형 자료구조와는 다르게 계층 구조를 표현하는 용도로 많이 사용하는 자료 구조 인공지능의 의사결정트리 Trie를 활용한 자동 완성이나 검색 기능 데이터베이스에서 데이터 삽입, 삭제, 검색을 빠르게 하기 위한 용도 (B-tree 계열) 여러 가지 새로운 용어들이 많이 등장하는 데 아래와 같다 루트 노드 노드/간선 형제 노드: 동일한 부모 노드를 갖는 노드 부모/자식 노드 리프 노드: 자식이 없는 노드 높이: 루트 노드를 레벨 0으로 보고 자식 노드로 내려가면서 1씩 증가 차수: 아래로 향하는 간선의 개수 이진 트리 표현하기 이진 트리를 표현하는 방식은 크게 두 가지가 있다 배열로 표현 포인터로 표..
[묘공단] 코딩테스트 스터디 4주차
[묘공단] 코딩테스트 스터디 4주차
2023.12.15이 글은 골든래빗 코딩 테스트 합격자 되기 파이썬 편의 8장 써머리입니다. 해시의 개념과 정의 키를 통해서 빠르게 데이터 탐색을 지원하는 자료 구조를 해시라고 한다 이 때 키를 만들 때 사용하는 함수를 해시 함수라고 하며 다음과 같은 특징이 있다 해시는 단방향으로 동작 상수 시간에 바로 찾을 수 있음 값을 인덱스로 활용하려면 적절한 변환 과정 필요 위와 같은 특징 중 단방향 동작을 활용한 비밀번호 관리, 상수 시간에 바로 찾을 수 있는 특징을 활용한 데이터베이스 인덱싱 그리고 블록체인에서 활용된다 해시 함수 파이썬에서는 딕셔너리 또는 셋 자료형을 통해 상수 시간에 키 검색이 가능하므로 직접 구현할 일은 많지 않다 그러나 직접 구현한다면 여러 가지 조건들을 고려해야하는 데 해시 함수의 변환 값을 키 (인덱..
외부 API가 의도한 대로 동작을 안 해요 (1) - ONNX Simplifier
외부 API가 의도한 대로 동작을 안 해요 (1) - ONNX Simplifier
2023.12.10Motivation 올해 초부터 저희 팀은 LLM이나 Stable Diffusion과 같은 대규모 모델을 경량화하는 작업을 시작했는데요. 저희는 대규모 모델을 실제 하드웨어에 배포하기까지의 스텝 중 앞부분인 Quantization Simulation을 주로 담당하고 있었습니다. Simulation이 끝난 이후 실제 하드웨어에 배포하기 위해서는 여러 가지 추가적인 과정(Compile, Optimization, ...)이 필요한데요. 저희는 이 과정을 다른 팀이 제공하는 API를 호출하는 구조로 테스트하고 있습니다. 외부 API를 호출하고 난 결과를 테스트나 시각화했을 때 이상한 점이 발견됐는데요. Transformer 기반의 모델을, API를 호출해서 결과를 받으면 Transformer의 전형적인 구조인 ..
[묘공단] 코딩테스트 스터디 3주차
[묘공단] 코딩테스트 스터디 3주차
2023.12.08이 글은 골든래빗 코딩 테스트 합격자 되기 파이썬 편의 6, 7장 써머리입니다. 스택의 개념과 정의 먼저 들어간 것이 마지막에 나오는 LIFO (Last In, First Out 또는 후입선출) 특징을 가지는 자료형 주요 연산은 push와 pop이 있고, 그 외에 isFull, isEmpty, 그리고 최근에 삽입한 데이터의 위치인 top도 있음 문제 풀이 때는 최근에 삽입한 데이터를 대상으로 뭔가 연산해야 한다면 스택을 떠올리면 좋다 대부분 스택을 몰라서 못 푸는 것이 아니라 스택을 활용해야 한다는 생각을 못 떠올려서 풀지 못하는 경우가 많으므로 스택 관련 문제를 많이 풀어보고 스택을 사용해야 한다는 감을 익히는 것이 중요! 문제 풀이 괄호 짝 맞추기 전형적인 스택을 활용하는 문제 유형. 다만 조건에서 ..
[묘공단] 코딩테스트 스터디 2주차
[묘공단] 코딩테스트 스터디 2주차
2023.11.30이 글은 골든래빗 코딩 테스트 합격자 되기 파이썬 편의 0장 ~ 4장 써머리입니다. 배열 개념 인덱스와 값을 일대일 대응해 관리하는 자료구조 인덱스만 알면 빠르게 탐색 가능 (Random access) 배열 선언 # 1차원 배열 vector = [0] * 6 # 2차원 배열 (e.g., 3 by 4 matrix) matrix = [[0] * 3 for _ in range(4)] 배열 차원 중첩 리스트 형태로 다차원 배열을 표현 가능 그러나 실제 메모리는 1차원 구조로 저장된다 또한 2차원 배열을 1차원 배열로 표현해서 풀이하는 문제도 꽤 자주 출제됨 matrix1 = [[1, 2, 3], [4, 5, 6], [7, 8, 9]] matrix2 = [1, 2, 3, 4, 5, 6, 7, 8, 9] # 2행 ..
[묘공단] 코딩테스트 스터디 1주차
[묘공단] 코딩테스트 스터디 1주차
2023.11.20이직을 한 이후로 면접관으로 들어가기 전 문제 검토 때가 아니면 자료구조/알고리즘 공부를 따로 하지는 않았는데, 좋은 기회로 스터디를 진행할 수 있게 되어서 대학생 때로 돌아간 것처럼 바짝 열심히 해보려고 한다. 목표는 AtCoder 청록색 레이팅인데 그동안 머리가 많이 굳어서 정말 열심히 하지 않으면 쉽지는 않을 것 같다. 그래도 공개적으로 이렇게 적어야 바로 아래 단계까지라도 가능하지 않을까, 화이팅! 이 글은 골든래빗 코딩 테스트 합격자 되기 파이썬 편의 0장 ~ 4장 써머리입니다. 0장. 코딩 테스트를 준비하기 전에 타인의 풀이를 보면 사고의 폭을 넓힐 수 있다 더 나은 시간 복잡도 풀이, 또는 언어의 문법을 잘 활용한 간결한 코드 등 비단 코딩 테스트뿐만 아니라 우리는 다른 사람의 코드를 수없이..
AI for Everyone Week1
AI for Everyone Week1
2019.03.10AI-for-Everyone-week1-a4611943-749d-4acd-b210-1a2a373559cc AI for Everyone week1 Introduction 2030년까지 $13 trillion 가치 소프트웨어 분야 뿐만 아니라 여행, 물류, 전장 사업 등 다양한 분야에 영향 ANI → 최근 몇 년간 많은 발전을 결과로 보여줌 (이미지 인식, 음성 합성 등) ANI / AGI가 아니라 약 인공지능 / 강 인공지능으로 표현하는 경우도 있음 Machine learning Supervised Learning 교과서나 튜토리얼 등에서 가장 흔하게 볼 수 있는 Machine learning의 유형! 입력 (A)를 출력 (B)로 가장 잘 설명할 수 있는 관계 (또는 함수)를 찾는 것 프로그래밍을 통해 명..
Spark 환경에서 Sentiment analysis를 해보자 (1)
Spark 환경에서 Sentiment analysis를 해보자 (1)
2019.02.24spark-sentiment-analysis Spark 환경에서 Sentiment analysis를 해보자 (1) Sentiment Analysis는 자연 언어처리 필드에서 오랫동안 연구되어 온 주제입니다. 고전적인 방법 (Naive Bayes)부터 비교적 최근에 많이 사용하는 Neural Network 계열 방법까지 다양한 방법이 존재하는데요. 대용량 데이터가 쌓이고 있는 현재 Spark 환경에서 Sentiment Analysis를 End-to-End로 예제를 들어 진행하려고 합니다. 분량 조절을 위해 이번 포스트에서는 데이터의 전처리까지, 다음 포스트에서는 Classifier 생성 및 평가로 나눠서 포스트를 작성하겠습니다. 환경 Spark 2.3.2 Scala 2.11.x Zeppelin 0.8 In..
한국어 형태소 분석기 성능 비교
한국어 형태소 분석기 성능 비교
2018.12.10형태소 분석기 비교 자연언어처리 모델 설계 전 데이터 전처리는 매우 중요합니다. 특히, 한국어 자연언어처리에서는 문장 분해의 여러 가지 최소 단위를 가질 수 있습니다. 한국어에서 최소 단위는 자소, 음절, 형태소 등이 될 수 있고 자소나 음절 분해보다 형태소 분해는 문장에서의 위치나 문맥에 따라 달라지므로 쉽지 않은 문제가 있는데요. 예를 들어 '하늘을 나는 자동차'와 '나는 밥을 먹는다'에서 '나는'은 문맥에 따라 주어 '나'를 의미할 수도 있고 '날다'를 의미할 수도 있습니다. 최근 카카오에서 딥러닝 기반의 형태소 분석기 khaiii를 발표했습니다. 기존에도 여러 형태소 분석기(한나눔, KOMORAN 등)들이 존재했지만, 딥러닝 기반의 형태소 분석기는 제가 아는 한 처음이었기 때문에 관심이 생겨 여러..