양자화 (Quantization)와 반올림 (Rounding)
양자화 (Quantization)와 반올림 (Rounding)
2025.02.16배경LLM을 비롯한 AI Application의 배포 타겟은 Cloud 기반에서 실행되는 서버 향도 존재하지만, 여러 장점 (개인 프라이버시, 저전력/저발열 등)을 가지고 있는 On-device도 활발히 연구/개발 중인 분야입니다. 특히 상대적으로 연산의 성능이나 메모리 제약으로 인해 On-device AI의 경우 양자화 (Quantization)을 높은 비율로 채용하게 되는데요. 양자화는 결국 정보 손실을 필연적으로 가지므로 Application의 성능 (Accuracy 등)에서 손해를 어느 정도는 감수할 수밖에 없습니다. 문제는 매번 여러 가지 양자화 실험을 한 후에 타겟 Device에 모델을 배포하고 성능을 측정하는 것이 굉장히 귀찮고 번거로운 작업일 텐데요. 따라서, 직접 하드웨어까지 배포하지 않..