- 화웨이 취리히 컴퓨팅 시스템 연구소는 LLM(대규모 언어 모델)을 위한 새로운 양자화 방법인 SINQ(Sinkhorn-Normalized Quantization)를 발표했습니다. 이 기술은 출력 품질 저하 없이 메모리 사용량을 60–70% 줄여줍니다.
- SINQ는 보정(calibration)이 필요 없고, 통합이 쉬우며, 이전 방법들보다 훨씬 빠르도록 설계되었습니다. 화웨이는 아파치 2.0 라이선스에 따라 GitHub와 허깅 페이스에 오픈소스 코드를 공개하여, 기업들이 무료로 자유롭게 사용, 수정 및 상업적으로 배포할 수 있도록 했습니다.
- 이 기술을 통해 이전에는 60GB 이상의 RAM이 필요했던 모델을 약 20GB만으로 실행할 수 있게 되어, A100 80GB(19,000달러)나 H100(30,000달러 이상) 대신 RTX 4090(1,600달러)과 같은 소비자용 GPU에서도 LLM을 운영할 수 있습니다.
- 클라우드 서비스의 경우 비용 절감 효과가 상당합니다. A100은 시간당 3–4.50달러가 드는 반면, RTX 4090과 같은 24GB GPU는 시간당 약 1–1.50달러에 불과하여 장기 추론 작업에서 수천 달러를 절약할 수 있습니다.
- SINQ는 두 가지 주요 혁신을 기반으로 작동합니다.
- 이중 축 스케일링 (Dual-Axis Scaling): 행과 열에 대해 별도의 스케일링 벡터를 사용하여 이상치로 인한 양자화 오류를 줄입니다.
- 싱크혼-크놉 정규화 (Sinkhorn-Knopp Normalization): ‘행렬 불균형’을 줄이는 빠른 정규화 알고리즘으로, 양자화 품질 최적화에서 첨도(kurtosis)보다 효과적인 새로운 지표입니다.
- Qwen3, LLaMA, DeepSeek에 대한 테스트 결과, SINQ는 퍼플렉시티(perplexity)와 플립 레이트(flip rate)를 감소시키며, 완전 정밀도 모델의 성능에 거의 근접하고 AWQ보다 30배 더 빠릅니다.
- SINQ는 또한 비균일 양자화(NF4)를 지원하며, AWQ와 호환되어 더 높은 정확도를 가진 A-SINQ 변형을 만들 수 있습니다.
- 화웨이는 샘플 코드, 가중치 저장/로드 도구, lm-eval 통합을 제공하며, 곧 허깅 페이스 허브에 사전 양자화된 모델을 출시할 예정입니다.
📌 요약: 화웨이는 새로운 양자화 방법인 SINQ를 통해 일반 하드웨어에서 LLM을 실행할 수 있는 능력을 대중화하고 있으며, 메모리를 60–70% 절약하고 GPU 비용을 최대 3배까지 절감합니다. 이 오픈소스, 빠르고, 사용하기 쉬우며 보정이 필요 없는 솔루션은 AI 양자화의 새로운 표준이 되어 개인과 중소기업 모두에게 LLM 배포 기회를 확대할 수 있습니다.
