• ファーウェイのチューリッヒコンピューティングシステム研究所は、LLM(大規模言語モデル)向けの新しい量子化手法「SINQ(Sinkhorn-Normalized Quantization)」を発表しました。これにより、出力品質を損なうことなくメモリ使用量を60~70%削減できます。
  • SINQはキャリブレーション不要で、統合が容易かつ従来の手法よりはるかに高速に設計されています。ファーウェイは、Apache 2.0ライセンスの下でGitHubとHugging Faceにオープンソースコードを公開しており、企業は完全に無料で自由に使用、変更、商用展開が可能です。
  • この技術により、以前は60GB以上のRAMを必要としたモデルが約20GBで実行可能になり、A100 80GB(19,000ドル)やH100(30,000ドル以上)の代わりに、RTX 4090(1,600ドル)のようなコンシューマー向けGPUでLLMを運用できます。
  • クラウドサービスではコスト削減効果が顕著です。A100は1時間あたり3~4.50ドルかかるのに対し、RTX 4090のような24GBのGPUは約1~1.50ドルで済み、長期の推論タスクで数千ドルを節約できます。
  • SINQは主に2つの革新に基づいています。
    • Dual-Axis Scaling: 行と列に別々のスケーリングベクトルを使用し、外れ値による量子化誤差を低減します。
    • Sinkhorn-Knopp Normalization: 「行列の不均衡」を低減する高速な正規化アルゴリズムです。これは量子化品質の最適化において、尖度(kurtosis)よりも効果的な新しい指標です。
  • Qwen3、LLaMA、DeepSeekでのテスト結果は、SINQがパープレキシティとフリップレートを低減し、ほぼ完全精度モデルの性能に匹敵し、AWQより30倍高速であることを示しています。
  • SINQは非均一量子化(NF4)もサポートし、AWQと互換性があり、さらに高精度のA-SINQバリアントを作成できます。
  • ファーウェイはサンプルコード、重みの保存/読み込みツール、lm-evalとの統合を提供しており、近々Hugging Face Hubで量子化済みモデルを公開する予定です。

📌 要約: 新しい量子化手法SINQにより、ファーウェイは一般的なハードウェアでLLMを実行する能力を大衆化し、メモリを60~70%節約し、GPUコストを最大3分の1に削減します。このオープンソースで高速、使いやすく、キャリブレーション不要のソリューションは、AI量子化の新たな標準となり、個人や中小企業がLLMを展開する機会を拡大する可能性があります。

Share.
© 2025 Vietmetric
Exit mobile version