- 华为苏黎世计算系统实验室发布了一种名为SINQ(Sinkhorn归一化量化)的LLM(大语言模型)新量化方法,可在不降低输出质量的情况下,将内存占用减少60–70%。
- SINQ被设计为免校准、易于集成,且处理速度远超以往方法。华为已在GitHub和Hugging Face上根据Apache 2.0许可证发布其开源代码,允许企业完全免费地自由使用、修改和进行商业部署。
- 该技术使之前需要超过60 GB内存的模型仅需约20 GB即可运行,从而让LLM能够在消费级GPU(如RTX 4090,售价1,600美元)上运行,而不再需要A100 80GB(19,000美元)或H100(超过30,000美元)。
- 对于云服务,成本节约尤为显著:A100每小时花费3–4.50美元,而像RTX 4090这样的24 GB GPU每小时仅需约1–1.50美元,为长期推理任务节省数千美元。
- SINQ的运作基于两大创新:
- 双轴缩放 (Dual-Axis Scaling): 对行和列使用两个独立的缩放向量,有助于减少由异常值引起的量化误差。
- Sinkhorn-Knopp归一化: 一种快速的归一化算法,可减少“矩阵不平衡度”——这是一个在优化量化质量方面比峰度(kurtosis)更有效的新指标。
- 在Qwen3、LLaMA和DeepSeek上的测试结果表明,SINQ降低了困惑度(perplexity)和翻转率(flip rate),性能几乎达到全精度模型的水平,并且比AWQ快30倍。
- SINQ还支持非均匀量化(NF4),并与AWQ兼容以创建精度更高的A-SINQ变体。
- 华为提供了示例代码、权重保存/加载工具、lm-eval集成,并计划很快在Hugging Face Hub上发布预量化模型。
📌 总结: 凭借其新的SINQ量化方法,华为正在普及在普通硬件上运行LLM的能力,节省了60–70%的内存,并将GPU成本降低了高达三倍。这一开源、快速、易用且免校准的解决方案可能成为AI量化领域的新标准,为个人和小型企业部署LLM扩展了机会。
