- Лаборатория вычислительных систем Huawei в Цюрихе анонсировала новый метод квантования для LLM (больших языковых моделей) под названием SINQ (Sinkhorn-Normalized Quantization), который сокращает использование памяти на 60–70% без снижения качества вывода.
- SINQ разработан как метод, не требующий калибровки, легко интегрируемый и значительно более быстрый, чем предыдущие подходы. Huawei опубликовала исходный код на GitHub и Hugging Face под лицензией Apache 2.0, что позволяет компаниям свободно использовать, изменять и коммерчески развертывать его бесплатно.
- Эта технология позволяет моделям, ранее требовавшим более 60 ГБ ОЗУ, работать всего на ~20 ГБ, что открывает возможность запуска LLM на потребительских GPU, таких как RTX 4090 ($1,600), вместо A100 80GB ($19,000) или H100 (>$30,000).
- Для облачных сервисов экономия затрат значительна: A100 стоит $3–$4.50 в час, в то время как GPU с 24 ГБ, такой как RTX 4090, стоит всего около $1–$1.50 в час, что экономит тысячи долларов на долгосрочных задачах инференса.
- SINQ основан на двух ключевых инновациях:
- Двухосевое масштабирование (Dual-Axis Scaling): Использует два отдельных вектора масштабирования для строк и столбцов, что помогает уменьшить ошибки квантования, вызванные выбросами.
- Нормализация Синхорна-Кноппа (Sinkhorn-Knopp Normalization): Быстрый алгоритм нормализации, который уменьшает «дисбаланс матрицы» — новый показатель, более эффективный, чем эксцесс (kurtosis), для оптимизации качества квантования.
- Результаты тестов на моделях Qwen3, LLaMA и DeepSeek показывают, что SINQ снижает перплексию и частоту ошибок (flip rate), почти достигая производительности моделей с полной точностью, и работает в 30 раз быстрее, чем AWQ.
- SINQ также поддерживает неоднородное квантование (NF4) и совместим с AWQ для создания варианта A-SINQ с еще более высокой точностью.
- Huawei предоставляет примеры кода, инструменты для сохранения/загрузки весов, интеграцию с lm-eval и планирует в ближайшее время выпустить готовые квантованные модели на Hugging Face Hub.
📌 Итог: С помощью нового метода квантования SINQ компания Huawei демократизирует возможность запуска LLM на обычном оборудовании, экономя 60–70% памяти и снижая затраты на GPU до трех раз. Это открытое, быстрое, простое в использовании и не требующее калибровки решение может стать новым стандартом в квантовании ИИ, расширяя возможности развертывания LLM как для частных лиц, так и для малого бизнеса.
