- Le laboratoire des systèmes informatiques de Huawei à Zurich a annoncé une nouvelle méthode de quantification pour les LLM (Grands Modèles de Langage) appelée SINQ (Sinkhorn-Normalized Quantization), qui réduit l’utilisation de la mémoire de 60 à 70 % sans dégrader la qualité des résultats.
- SINQ est conçu pour être sans calibration, facile à intégrer et beaucoup plus rapide que les méthodes précédentes. Huawei a publié le code open-source sur GitHub et Hugging Face sous la licence Apache 2.0, permettant aux entreprises de l’utiliser, de le modifier et de le déployer commercialement de manière entièrement gratuite.
- Cette technique permet à des modèles qui nécessitaient auparavant plus de 60 Go de RAM de fonctionner sur seulement 20 Go environ, rendant possible l’exécution de LLM sur des GPU grand public comme la RTX 4090 (1 600 $) au lieu des A100 80GB (19 000 $) ou H100 (> 30 000 $).
- Pour les services cloud, les économies sont significatives : un A100 coûte de 3 à 4,50 $/heure, tandis qu’un GPU de 24 Go comme la RTX 4090 ne coûte qu’environ 1 à 1,50 $/heure, permettant d’économiser des milliers de dollars sur les tâches d’inférence à long terme.
- SINQ fonctionne sur la base de deux innovations principales :
- Mise à l’échelle sur deux axes (Dual-Axis Scaling) : Utilise deux vecteurs de mise à l’échelle distincts pour les lignes et les colonnes, ce qui aide à réduire les erreurs de quantification causées par les valeurs aberrantes.
- Normalisation de Sinkhorn-Knopp : Un algorithme de normalisation rapide qui réduit le « déséquilibre de la matrice » (matrix imbalance) — une nouvelle métrique plus efficace que le kurtosis pour optimiser la qualité de la quantification.
- Les résultats des tests sur Qwen3, LLaMA et DeepSeek montrent que SINQ réduit la perplexité et le taux d’inversion (flip rate), atteignant presque les performances des modèles en pleine précision, et est 30 fois plus rapide qu’AWQ.
- SINQ prend également en charge la quantification non uniforme (NF4) et est compatible avec AWQ pour créer une variante A-SINQ avec une précision encore plus élevée.
- Huawei fournit un code d’exemple, des outils pour sauvegarder/charger les poids, une intégration avec lm-eval et prévoit de publier prochainement des modèles pré-quantifiés sur le Hugging Face Hub.
📌 Résumé : Avec sa nouvelle méthode de quantification SINQ, Huawei démocratise la capacité d’exécuter des LLM sur du matériel courant, en économisant 60 à 70 % de mémoire et en réduisant les coûts de GPU jusqu’à trois fois. Cette solution open-source, rapide, facile à utiliser et sans calibration pourrait devenir une nouvelle norme dans la quantification de l’IA, élargissant les opportunités de déploiement de LLM pour les particuliers comme pour les petites entreprises.
