- Das Huawei Computing Systems Lab in Zürich hat eine neue Quantisierungsmethode für LLMs (Large Language Models) namens SINQ (Sinkhorn-Normalized Quantization) angekündigt, die den Speicherbedarf um 60–70 % reduziert, ohne die Ausgabequalität zu beeinträchtigen.
- SINQ ist kalibrierungsfrei, einfach zu integrieren und wesentlich schneller als frühere Methoden. Huawei hat den Open-Source-Code auf GitHub und Hugging Face unter der Apache-2.0-Lizenz veröffentlicht, was Unternehmen die kostenlose Nutzung, Änderung und kommerzielle Bereitstellung ermöglicht.
- Diese Technik ermöglicht es Modellen, die zuvor über 60 GB RAM benötigten, mit nur etwa 20 GB zu laufen. Dadurch können LLMs auf Consumer-GPUs wie der RTX 4090 (1.600 $) anstelle der A100 80GB (19.000 $) oder H100 (>30.000 $) betrieben werden.
- Bei Cloud-Diensten sind die Kosteneinsparungen erheblich: Eine A100 kostet 3–4,50 $/Stunde, während eine 24-GB-GPU wie die RTX 4090 nur etwa 1–1,50 $/Stunde kostet, was bei langfristigen Inferenzaufgaben Tausende von Dollar spart.
- SINQ basiert auf zwei Hauptinnovationen:
- Dual-Axis Scaling: Verwendet zwei separate Skalierungsvektoren für Zeilen und Spalten, was hilft, Quantisierungsfehler durch Ausreißer zu reduzieren.
- Sinkhorn-Knopp-Normalisierung: Ein schneller Normalisierungsalgorithmus, der die „Matrix-Imbalance“ reduziert – eine neue Metrik, die effektiver als die Kurtosis zur Optimierung der Quantisierungsqualität ist.
- Testergebnisse mit Qwen3, LLaMA und DeepSeek zeigen, dass SINQ die Perplexität und die Flip-Rate reduziert, die Leistung von Modellen mit voller Präzision nahezu erreicht und 30-mal schneller ist als AWQ.
- SINQ unterstützt auch nicht-uniforme Quantisierung (NF4) und ist mit AWQ kompatibel, um eine A-SINQ-Variante mit noch höherer Genauigkeit zu erstellen.
- Huawei stellt Beispielcode, Tools zum Speichern/Laden von Gewichten, eine lm-eval-Integration zur Verfügung und plant, bald vorquantisierte Modelle auf dem Hugging Face Hub zu veröffentlichen.
📌 Zusammenfassung: Mit seiner neuen Quantisierungsmethode SINQ demokratisiert Huawei die Möglichkeit, LLMs auf gängiger Hardware auszuführen, was 60–70 % Speicher spart und die GPU-Kosten um das bis zu Dreifache senkt. Diese Open-Source-, schnelle, benutzerfreundliche und kalibrierungsfreie Lösung könnte ein neuer Standard in der KI-Quantisierung werden und die Möglichkeiten für Einzelpersonen und kleine Unternehmen zur Bereitstellung von LLMs erweitern.
