- Il laboratorio di sistemi di calcolo di Huawei a Zurigo ha annunciato un nuovo metodo di quantizzazione per LLM (Large Language Models) chiamato SINQ (Sinkhorn-Normalized Quantization), che riduce l’uso della memoria del 60–70% senza degradare la qualità dell’output.
- SINQ è progettato per essere privo di calibrazione, facile da integrare e molto più veloce dei metodi precedenti. Huawei ha rilasciato il codice open-source su GitHub e Hugging Face con licenza Apache 2.0, consentendo alle aziende di utilizzarlo, modificarlo e implementarlo commercialmente in modo completamente gratuito.
- Questa tecnica consente a modelli che prima richiedevano oltre 60 GB di RAM di funzionare con solo circa 20 GB, rendendo possibile l’esecuzione di LLM su GPU consumer come la RTX 4090 ($1,600) invece che su A100 80GB ($19,000) o H100 (>$30,000).
- Per i servizi cloud, il risparmio è notevole: una A100 costa $3–$4.50/ora, mentre una GPU da 24 GB come la RTX 4090 costa solo circa $1–$1.50/ora, con un risparmio di migliaia di dollari su attività di inferenza a lungo termine.
- SINQ si basa su due innovazioni principali:
- Dual-Axis Scaling: Utilizza due vettori di scala separati per righe e colonne, riducendo gli errori di quantizzazione causati da valori anomali (outliers).
- Sinkhorn-Knopp Normalization: Un rapido algoritmo di normalizzazione che riduce lo “squilibrio della matrice” (matrix imbalance), una nuova metrica più efficace della curtosi (kurtosis) per ottimizzare la qualità della quantizzazione.
- I risultati dei test su Qwen3, LLaMA e DeepSeek mostrano che SINQ riduce la perplessità (perplexity) e il flip rate, eguagliando quasi le prestazioni dei modelli a piena precisione e risultando 30 volte più veloce di AWQ.
- SINQ supporta anche la quantizzazione non uniforme (NF4) ed è compatibile con AWQ per creare una variante A-SINQ con una precisione ancora maggiore.
- Huawei fornisce codice di esempio, strumenti per salvare/caricare i pesi, integrazione con lm-eval e prevede di rilasciare presto modelli pre-quantizzati su Hugging Face Hub.
📌 Riepilogo: Con il suo nuovo metodo di quantizzazione SINQ, Huawei sta democratizzando la capacità di eseguire LLM su hardware comune, risparmiando il 60–70% di memoria e riducendo i costi delle GPU fino a tre volte. Questa soluzione open-source, veloce, facile da usare e priva di calibrazione potrebbe diventare un nuovo standard nella quantizzazione dell’IA, ampliando le opportunità di implementare LLM sia per i singoli che per le piccole imprese.
