- Il 23 ottobre 2025, Alibaba Cloud ha annunciato alla Conferenza sui Sistemi Operativi ACM SOSP 2025 (Seoul) di aver sviluppato il sistema Aegaeon, che consente un utilizzo ottimale della GPU nei carichi di lavoro di inferenza IA concorrenti, contribuendo a ridurre il numero di GPU necessarie fino all’82% pur mantenendo prestazioni elevate.
- Secondo la ricerca condotta congiuntamente con l’Università di Pechino, Aegaeon è descritto come un “sistema di gestione multi-modello” (multi-model serving system) capace di autoscaling a livello di token (token-level autoscaling), consentendo l’esecuzione parallela di fino a 7 modelli sulla stessa GPU — mentre i sistemi attuali raggiungono solo 2–3 modelli.
- Il sistema opera scaricando attivamente un modello in esecuzione e attivando un modello in attesa quando arriva una nuova richiesta, garantendo l’Obiettivo del Livello di Servizio (SLO) ed evitando il “blocco Head-of-Line (HOL)”.
- Nei test interni, Alibaba ha ridotto il numero di GPU da 1.192 a 213, una riduzione dell’82%, servendo dozzine di modelli IA nel marketplace aziendale.
- I test su modelli fino a 72 miliardi di parametri hanno mostrato un aumento delle prestazioni da 1,5 a 9 volte, a seconda del tipo di attività.
- L’ambiente di test comprendeva 2 nodi, ciascuno con 8 GPU Nvidia H800 da 80 GB (16 GPU totali), 2 TB di RAM DDR5 e 192 CPU Intel Xeon Platinum 8469C, collegati tramite NVLink. Si riporta che Alibaba utilizzi una rete eRDMA proprietaria per accelerare il trasferimento di dati tra le GPU.
- L’articolo sottolinea che il 90% dei modelli nello studio dei modelli di Alibaba viene richiamato di rado, ma occupa il 17,7% delle risorse GPU, causando un grande spreco se si utilizza il meccanismo di prenotazione fissa.
- Aegaeon si differenzia dai metodi attuali:
- Il Multiplexing (esecuzione di più modelli su 1 GPU) è limitato dalla memoria della GPU.
- L’Autoscaling tradizionale si adatta solo in base al tempo, non al token, risultando meno efficiente.
- Aegaeon supera questo limite grazie alla sua decisione di autoscaling a livello di token — l’unità più piccola di inferenza IA.
- Nonostante la svolta, gli ambienti tecnologici confrontano che l’effetto di Aegaeon non ha causato l’«onda» (ripple) di DeepSeek V3, il modello cinese che ha scioccato all’inizio di quest’anno per essere stato addestrato con un costo di soli 5,6 milioni di dollari USA.
- Un rapporto di The Register sottolinea che gli «hyperscaler statunitensi» come Google, Amazon o Microsoft potrebbero già avere soluzioni simili ma non le hanno ancora annunciate, considerandole un «segreto strategico di ottimizzazione della GPU».
📌 Il 23 ottobre 2025, Alibaba Cloud ha annunciato di aver sviluppato il sistema Aegaeon, che consente un utilizzo ottimale della GPU nei carichi di lavoro di inferenza IA concorrenti, contribuendo a ridurre il numero di GPU necessarie fino all’82% pur mantenendo prestazioni elevate. Alibaba Cloud dimostra il rapido progresso della Cina nell’ottimizzazione dell’infrastruttura GPU per l’IA generativa, raggiungendo un livello di prestazioni di 7 modelli/GPU. Questa tecnologia non solo riduce il costo di inferenza di miliardi di richieste IA, ma potrebbe anche rimodellare il mercato cloud IA globale, dove la capacità di ottimizzazione della GPU sta diventando l’arma competitiva più cruciale.

