• Le 23 octobre 2025, Alibaba Cloud a annoncé lors de la conférence sur les systèmes d’exploitation ACM SOSP 2025 (Séoul) avoir développé le système Aegaeon, qui permet une utilisation optimale du GPU dans les tâches d’inférence IA concurrentes, aidant à réduire le nombre de GPU nécessaires jusqu’à 82 % tout en maintenant des performances élevées.
  • Selon une recherche menée conjointement avec l’Université de Pékin, Aegaeon est décrit comme un « système de service multi-modèles » (multi-model serving system) capable d’autoscaling au niveau du token (token-level autoscaling), permettant d’exécuter jusqu’à 7 modèles en parallèle sur le même GPU — alors que les systèmes actuels n’atteignent que 2 à 3 modèles.
  • Le système fonctionne en déchargeant activement un modèle en cours d’exécution et en activant un modèle en attente lors d’une nouvelle requête, assurant l’Objectif de Niveau de Service (SLO) et évitant le « blocage Head-of-Line (HOL) ».
  • Lors des tests internes, Alibaba a réduit le nombre de GPU de 1 192 à 213, soit une réduction de 82 %, lors du service de dizaines de modèles d’IA sur sa place de marché.
  • Des tests sur des modèles allant jusqu’à 72 milliards de paramètres ont montré une augmentation des performances de 1,5 à 9 fois, selon le type de tâche.
  • L’environnement de test comprenait 2 nœuds, chacun avec 8 GPU Nvidia H800 80 Go (16 GPU au total), 2 To de RAM DDR5 et 192 CPU Intel Xeon Platinum 8469C, connectés via NVLink. Alibaba utiliserait un réseau eRDMA propriétaire pour accélérer le transfert de données entre les GPU.
  • L’article souligne que 90 % des modèles dans le studio de modèles d’Alibaba sont peu appelés, mais représentent 17,7 % des ressources GPU, entraînant un gaspillage important lors de l’utilisation de mécanismes de réservation fixes.
  • Aegaeon se distingue des méthodes actuelles :
    • Le Multiplexage (exécution de plusieurs modèles sur 1 GPU) est limité par la mémoire du GPU.
    • L’Autoscaling traditionnel ne s’adapte qu’en fonction du temps, pas du token, et reste donc moins efficace.
  • Aegaeon surmonte cette limitation grâce à sa décision d’autoscaling au niveau du token — la plus petite unité d’inférence IA.
  • Malgré la percée, les milieux technologiques estiment que l’effet d’Aegaeon n’a pas provoqué les « ondulations » (ripple) de DeepSeek V3, le modèle chinois qui a choqué en coûtant seulement 5,6 millions de dollars US à entraîner au début de cette année.
  • Un rapport de The Register souligne que les « hyperscalers américains » tels que Google, Amazon ou Microsoft pourraient déjà avoir des solutions similaires mais ne les ont pas encore annoncées, considérant cela comme un « secret stratégique d’optimisation du GPU ».

📌 Le 23 octobre 2025, Alibaba Cloud a annoncé avoir développé le système Aegaeon, qui permet une utilisation optimale du GPU dans les tâches d’inférence IA concurrentes, aidant à réduire le nombre de GPU nécessaires jusqu’à 82 % tout en maintenant des performances élevées. Alibaba Cloud montre les progrès rapides de la Chine dans l’optimisation de l’infrastructure GPU pour l’IA générative, atteignant un niveau de performance de 7 modèles/GPU. Cette technologie réduit non seulement le coût d’inférence de milliards de requêtes IA, mais pourrait également remodeler le marché mondial du cloud IA, où la capacité d’optimisation du GPU devient l’arme concurrentielle la plus cruciale.

Share.
© 2025 Vietmetric
Exit mobile version