- Am 23. Oktober 2025 gab Alibaba Cloud auf der ACM SOSP 2025 Operating System Conference (Seoul) bekannt, dass sie das Aegaeon-System entwickelt haben, das eine optimale GPU-Nutzung bei gleichzeitigen KI-Inferenzaufgaben ermöglicht und dazu beiträgt, die Anzahl der benötigten GPUs um bis zu 82 % zu reduzieren, während die hohe Leistung beibehalten wird.
- Laut einer gemeinsam mit der Peking-Universität durchgeführten Forschung wird Aegaeon als „Multi-Modell-Bereitstellungssystem“ (multi-model serving system) beschrieben, das zur automatischen Skalierung auf Token-Ebene (token-level autoscaling) fähig ist und das parallele Ausführen von bis zu 7 Modellen auf derselben GPU ermöglicht — während aktuelle Systeme nur 2–3 Modelle erreichen.
- Das System funktioniert, indem es ein aktuell laufendes Modell aktiv entlädt und ein wartendes Modell bei einer neuen Anforderung aktiviert, wodurch das Service Level Objective (SLO) sichergestellt und die „Head-of-Line (HOL) blocking“ vermieden wird.
- In internen Tests reduzierte Alibaba die Anzahl der GPUs von 1.192 auf 213, was einer Reduzierung um 82 % entspricht, als es Dutzende von KI-Modellen in seinem Marktplatz bediente.
- Tests an Modellen mit bis zu 72 Milliarden Parametern zeigten eine 1,5- bis 9-fache Leistungssteigerung, abhängig von der Art der Aufgabe.
- Die Testumgebung umfasste 2 Knoten, jeweils mit 8 Nvidia H800 80GB GPUs (insgesamt 16 GPUs), 2TB DDR5 RAM und 192 Intel Xeon Platinum 8469C CPUs, verbunden über NVLink. Berichten zufolge verwendet Alibaba ein proprietäres eRDMA-Netzwerk, um die Datenübertragung zwischen den GPUs zu beschleunigen.
- Die Arbeit weist darauf hin, dass 90 % der Modelle im Modellstudio von Alibaba selten aufgerufen werden, aber 17,7 % der GPU-Ressourcen belegen, was bei Verwendung fester Reservierungsmechanismen zu erheblicher Verschwendung führt.
- Aegaeon unterscheidet sich von aktuellen Methoden:
- Multiplexing (Ausführen mehrerer Modelle auf 1 GPU) ist durch den GPU-Speicher begrenzt.
- Traditionelles Autoscaling skaliert nur nach Zeit, nicht nach Token, weshalb es weniger effizient bleibt.
- Aegaeon überwindet diese Einschränkung durch seine Skalierungsentscheidung auf Token-Ebene – der kleinsten Einheit der KI-Inferenz.
- Trotz des Durchbruchs vergleichen Technologiekreise, dass die Wirkung von Aegaeon nicht die „Wellen“ (ripple) von DeepSeek V3 ausgelöst hat, dem chinesischen Modell, das Anfang dieses Jahres schockierte, da es nur 5,6 Millionen US-Dollar für das Training kostete.
- Ein Bericht von The Register betont, dass „US-Hyperscaler“ wie Google, Amazon oder Microsoft möglicherweise bereits ähnliche Lösungen haben, diese aber noch nicht angekündigt haben, da sie dies als „strategisches Geheimnis der GPU-Optimierung“ betrachten.
📌 Am 23. Oktober 2025 gab Alibaba Cloud die Entwicklung des Aegaeon-Systems bekannt, das eine optimale GPU-Nutzung bei gleichzeitigen KI-Inferenzaufgaben ermöglicht und dazu beiträgt, die Anzahl der benötigten GPUs um bis zu 82 % zu reduzieren, während die hohe Leistung beibehalten wird. Alibaba Cloud zeigt Chinas schnellen Fortschritt bei der Optimierung der GPU-Infrastruktur für generative KI und erreicht ein Leistungsniveau von 7 Modellen/GPU. Diese Technologie senkt nicht nur die Kosten für die Inferenz von Milliarden von KI-Anfragen, sondern könnte auch den globalen KI-Cloud-Markt neu gestalten, in dem die GPU-Optimierungsfähigkeit zur wichtigsten Wettbewerbswaffe wird.
