- 2025年10月23日、アリババクラウドはACM SOSP 2025オペレーティングシステム会議(ソウル)で、Aegaeonシステムを開発したと発表しました。このシステムは、同時並行的なAI推論タスクにおけるGPU利用を最適化し、高い性能を維持しながら、必要とされるGPUの数を最大82%削減するのに役立ちます。
- 北京大学との共同研究によると、Aegaeonは「マルチモデル・サービング・システム」(multi-model serving system)と説明されており、トークンレベルのオートスケーリング(token-level autoscaling)が可能で、同じGPU上で最大7つのモデルを並行して実行できます。これは、現在のシステムが2~3モデルしか達成できないのと比較して顕著です。
- このシステムは、新しいリクエストが発生した際に実行中のモデルを積極的にオフロードし、待機中のモデルをアクティブ化することで機能し、サービスレベル目標(SLO)を確保し、「ヘッド・オブ・ライン(HOL)ブロッキング」(Head-of-Line (HOL) blocking)を回避します。
- 社内テストでは、アリババは自社のマーケットプレイスで数十のAIモデルを提供している際、GPUの数を1,192基から213基に削減し、82%の削減を達成しました。
- 最大720億パラメーターのモデルに対するテストでは、タスクの種類に応じて性能が1.5倍から9倍に向上することが示されました。
- テスト環境は、それぞれ8基のNvidia H800 80GB GPU(合計16基のGPU)、2TBのDDR5 RAM、192基のIntel Xeon Platinum 8469C CPUを備えた2つのノードで構成され、NVLinkで接続されています。アリババは、GPU間のデータ転送を高速化するために、独自のeRDMAネットワークを使用していると報告されています。
- 論文は、アリババのモデルスタジオにあるモデルの90%は呼び出し頻度が低いものの、GPUリソースの17.7%を占めており、固定予約メカニズムを使用すると大きな無駄が生じることを指摘しています。
- Aegaeonは既存の手法と異なります:
- マルチプレキシング(1つのGPUで複数のモデルを実行)はGPUメモリによって制限されます。
- 従来のオートスケーリングは時間によるもので、トークンによるものではないため、依然として非効率的です。
- Aegaeonは、AI推論の最小単位であるトークンレベルでのスケーリング決定により、この制限を克服します。
- このブレークスルーにもかかわらず、テクノロジー界では、Aegaeonの効果は、今年初めにわずか560万ドルでトレーニングされた中国のモデルDeepSeek V3のような「波紋」(ripple)を引き起こしていないと比較されています。
- The Registerのレポートは、Google、Amazon、Microsoftなどの「米国のハイパースケーラー」(US hyperscalers)が同様のソリューションを既に持っている可能性があるが、「戦略的なGPU最適化の秘密」と見なしてまだ発表していない可能性があると強調しています。
📌 2025年10月23日、アリババクラウドは、同時並行的なAI推論タスクにおけるGPU利用を最適化し、高い性能を維持しながら、必要とされるGPUの数を最大82%削減するのに役立つAegaeonシステムを開発したと発表しました。アリババクラウドは、中国が生成AI向けのGPUインフラストラクチャの最適化において急速に進んでおり、7モデル/GPUの性能レベルに達していることを示しています。この技術は、数十億のAIリクエストの推論コストを削減するだけでなく、GPU最適化能力が最も重要な競争武器となっている世界のAIクラウド市場を再構築する可能性があります。

