- 2025年10月23日,阿里云在ACM SOSP 2025操作系统大会(首尔)上宣布,他们已开发出Aegaeon系统,该系统可以优化并发AI推理任务中的GPU使用率,有助于在保持高性能的同时将所需GPU数量减少多达82%。
- 根据与北京大学共同进行的研究,Aegaeon被描述为“多模型服务系统”(multi-model serving system),能够实现令牌级(token-level)自动扩缩容,允许在同一GPU上并行运行多达7个模型——而现有系统仅能实现2-3个模型。
- 该系统通过在新请求到来时主动卸载正在运行的模型并激活等待模型来运作,确保服务水平目标(SLO)并避免“队头阻塞”(Head-of-Line (HOL) blocking)。
- 在内部测试中,阿里云在为其市场中的数十个AI模型提供服务时,将GPU数量从1,192个减少到213个,相当于减少了82%。
- 对高达720亿参数的模型进行的测试显示,性能提高了1.5到9倍,具体取决于任务类型。
- 测试环境包括2个节点,每个节点配备8个Nvidia H800 80GB GPU(总共16个GPU)、2TB DDR5 RAM和192个Intel Xeon Platinum 8469C CPU,通过NVLink连接。据报道,阿里云使用专有的eRDMA网络来加速GPU之间的数据传输。
- 该论文指出,阿里云模型工作室中90%的模型被调用频率较低,但占用了17.7%的GPU资源,如果使用固定的预留机制会造成巨大浪费。
- Aegaeon与现有方法不同:
- 多路复用(Multiplexing,在1个GPU上运行多个模型)受到GPU内存限制。
- 传统自动扩缩容(Autoscaling)仅按时间而非令牌进行扩缩容,因此效率仍然较低。
- Aegaeon通过其基于令牌(AI推理的最小单位)的扩缩容决策克服了这一限制。
- 尽管取得了突破,但科技界认为Aegaeon的影响尚未像DeepSeek V3那样引起“波澜”(ripple)。DeepSeek V3是今年早些时候以仅560万美元的成本进行训练的中国模型,曾引起震惊。
- The Register的报道强调,“美国超大规模云服务商”(US hyperscalers)如谷歌、亚马逊或微软可能已经拥有类似的解决方案但尚未公布,因为他们将其视为“战略性GPU优化秘诀”。
📌 2025年10月23日,阿里云宣布已开发出Aegaeon系统,该系统可以优化并发AI推理任务中的GPU使用率,有助于在保持高性能的同时将所需GPU数量减少多达82%。阿里云表明中国在生成式AI的GPU基础设施优化方面正在快速推进,达到了7个模型/GPU的性能水平。这项技术不仅降低了数十亿AI请求的推理成本,还可能重塑全球AI云市场,其中GPU优化能力正成为最重要的竞争武器。

