- 23 октября 2025 года Alibaba Cloud объявила на конференции по операционным системам ACM SOSP 2025 (Сеул), что они разработали систему Aegaeon, которая позволяет оптимизировать использование GPU в задачах параллельного ИИ-вывода, помогая сократить количество необходимых GPU до 82% при сохранении высокой производительности.
- Согласно исследованию, проведенному совместно с Пекинским университетом, Aegaeon описывается как «система обслуживания нескольких моделей» (multi-model serving system), способная к автомасштабированию на уровне токенов (token-level autoscaling), что позволяет запускать до 7 моделей параллельно на одном GPU — в то время как текущие системы достигают только 2–3 моделей.
- Система работает путем активной выгрузки работающей модели и активации ожидающей модели при новом запросе, обеспечивая цель уровня обслуживания (SLO) и избегая «блокировки головы очереди» (Head-of-Line (HOL) blocking).
- Внутреннее тестирование показало, что Alibaba сократила количество GPU с 1192 до 213, то есть на 82%, при обслуживании десятков моделей ИИ на своем маркетплейсе.
- Тесты на моделях с числом параметров до 72 миллиардов показали увеличение производительности в 1,5–9 раз, в зависимости от типа задачи.
- Тестовая среда включала 2 узла, каждый с 8 GPU Nvidia H800 80 ГБ (всего 16 GPU), 2 ТБ оперативной памяти DDR5 и 192 CPU Intel Xeon Platinum 8469C, подключенных через NVLink. Сообщается, что Alibaba использует запатентованную сеть eRDMA для ускорения передачи данных между GPU.
- В статье указывается, что 90% моделей в студии моделей Alibaba вызываются нечасто, но занимают 17,7% ресурсов GPU, что приводит к значительным потерям при использовании механизмов фиксированного резервирования.
- Aegaeon отличается от существующих методов:
- Мультиплексирование (запуск нескольких моделей на 1 GPU) ограничено памятью GPU.
- Традиционное автомасштабирование (Autoscaling) масштабируется только по времени, а не по токенам, поэтому остается менее эффективным.
- Aegaeon преодолевает это ограничение благодаря решению о масштабировании на уровне токенов – наименьшей единицы ИИ-вывода.
- Несмотря на прорыв, технологическое сообщество считает, что эффект Aegaeon не вызвал такого «резонанса» (ripple), как DeepSeek V3 – китайская модель, которая шокировала тем, что ее обучение в начале этого года обошлось всего в 5,6 миллиона долларов США.
- Отчет The Register подчеркивает, что «гиперскейлеры США» (US hyperscalers), такие как Google, Amazon или Microsoft, возможно, уже имеют аналогичные решения, но еще не объявили о них, рассматривая это как «стратегический секрет оптимизации GPU».
📌 23 октября 2025 года Alibaba Cloud объявила о разработке системы Aegaeon, которая позволяет оптимизировать использование GPU в задачах параллельного ИИ-вывода, помогая сократить количество необходимых GPU до 82% при сохранении высокой производительности. Alibaba Cloud демонстрирует быстрый прогресс Китая в оптимизации инфраструктуры GPU для генеративного ИИ, достигая уровня производительности 7 моделей/GPU. Эта технология не только снижает стоимость вывода миллиардов ИИ-запросов, но также может изменить мировой рынок облачных сервисов ИИ, где способность оптимизировать GPU становится самым важным конкурентным оружием.

