- Ngày 23/10/2025, Alibaba Cloud công bố tại Hội nghị Hệ điều hành ACM SOSP 2025 (Seoul) rằng họ đã phát triển hệ thống Aegaeon, cho phép tối ưu sử dụng GPU trong các tác vụ suy luận AI đồng thời, giúp giảm tới 82% số GPU cần thiết mà vẫn duy trì hiệu năng cao.
- Theo nghiên cứu đồng thực hiện với Đại học Bắc Kinh, Aegaeon được mô tả là “multi-model serving system”, có khả năng tự động co giãn mô hình ở cấp độ token (token-level autoscaling), cho phép chạy song song tới 7 mô hình trên cùng một GPU — trong khi các hệ thống hiện tại chỉ đạt 2–3 mô hình.
- Hệ thống hoạt động bằng cách chủ động giảm tải mô hình đang chạy và kích hoạt mô hình chờ khi có yêu cầu mới, đảm bảo SLO (service level objective) và tránh nghẽn “Head-of-Line (HOL) blocking”.
- Trong thử nghiệm nội bộ, Alibaba giảm số GPU từ 1.192 xuống còn 213, tương đương giảm 82%, khi phục vụ hàng chục mô hình AI trong marketplace của hãng.
- Các bài test trên mô hình lên đến 72 tỷ tham số cho thấy hiệu năng tăng 1,5 đến 9 lần, tùy loại tác vụ.
- Môi trường thử nghiệm gồm 2 node, mỗi node có 8 GPU Nvidia H800 80GB (tổng 16 GPU), 2TB RAM DDR5, và 192 CPU Intel Xeon Platinum 8469C, kết nối qua NVLink. Alibaba được cho là sử dụng eRDMA network độc quyền để tăng tốc truyền dữ liệu giữa GPU.
- Bài báo chỉ ra rằng 90% mô hình trong model studio của Alibaba ít được gọi, nhưng chiếm 17,7% tài nguyên GPU, gây lãng phí lớn nếu dùng cơ chế đặt chỗ cố định.
- Aegaeon khác biệt với các phương pháp hiện tại:
- Multiplexing (chạy nhiều mô hình trên 1 GPU) giới hạn bởi bộ nhớ GPU.
- Autoscaling truyền thống chỉ co giãn theo thời gian, không theo token, nên vẫn kém hiệu quả.
- Aegaeon vượt giới hạn này nhờ quyết định co giãn theo token — đơn vị nhỏ nhất của suy luận AI.
- Dù đột phá, giới công nghệ so sánh rằng hiệu ứng của Aegaeon chưa gây “ripple” như DeepSeek V3, mô hình Trung Quốc gây sốc khi huấn luyện chỉ tốn 5,6 triệu USD đầu năm nay.
- Báo cáo từ The Register nhấn mạnh rằng các “hyperscaler Mỹ” như Google, Amazon hay Microsoft có thể đã có giải pháp tương tự nhưng chưa công bố, do coi đây là “bí quyết tối ưu GPU chiến lược”.
📌 Ngày 23/10/2025, Alibaba Cloud công bố đã phát triển hệ thống Aegaeon, cho phép tối ưu sử dụng GPU trong các tác vụ suy luận AI đồng thời, giúp giảm tới 82% số GPU cần thiết mà vẫn duy trì hiệu năng cao.Alibaba Cloud cho thấy Trung Quốc đang tiến nhanh trong tối ưu hóa hạ tầng GPU cho AI tạo sinh, đạt mức hiệu suất 7 mô hình/GPU. Công nghệ này không chỉ giảm chi phí suy luận hàng tỷ yêu cầu AI mà còn có thể định hình lại thị trường đám mây AI toàn cầu, nơi khả năng tối ưu GPU đang trở thành vũ khí cạnh tranh quan trọng nhất.
Tổng hợp.
