• 2025년 10월 23일, 알리바바 클라우드는 ACM SOSP 2025 운영 체제 컨퍼런스(서울)에서 Aegaeon 시스템을 개발했다고 발표했습니다. 이 시스템은 동시 AI 추론 작업에서 GPU 활용을 최적화하여 높은 성능을 유지하면서 필요한 GPU 수를 최대 82%까지 줄이는 데 도움을 줍니다.
  • 베이징 대학과 공동으로 수행한 연구에 따르면, Aegaeon은 토큰 수준의 자동 확장(token-level autoscaling)이 가능한 “멀티 모델 서비스 시스템”(multi-model serving system)으로 묘사되며, 기존 시스템이 2-3개의 모델만 달성하는 반면, 동일한 GPU에서 최대 7개의 모델을 병렬로 실행할 수 있습니다.
  • 이 시스템은 새로운 요청이 들어올 때 현재 실행 중인 모델을 능동적으로 오프로드하고 대기 중인 모델을 활성화하여 서비스 수준 목표(SLO)를 보장하고 “Head-of-Line (HOL) blocking”을 방지함으로써 작동합니다.
  • 내부 테스트에서 알리바바는 자체 마켓플레이스의 수십 가지 AI 모델에 서비스를 제공할 때 GPU 수를 1,192개에서 213개로, 즉 82% 절감했습니다.
  • 최대 720억 개의 매개변수를 가진 모델에 대한 테스트 결과, 작업 유형에 따라 성능이 1.5배에서 9배까지 향상되는 것으로 나타났습니다.
  • 테스트 환경은 2개의 노드로 구성되었으며, 각 노드에는 NVLink를 통해 연결된 8개의 Nvidia H800 80GB GPU(총 16개 GPU), 2TB DDR5 RAM 및 192개의 Intel Xeon Platinum 8469C CPU가 포함되었습니다. 알리바바는 GPU 간 데이터 전송 속도를 높이기 위해 독점적인 eRDMA 네트워크를 사용한다고 알려졌습니다.
  • 이 논문은 알리바바의 모델 스튜디오에 있는 모델의 90%가 호출 빈도가 낮지만 GPU 리소스의 17.7%를 차지하여 고정 예약 메커니즘을 사용할 경우 큰 낭비를 초래한다고 지적합니다.
  • Aegaeon은 기존 방법과 다릅니다.
    • 멀티플렉싱(Multiplexing, 1개의 GPU에서 여러 모델 실행)은 GPU 메모리에 의해 제한됩니다.
    • 전통적인 자동 확장(Autoscaling)은 토큰이 아닌 시간에 따라 확장되므로 효율성이 떨어집니다.
  • Aegaeon은 AI 추론의 가장 작은 단위인 토큰 수준에서 확장 결정을 내림으로써 이러한 한계를 극복합니다.
  • 이러한 획기적인 발전에도 불구하고, 기술계에서는 Aegaeon의 영향이 올해 초 훈련 비용이 560만 달러에 불과했던 중국 모델 DeepSeek V3와 같은 “파급 효과”(ripple)를 일으키지 못하고 있다고 비교합니다.
  • The Register의 보고서는 Google, Amazon 또는 Microsoft와 같은 “미국 하이퍼스케일러”(US hyperscalers)가 유사한 솔루션을 보유하고 있을 수 있지만, 이를 “전략적 GPU 최적화 비밀”로 간주하여 아직 발표하지 않았을 수 있음을 강조합니다.

📌 2025년 10월 23일, 알리바바 클라우드는 Aegaeon 시스템을 개발했다고 발표했습니다. 이 시스템은 동시 AI 추론 작업에서 GPU 활용을 최적화하여 높은 성능을 유지하면서 필요한 GPU 수를 최대 82%까지 줄이는 데 도움을 줍니다. 알리바바 클라우드는 중국이 생성형 AI를 위한 GPU 인프라 최적화에서 빠르게 발전하고 있음을 보여주며, 7개 모델/GPU의 성능 수준에 도달했습니다. 이 기술은 수십억 건의 AI 요청에 대한 추론 비용을 절감할 뿐만 아니라, GPU 최적화 능력이 가장 중요한 경쟁 무기가 되고 있는 글로벌 AI 클라우드 시장을 재편할 수 있습니다.

Share.
© 2025 Vietmetric
Exit mobile version