Red Hat 啟動 LLM-D 社群專案 加速大規模分散式生成式 AI 推論

2025.06.02 01:25PM

Red Hat 發表 llm-d 開源社群,結合 vLLM 與 Kubernetes 架構,致力於實現大規模分散式生成式 AI 推論,提升企業部署效率與彈性。

Red Hat近期宣布推出全新開源專案llm-d,旨在回應未來生成式AI (Gen AI)最關鍵的大規模推論需求。

此專案由創始貢獻者CoreWeave、Google Cloud、IBM Research與NVIDIA共同發起,並且獲得AMD、Cisco、Hugging Face、Intel、Lambda和Mistral AI 等業者,以及加州大學柏克萊分校和芝加哥大學等學術機構參與,目標讓生產環境中的生成式AI應用像Linux一樣無所不在。

llm-d運用突破性的生成式AI大規模推論技術,並且採用原生Kubernetes架構、基於vLLM的分散式推論,以及智慧型AI感知網路路由,打造出強大的大型語言模型 (LLM)推論雲端,以滿足最嚴苛的生產服務水準目標 (service-level objectives,SLO)。

Red Hat資深副總裁暨AI技術長Brian Stevens表示:「由眾多AI領導者支持的 llm-d 社群的啟動,象徵著我們正處於滿足可擴展生成式AI推論需求的關鍵時刻,亦為企業實現更廣泛的AI應用時必須克服的重大挑戰。透過運用vLLM的創新技術和Kubernetes經驗證的能力,llm-d協助企業更順暢地在擴展的跨混合雲環境中實現分散式、可擴展且高效能的AI推論,能夠支援任何模型、任何加速器,在任何雲端環境中運行,協助實現 AI 無限潛力的願景。」

借助 llm-d 滿足對可擴展生成式 AI 推論的需求

為應對上述挑戰,Red Hat 攜手業界夥伴共同推出 llm-d。這項具前瞻性的專案不僅能強化 vLLM 的能力以突破單一伺服器的限制,同時也為 AI 推論釋放大規模生產的潛力。llm-d 運用 Kubernetes 經驗證且強大的調度能力,將進階推論功能無縫整合至企業既有的 IT 基礎架構中。IT 團隊得以於統一平台上滿足關鍵業務工作負載的多樣化服務需求,同時透過部署創新技術將效率極大化,並大幅降低高效能 AI 加速器帶來的總體擁有成本(TCO)。

llm-d提供一系列功能,亮點包括:

• vLLM 迅速成為開源領域實質上的標準推論伺服器:為新興模型提供 Day 0 模型支援,可用於多種加速器,包括 Google Cloud Tensor Processor Units (TPU)。
• 預填與解碼分離:將 AI 的輸入內容和權杖生成階段分離為獨立的運算作業,並將這些作業分散到多個伺服器上執行。
• 基於 LMCache 的鍵值(key-value,KV)快取卸載:將 KV 快取的記憶體負載從 GPU 記憶體中移轉到成本效益更高且資源更豐富的標準儲存裝置,例如 CPU 記憶體或網路儲存。
• 由 Kubernetes 驅動的叢集和控制器:可在工作負載需求波動時,更有效地調度運算與儲存資源,同時維持效能並降低延遲。
• AI 感知網路路由:將傳入請求排程至最有可能擁有先前推論運算熱快取的伺服器和加速器。
• 高效能通訊應用程式介面:可在伺服器之間實現更為快速高效的資料傳輸,並支援 NVIDIA Inference Xfer Library (NIXL)。

llm-d 獲業界領導者支持

這項全新開源專案已獲得由頂尖生成式 AI 模型供應商、AI 加速器領航者以及一流 AI 雲端平台組成的強大聯盟鼎力支持。CoreWeave、Google Cloud、IBM Research 和 NVIDIA 為創始貢獻者,AMD、Cisco、Hugging Face、Intel、Lambda 和 Mistral AI 則為合作夥伴,此陣容凸顯出業界為打造大規模 LLM 服務的未來所展現的深度協作。llm-d 社群亦獲得重要學術界創始支持者的響應,包括加州大學的 Sky Computing Lab(vLLM 的創始單位),以及芝加哥大學的 LMCache Lab(LMCache 的創始單位)。

Red Hat 秉持對開放協作的承諾,深知在生成式 AI 推論快速演進下,充滿活力且易於參與的社群為核心關鍵。Red Hat 將積極耕耘 llm-d 社群以推動其成長,為新成員營造包容的環境,並促進其持續發展。