AWS 推出自行設計液冷技術,從設計到部署僅花 11 個月,支援其 AI 資料中心運算效率提升與節能。
AWS近期在美國奧勒岡州的資料中心示範一項轉型設計——從傳統空冷 (air cooling)轉為液冷 (liquid cooling)系統設計,不僅為資料中心帶來效能提升,也為永續發展提供新解方。
相比傳統資料中心都是以空冷形式進行冷卻、散熱,但在當前人工智慧運算需求大幅增加情況下,傳統空冷系統已經難以在成本效益平衡情況下達到更好散熱效果,因此不少驅動人工智慧運算的資料中心都已經開始導入液冷系統,AWS也不例外。
空氣已不敷使用,液冷才撐得住AI熱浪
在傳統資料中心設計中,「冷卻」意味著將大量冷空氣吹過伺服器,帶走機器運作時產生的熱能。但這樣的模式,隨著人工智慧運算所需的晶片密度與功耗劇增,已經逐漸面臨極限。
AWS資料中心冷卻系統資深經理Dave Klusas直言:「我們的目標不是營造辦公室般舒適的氣溫,而是以最少的能源與水資源,讓伺服器不過熱。」但這對以數兆次計算為單位的人工智慧晶片運作來說,透過空氣對流的導熱效率已經遠遠不夠。
尤其是像訓練大型語言模型 (LLM)等工作負載,需要將大量高效晶片集中部署,進一步提升資料交換速度、降低延遲。這樣的排布雖然對運算效能大有助益,卻也帶來前所未有的散熱挑戰。
AWS打造專屬液冷系統,從白板設計到實際佈署只花不到一年
AWS選擇自己設計解法。他們研發出一套直接接觸晶片的液冷系統,透過放置在晶片上的「冷卻板」 (cold plate),讓液體在密閉管路中循環,帶走熱能,並且經由後端的冷卻系統降溫再回流。
這樣的設計不但能提供超過空氣900倍的導熱效率,更是全封閉循環系統,不會額外消耗資料中心的水資源。液體的溫度甚至能達到「熱水池」的水準,也不需要像空氣冷卻那樣靠大量風扇耗能。
AWS表示,從構想到實作,僅用了4個月設計原型、再花11個月完成正式佈署,包含供應鏈建立、軟體撰寫與實地測試。其核心理念就是「可擴充、可調整、夠彈性」。
液冷系統量產化,將陸續導入更多資料中心
目前,這套系統已從AWS研發中心走入實際資料中心環境。未來數月,將進一步擴展部署規模,並依不同資料中心與應用需求靈活配置。
有趣的是,AWS甚至為此打造了自家冷卻液分配單元 (Coolant Distribution Unit(,效能與效率皆高於市面同類產品。這些努力不僅是技術升級,更反映AWS對人工智慧未來、高效運算與綠能發展的佈局企圖。
Dave Klusas表示:「我們創造的是一個能精準部署、節能又具備成本效益的液冷系統,未來能根據客戶需求彈性擴展。」