Google 發表第七代 TPU Ironwood,至今性能最強,可加速人工智慧運算,推動 AI 技術發展。
去年在Google I/O 2024揭曉、代號「Trillium」的第6代TPU之後,Google在此次Next 』25大會活動上公布代號「Ironwood」、標榜性能最高,同時更針對人工智慧「思考」加速打造的第7代TPU。
相較過往設計聚焦在推論加速,Google強調「Ironwood」不僅是歷年推出性能最高,同時也更節省電耗設計的TPU,更可針對人工智慧模型進行「思考」、主動提供見解時進行加速,藉此讓更多人工智慧代理服務能更快執行運作。
「Ironwood」以9216組液冷晶片組成,並且透過晶片間互連網路介面 (ICI)串接,可對應42.5 Exaflops算力表現,約為目前全球最大規模超級電腦El Capitan對應算力的24倍,同時也能對應最大規模的人工智慧工作負載平行處理能力,而每組晶片的峰值算力均可達4614 TFLOPS。
同時,Google強調「Ironwood」的記憶體及網路架構可確保運算資料正確性,並且具備專門用於處理進階排名與推薦工作負載的增強型SparseCore加速核心,可應用於更大規模人工智慧模型運作,或是處理科學、金融相關數據。
而藉由Google DeepMind團隊開發的Pathways人工智慧框架,更可讓開發者更容易運用「Ironwood」算力,甚至能將數十萬組「Ironwood」構成「Ironwood Pod」,透過更龐大算力推動人工智慧執行效能。
相比去年推出代號「Trillium」的第6代TPU,「Ironwood」標榜在每瓦性能提升2倍,代表在相同電力情況下能發揮更高人工智慧算力,配合更進一步調整的晶片設計與液冷方案,更可維持更高人工智慧工作負載表現,同時節能表現更比2018年推出的第1代TPU高出將近30倍。
其他數據,則包含每組「Ironwood」配置192GB高頻寬記憶體 (HBM),比「Trillium」增加6倍,藉此能處理規模更大的人工智慧模型與資料集,同時降低頻繁傳輸資料且能進一步提高執行效率。
隨著增加高頻寬記憶體資料傳輸頻寬,更使得每組「Ironwood」資料傳輸頻寬增加為7.2 Tbps,比「Trillium」高出4.5倍,同時也透過晶片間互連網路介面設計,讓晶片之間通訊傳輸頻寬增加為雙向1.2 Tbps,比「Trillium」高出1.5倍,進而提高大規模高效分散式訓練及推論效率。
Google預計會在今年底之前正式佈署應用「Ironwood」,藉此對應更密集運算需求,以及市場需求量持續增加的人工智慧運算發展。同時,Google也證實日前宣布推出的Gemini 2.5人工智慧模型,以及新版AlphaFold蛋白質結構預測程式都會在「Ironwood」加速架構上運作。
另一方面,Google也宣布以「Ironwood」構成的超級電腦,將能支撐幾乎所有的人工智慧工作負載,並且提供更高的執行成本效益,例如在每1美元價格下的執行效率成本,Gemini Flash 2.0能比OpenAI的GPT-4o高約24倍,更比DeepSeek-R1高出5倍左右。
除了提供以TPU構成的超級電腦運算資源,Google在日前舉辦的GTC 2025活動上也宣布與NVIDIA合作,分別在其A4、A4X VM虛擬機器環境增加NVIDIA B200及 GB200 NVL72 GPU的選擇,並且配合全新400G雲端連接與跨雲互連設計,提高從本地或其他雲端平台連接到Google Cloud服務的傳輸頻寬。