Google 表示自家 TPU 著重成本效益與加速效能,非追求最完美架構,適合人工智慧模型實際應用需求。
在Google NEXT』25活動中,Google進一步說明其打造TPU加速元件背後想法,最主要是為了實現更純粹的運算加速,並且在諸多運算模式提供性價比更高的加速效果。
TPU始終鎖定更純粹的加速表現
除了TPU,其實Google過去以來就投入諸多客製化處理器設計,例如用於YouTube等服務的影片轉換編碼元件,以及用於Pixel手機等硬體的VPU影像運算元件,另外也包含用於量子運算的Willow,或是針對以客製化微控制器與分層橫向擴展卸載,藉此分散網路封包卸載及安全架構打造的Titanium,以及去年提出基於Arm Neoverse V2架構架構設計的「Axion」處理器,藉此對應不同運算加速需求。
而從2015年率先針對其服務打造首款純粹以加速為目的的TPU (Tensor Processing Unit,張量處理元件),便是藉由ASIC (特殊架構晶片)形式製作,鎖定高效能、更低成本與電力損耗,並且能無縫擴充使用特性,藉此對應更大規模人工智慧模型及資料庫運算加速,同時能在性能輸出與成本損耗取得最佳平衡。
Google最早在2015年對外宣布使用TPU,當時主要用於Google Search等自有服務加速運算,並且在2018年推出v2版本加入能疊加組成Pod運算架構,以及分散式共享記憶體架構,而在2020年推出的v3版本讓疊加規模加倍,同時也開始加入水冷設計,2022年推出的v4版本則是透過增加光纖互連設計,使其在Pod組合數量規模可大幅疊加,另外也開始逐年更新TPU設計。
在2023年推出的v5e與v5p版本,則是目前唯一在同一年內推出兩種衍生設計的TPU產品,分別對應不同運算加速需求。而在2024年推出的「Trillium」,更是鎖定新世代的人工智慧模型運算,並且標榜達v2版本算力的100倍。
「Ironwood」的意義在於提升人工智慧模型推論加速表現
今年宣布推出的「Ironwood」則是標榜藉由整合192GB高頻寬記憶體,藉此能處理規模更大的人工智慧模型與資料集 (可直接將模型資料全數讀入HBM記憶體內),同時降低頻繁傳輸資料且能進一步提高執行效率,峰值效能更達4614 TFLOPS,每瓦輸出效能更是第一代TPU的近30倍。
另一方面,Google也宣布以「Ironwood」構成的超級電腦,將能支撐幾乎所有的人工智慧工作負載,並且提供更高的執行成本效益,例如在每1美元價格下的執行效率成本,Gemini Flash 2.0能比OpenAI的GPT-4o高約24倍,更比DeepSeek-R1高出5倍左右。
投入TPU高度客製化晶片設計,Google表示藉此對應每瓦輸出性能更高的運算表現,同時更標榜硬體架構建立在更符合Google的軟體運算模式,藉此對應更高的運算加速輸出效益。
▲Google DeepMind人工智慧部門首席科學家Jeff Dean說明TPU背後設計的運算想法
Google預計會在今年底之前正式佈署應用「Ironwood」,藉此對應更密集運算需求,以及市場需求量持續增加的人工智慧運算發展。同時,Google也證實日前宣布推出的Gemini 2.5人工智慧模型,以及新版AlphaFold蛋白質結構預測程式都會在「Ironwood」加速架構上運作。
同時,應用在雲端基礎架構運算需求,Google也說明讓用戶能在Intel、AMD、NVIDIA運算晶片有更多選擇,並且能對應更純粹加速表現,例如將TPU加速運算用於內容排序推薦、電商平台內容搜尋等,更可進一步節省運算加速成本。
▲「Axion」是Google第一款針對雲端運算運作打造的客製化處理器,相比TPU僅提供純粹加速效能特性,更額外多了執行數據輸入、輸出運算能力,同樣標榜能在每瓦輸出效益發揮更高表現
當前加速運算硬體沒有最完美的設計,僅有更合適的選擇
至於此次推出的「Ironwood」除了可對應更大規模人工智慧運算加速,更大意義在於其增加模型推論運算加速設計,藉此讓使用此TPU加速運算了人工智慧模型更具「思考」能力,並且能在更短時間完成人工智慧互動反應,例如用在數位助理服務回覆答案,或是讓人工智慧更快完成推論生成內容。
不過,即便Google標榜TPU設計可以提供更純粹的加速運算表現,實際上仍無法對應所有運算使用需求,例如本身並不具備資料輸入、輸出控制功能,因此必須搭配其他處理器使用,而相較GPU也有不同加速運算使用模式,因此Google強調在其雲端服務平台提供更多運算加速的硬體架構選擇,讓用戶能依照實際需求選擇更合適的硬體加速方案,同時也標榜TPU能在性能及成本取得最佳平衡表現。