世界最快的超級電腦不僅是科技能力的象徵,常常也混入了民族自尊的色彩和國家狂熱的氣氛。在冷戰時代,美國沒事就會花大錢打造一臺玩一玩之外,近二十多年來,日本也喜歡插上一腳,Fujitsu、NEC、Hitachi等大日商都成立了超級電腦部門,而美方代表自然是Cray、IBM、HPE等等大型系統公司,而近年來,最狂熱的國家莫過於中國,在今年六月的最新Top 500超級電腦排行榜,佔掉了206台,明顯勝出124台的美國。
這些年來,超級電腦發展趨勢有一個重點:採用市售的「日用品 (Commodity)」處理器與電腦平臺,或著採取系出同源的技術與產品,可進一步提高超級電腦的可靠性、可用性與實際效能。
在個人電腦和叢集 (Cluster) 環境尚未普及之前,超級電腦業界普遍特別客製特別規格且量少價昂的向量處理器、記憶體及系統晶片,亦不乏引進極罕見半導體製程者 (像Cray-3竟然誇張到砷化鎵這麼獨特的材料)。換言之,昔日古老超級電腦的超高性能,源自於不計成本的使用特製化零件和材料,後果就是令人難以忍受的高昂費用。這些「高端試作品」自然遠不及消費性市場隨手可得的「成熟量產機」來得可靠,更換故障零組件的維護成本,更有如天壤之別。
過於特殊的專屬處理器,也需搭配特別的作業系統、應用程式與開發工具,限制應用彈性與作業系統選擇,拉高軟體開發成本,延長佈署及導入時間,尤其易於被特定廠商綁標,日後難以脫身。簡而言之,標準化硬體平臺規格享有更多樣化的開放原始碼軟體,增加硬體廠牌選擇性,促進高效能運算社群的彼此交流,加速技術演進。
所以Top 500可以看到滿滿的Intel處理器 (佔了476台),更可看到驚人的趨勢:越來越多的效能來自作為「加速器」的NVIDIA GPU (98台),貢獻了高達56%的新增總浮點運算能量,這些系統包含了全球排行第一及第三名的美國AI超級電腦Summit與Sierra。此外,全球最快的七台超級電腦,也有五台內建NVIDIA GPU。
參考文章:
美國能源局超級電腦 Summit 超越中國神威太湖之光,以 IBM Power 9 與 Tesla V100 達到 200 petaflops 性能
硬科技:Arm邁向高階伺服器最偉大的一步:Fujitsu A64FX
除了「最強Arm處理器」Fujitsu A64FX,IEEE HotChips 30還有兩篇跟超級電腦有關的議程:NVIDIA的DGX-2與NEC的SX-Aurora TSUBASA,前者正在超級電腦市場四處攻城掠地,後者曾因地球模擬器 (Earth Simulator) 而紅極一時、卻逐漸消失於Top 500的榜單。即使內容不算太新,但各位科科從這兩間廠商的簡報,依舊可隱約感受到超級電腦市場的變遷與風向。
奠基於新款NVSwitch的NVIDIA DGX-2
參考文章:
能溝通兩組 NVLink 並實現更多 GPU 串接的 NVSwitch 為何會出現、其運作特性又是如何
藉由NVSwitch設計,NVIDIA以16組Tesla V100打造「全球最大GPU」
NVIDIA的「迷你超級電腦」DGX-2早已被發表好一陣時日,關心繪圖技術與超級電腦的科科們絕不會陌生,甚至會有一股「怎麼又來了」的厭煩感。
參考文章:
講白了,NVLink的最重要功能,只是讓一堆GPU「合體」成一顆透過單一驅動程式控制、具有81900個CUDA核心與512GB HBM2記憶體的巨大GPU,這對自行組建多GPU挖礦機的數位貨幣礦工來說實在是天大的福音啊,但究竟會有多少人用過DGX-2挖礦就無人知曉了。
DGX-2的NVSwitch為台積電12nm FinFET製程,提供18埠NVLink與作為管理用途的PCIe界面。其實這種高速、高頻寬又需要高可靠度的交換晶片,藏在裡面的訊號處理技術一點都不簡單,筆者深信NVIDIA勢必在NVSwitch的研發過程中,吃了不少苦頭。
以八組Tesla V100為單位,GPU的六組NVLink個別連接到六顆NVSwitch組成基本功能區塊 (Building Block),再由兩個基本功能區塊組成16顆GPU的DGX-2,因此一台DGX-2塞了12顆NVSwitch。每一顆NVSwitch扣除接上八個GPU的剩餘十埠,作為對外聯繫其他NVSwitch之用。
最後,當然要跟前代比一比,才能彰顯第二代DGX值得客戶掏錢。在相同16顆GPU時,一台DGX-2的性能表現都有兩台DGX-1的兩倍以上。至於已經購入DGX-1的客戶會不會覺得買太早,這就外人無從置喙的餘地了。
NVIDIA今日在GPGPU與超級電腦的成就,並非一蹴可及,而是隨著1999年8月31日發表的GeForce 256 (NV10) 帶來GPU之名,接連在從2006年11月9日發表以SIMT (單指令多執行緒) 之名、引領GPU邁入通用運算領域的G80 (Tesla 1.0微架構) 和CUDA平行編程模型,耗費近二十年的光陰,才能一步一腳印的開拓出來的「下剋上」之路。在光鮮亮麗的簡報背後,各位科科更不該忘記NVIDIA令人敬佩的長期投資與不懈努力。
大幅削減成本、與NVIDIA正面對決的NEC SX-Aurora TSUBASA
自1983年起,NEC在超級電腦領域持續耕耘了35年。以NEC SX-6向量處理器為心臟、在2001年動工、耗費600億日圓興建的地球模擬器 (Earth Simulator),在2002年3月到2004年11月,雄踞世界最強超級電腦的寶座長達兩年多,堪稱是NEC在超級電腦軍備競賽中最風光的歲月。
但後來「日用品」等級的處理器和GPU的急速演進,慢慢的改變了一切,在2018年6月的Top 500,NEC建造的超級電腦只有兩台,不但毫無當家頭牌SX向量處理器的身影,其中一台還用了NVIDIA Tesla P100作為「加速器」。如果NEC希望SX向量處理器可以跟排山倒海般的GPU競爭並取得上風,爭取更多的「Design Win」,篤定需要降低進入門檻與採購成本,才有一絲勝算。更何況,就算只論日系高效能運算專用處理器,扣掉三席的Fujitsu SPARC64fx家族,還有PEZY這個在Top 500佔有四席之地的後起之秀。
NEC在SX-Aurora TSUBASA世代做出的最大革新,很簡單,但都很重要:
- 硬體:產品做成PCIe加速卡,系統底層採用標準化的x86伺服器平台,直接與NVIDIA「直球對決」。
- 軟體:既然硬體平台都用標準化的x86平台,軟體環境自然可改用Linux作業系統和開源方案,簡化佈署及管理作業,並讓客戶更方便自行客製化所需要的軟體架構。
改革軟體架構的意義尤其重大。過去使用NEC SX向量處理器的超級電腦,採用「光用看了就覺得用起來會很複雜」的專屬Unix作業系統「Super-UX」,現在總算有機會讓緬懷地球模擬器榮光的潛在客戶,更有一親芳澤的機會。
系出日本的老對手Fujitsu都可以在A64FX「有效引進最新技術以縮短產品開發時程與降低成本」,NEC也不落人後的選擇HBM2記憶體,還率先塞了六顆作到48GB容量。
參考文章:
關於向量電腦,夜深人靜之際,筆者曾經寫過一段語重心長的評論,至今難以忘懷:
『向量電腦實在是二十世紀計算機工業最高貴成就中的一種,彷彿像一種溫室植物,只能在特殊的環境中才能成長。換言之,那是從精鍊化和簡潔化的思想中所產生的觀念。由於電腦的普及化、泛用化與低價化,今天除了少數超級電腦以外,今天不再存有此種可能性了,隨著時代的演進,我們曾喪失了許多好東西,這也許是其中一件。』
嚴格說來,真正為了高效能運算量身訂做的向量處理器,從運算單元到記憶體子系統到處理器匯流排,有太多「細節」不是「兼差」的GPU可以比擬的。
假如筆者是NEC的行銷部門,不可能放過攻擊GPU弱點的機會,但前提是:要講的出來,更要說服眾人。
跟NVIDIA Tela V100正面對決,連「Much Cheaper Than V100」都喊出來了,害筆者也想私下去問問價格了。不過可以看出,NEC也不認為自己有全面的優勢,價格戰完全是無法避免的選擇。「降尊紆貴」後的NEC SX向量處理器,能夠搶下多少客戶和Top 500名次,讓未來的Top 500排名給人多了一點期待。
推廣普及才是硬道理
再怎麼強大的武器系統,若無一定程度的量產,降低生產和補保價格,也很難變成實質戰力。電腦技術亦同,一旦缺乏推廣、普及不易,也將成為死在沙灘上的前浪,歷史上從不缺供後人憑弔的前車之鑑,如此簡單的道理,相信各位科科都懂。NVIDIA和NEC這兩間看似毫無交集的公司,近二十年來在超級電腦市場的消長,殷鑑不遠,絕對值得科科深思。