硬科技：從地球模擬器到Summit：被GPU顛覆的超級電腦賽豬公 (138614)

Supercomputer, Computer, ENIAC, TOP500, National Supercomputer Center in Guangzhou, , IBM, Supermicro, Microcomputer, High performance computing, super komputer, technology, electronic device, server, computer network, computer cluster, computer, product, computer case

世界最快的超級電腦不僅是科技能力的象徵，常常也混入了民族自尊的色彩和國家狂熱的氣氛。在冷戰時代，美國沒事就會花大錢打造一臺玩一玩之外，近二十多年來，日本也喜歡插上一腳，Fujitsu、NEC、Hitachi等大日商都成立了超級電腦部門，而美方代表自然是Cray、IBM、HPE等等大型系統公司，而近年來，最狂熱的國家莫過於中國，在今年六月的最新Top 500超級電腦排行榜，佔掉了206台，明顯勝出124台的美國。

這些年來，超級電腦發展趨勢有一個重點：採用市售的「日用品 (Commodity)」處理器與電腦平臺，或著採取系出同源的技術與產品，可進一步提高超級電腦的可靠性、可用性與實際效能。

在個人電腦和叢集 (Cluster) 環境尚未普及之前，超級電腦業界普遍特別客製特別規格且量少價昂的向量處理器、記憶體及系統晶片，亦不乏引進極罕見半導體製程者 (像Cray-3竟然誇張到砷化鎵這麼獨特的材料)。換言之，昔日古老超級電腦的超高性能，源自於不計成本的使用特製化零件和材料，後果就是令人難以忍受的高昂費用。這些「高端試作品」自然遠不及消費性市場隨手可得的「成熟量產機」來得可靠，更換故障零組件的維護成本，更有如天壤之別。

過於特殊的專屬處理器，也需搭配特別的作業系統、應用程式與開發工具，限制應用彈性與作業系統選擇，拉高軟體開發成本，延長佈署及導入時間，尤其易於被特定廠商綁標，日後難以脫身。簡而言之，標準化硬體平臺規格享有更多樣化的開放原始碼軟體，增加硬體廠牌選擇性，促進高效能運算社群的彼此交流，加速技術演進。

所以Top 500可以看到滿滿的Intel處理器 (佔了476台)，更可看到驚人的趨勢：越來越多的效能來自作為「加速器」的NVIDIA GPU (98台)，貢獻了高達56%的新增總浮點運算能量，這些系統包含了全球排行第一及第三名的美國AI超級電腦Summit與Sierra。此外，全球最快的七台超級電腦，也有五台內建NVIDIA GPU。

參考文章：

美國能源局超級電腦 Summit 超越中國神威太湖之光，以 IBM Power 9 與 Tesla V100 達到 200 petaflops 性能

硬科技：Arm邁向高階伺服器最偉大的一步：Fujitsu A64FX

除了「最強Arm處理器」Fujitsu A64FX，IEEE HotChips 30還有兩篇跟超級電腦有關的議程：NVIDIA的DGX-2與NEC的SX-Aurora TSUBASA，前者正在超級電腦市場四處攻城掠地，後者曾因地球模擬器 (Earth Simulator) 而紅極一時、卻逐漸消失於Top 500的榜單。即使內容不算太新，但各位科科從這兩間廠商的簡報，依舊可隱約感受到超級電腦市場的變遷與風向。

奠基於新款NVSwitch的NVIDIA DGX-2

參考文章：

藉由NVSwitch設計，NVIDIA以16組Tesla V100打造「全球最大GPU」

NVIDIA的「迷你超級電腦」DGX-2早已被發表好一陣時日，關心繪圖技術與超級電腦的科科們絕不會陌生，甚至會有一股「怎麼又來了」的厭煩感。

參考文章：

硬科技：淺談GPU到底是什麼（下）：走向汎用化的GPGPU

講白了，NVLink的最重要功能，只是讓一堆GPU「合體」成一顆透過單一驅動程式控制、具有81900個CUDA核心與512GB HBM2記憶體的巨大GPU，這對自行組建多GPU挖礦機的數位貨幣礦工來說實在是天大的福音啊，但究竟會有多少人用過DGX-2挖礦就無人知曉了。

DGX-2的NVSwitch為台積電12nm FinFET製程，提供18埠NVLink與作為管理用途的PCIe界面。其實這種高速、高頻寬又需要高可靠度的交換晶片，藏在裡面的訊號處理技術一點都不簡單，筆者深信NVIDIA勢必在NVSwitch的研發過程中，吃了不少苦頭。

以八組Tesla V100為單位，GPU的六組NVLink個別連接到六顆NVSwitch組成基本功能區塊 (Building Block)，再由兩個基本功能區塊組成16顆GPU的DGX-2，因此一台DGX-2塞了12顆NVSwitch。每一顆NVSwitch扣除接上八個GPU的剩餘十埠，作為對外聯繫其他NVSwitch之用。

最後，當然要跟前代比一比，才能彰顯第二代DGX值得客戶掏錢。在相同16顆GPU時，一台DGX-2的性能表現都有兩台DGX-1的兩倍以上。至於已經購入DGX-1的客戶會不會覺得買太早，這就外人無從置喙的餘地了。

NVIDIA今日在GPGPU與超級電腦的成就，並非一蹴可及，而是隨著1999年8月31日發表的GeForce 256 (NV10) 帶來GPU之名，接連在從2006年11月9日發表以SIMT (單指令多執行緒) 之名、引領GPU邁入通用運算領域的G80 (Tesla 1.0微架構) 和CUDA平行編程模型，耗費近二十年的光陰，才能一步一腳印的開拓出來的「下剋上」之路。在光鮮亮麗的簡報背後，各位科科更不該忘記NVIDIA令人敬佩的長期投資與不懈努力。

大幅削減成本、與NVIDIA正面對決的NEC SX-Aurora TSUBASA

自1983年起，NEC在超級電腦領域持續耕耘了35年。以NEC SX-6向量處理器為心臟、在2001年動工、耗費600億日圓興建的地球模擬器 (Earth Simulator)，在2002年3月到2004年11月，雄踞世界最強超級電腦的寶座長達兩年多，堪稱是NEC在超級電腦軍備競賽中最風光的歲月。

但後來「日用品」等級的處理器和GPU的急速演進，慢慢的改變了一切，在2018年6月的Top 500，NEC建造的超級電腦只有兩台，不但毫無當家頭牌SX向量處理器的身影，其中一台還用了NVIDIA Tesla P100作為「加速器」。如果NEC希望SX向量處理器可以跟排山倒海般的GPU競爭並取得上風，爭取更多的「Design Win」，篤定需要降低進入門檻與採購成本，才有一絲勝算。更何況，就算只論日系高效能運算專用處理器，扣掉三席的Fujitsu SPARC64fx家族，還有PEZY這個在Top 500佔有四席之地的後起之秀。

NEC在SX-Aurora TSUBASA世代做出的最大革新，很簡單，但都很重要：

硬體：產品做成PCIe加速卡，系統底層採用標準化的x86伺服器平台，直接與NVIDIA「直球對決」。
軟體：既然硬體平台都用標準化的x86平台，軟體環境自然可改用Linux作業系統和開源方案，簡化佈署及管理作業，並讓客戶更方便自行客製化所需要的軟體架構。

改革軟體架構的意義尤其重大。過去使用NEC SX向量處理器的超級電腦，採用「光用看了就覺得用起來會很複雜」的專屬Unix作業系統「Super-UX」，現在總算有機會讓緬懷地球模擬器榮光的潛在客戶，更有一親芳澤的機會。

系出日本的老對手Fujitsu都可以在A64FX「有效引進最新技術以縮短產品開發時程與降低成本」，NEC也不落人後的選擇HBM2記憶體，還率先塞了六顆作到48GB容量。

參考文章：

淺談GPU到底是什麼（上）：不同的運算型態

關於向量電腦，夜深人靜之際，筆者曾經寫過一段語重心長的評論，至今難以忘懷：

『向量電腦實在是二十世紀計算機工業最高貴成就中的一種，彷彿像一種溫室植物，只能在特殊的環境中才能成長。換言之，那是從精鍊化和簡潔化的思想中所產生的觀念。由於電腦的普及化、泛用化與低價化，今天除了少數超級電腦以外，今天不再存有此種可能性了，隨著時代的演進，我們曾喪失了許多好東西，這也許是其中一件。』

嚴格說來，真正為了高效能運算量身訂做的向量處理器，從運算單元到記憶體子系統到處理器匯流排，有太多「細節」不是「兼差」的GPU可以比擬的。

假如筆者是NEC的行銷部門，不可能放過攻擊GPU弱點的機會，但前提是：要講的出來，更要說服眾人。

跟NVIDIA Tela V100正面對決，連「Much Cheaper Than V100」都喊出來了，害筆者也想私下去問問價格了。不過可以看出，NEC也不認為自己有全面的優勢，價格戰完全是無法避免的選擇。「降尊紆貴」後的NEC SX向量處理器，能夠搶下多少客戶和Top 500名次，讓未來的Top 500排名給人多了一點期待。

推廣普及才是硬道理

再怎麼強大的武器系統，若無一定程度的量產，降低生產和補保價格，也很難變成實質戰力。電腦技術亦同，一旦缺乏推廣、普及不易，也將成為死在沙灘上的前浪，歷史上從不缺供後人憑弔的前車之鑑，如此簡單的道理，相信各位科科都懂。NVIDIA和NEC這兩間看似毫無交集的公司，近二十年來在超級電腦市場的消長，殷鑑不遠，絕對值得科科深思。