硬科技:Intel邁向人工智慧晶片的一小步:Knights Mill

2018.02.20 06:13AM
50508

Intel針對高效能運算 (HPC) 市場量身訂做、與NVIDIA為首GPGPU打對台的「多核騎士團」MIC (Many Integrated Core) 產品線「Xeon Phi」,源自於2006年在某學術研討會意外流出的「x86處理器顯示卡」Larrabee計畫,堪稱「x86義和團之亂」的最高潮。

Intel也曾在2008年的Hot Chips 20發表Larrabee的技術細節,野人獻曝其「兄弟獨有之創見」之「100%可程式化純軟體3D繪圖管線」,相信這場演講結束後,台下觀眾大概多半都會掛著劫後餘生倖存者的表情,附贈顫抖的眼皮與抽緒的嘴角,並帶著當機的大腦。

後來Larrabee這天馬行空的幻想 (讓人聯想到聖鬥士主題曲) 是怎麼破滅的,不值得各位科科浪費時間深究,但生命會自己找出路,Larrabee逐步演化成以下的多核心產品線,滿滿耗電量動輒200W甚至300W的「騎士」們。

嚴格說來,Intel MIC多核騎士團是到了在2015年Hot Chips 27披露、可獨立作為開機系統的Xeon Phi x200系列「Knights Landing (彷彿腦中浮現騎士下馬,一腳踏上地面的畫面特寫)」才算是成熟的產品。

根據不同的需求,可做成處理器或著是PCIe加速卡,為了低網路存取延遲的環境,也有特別支援Intel Omni-Path的版本。

主要的SIMD指令集,當然是AVX-512了,後來隨著新Xeon伺服器平台Purley的出現,也隨之引進至Skylake-SP。

運算主力是每個4條同時執行緒 (SMT) 非循序執行 (OOOE) 核心、附屬的兩個向量處理單元 (VPU),個別負責執行一個AVX-512指令,資料處理能量,相當於32個32位元單倍精確度或16個64位元雙倍精確度。

連結超級多核心的Mesh網狀網路匯流排,與MESIF快取資料一致性協定,也和Skylake-SP相同,或著不如說Skylake-SP就是分享Knights Landing的成果。

為一勞永逸解決記憶體頻寬與延遲,Knights Landing整合高達16GB容量的多晶片封裝嵌入式DRAM (MCDRAM),可選擇性作為快取或主記憶體使用。

而今年Hot Chips 29亮相的「Knights Mill」,則是為了人工智慧最佳化的修改版。講的更簡單一點,僅微幅修改其VPU,使其更有效率的執行大量更低精度的資料,因為訓練、深度學習與預測辨識,並不見得需要高浮點精確度,短整數即可滿足多數需求,否則記憶體消耗量和資料儲存容量絕對破表。

所以Knights Mill的64位元雙倍浮點效能僅Knights Landing的一半,但單精度浮點與16位元整數,卻激增至兩倍及四倍。

指令集也有相對應的擴充,以因應高密度32位元浮點乘積和與16位元整數的運算需求。

如果先前有看過Google第一代TPU與NVIDIA Volta的Tensor Core,想必這此應該很「有感」。

最後的最後,Intel總得趁機宣傳一下他們的「軟體生態系統」多麼的完善。雖然歷史的教訓早已告訴我們,這些跟軟體扯上關係的鳥事,往往才是Intel開發新市場最大的罩門。

Intel Xeon Phi家族一向對一般屬性消費者是極度陌生的產物,「存在感」恐怕遠比標準版Xeon處理器還要稀薄。看在這產品線似乎尚未闖出任何名號的份上,假以時日,搞不好就從此「默默的消失在世界的盡頭」也說不定。如果成真,希望不是筆者太烏鴉嘴呀。ㄎㄎ。