Intel甫發表的Lunar Lake相較代號Meteor Lake的第一代Core Ultra又是一次大幅的架構與設計概念變動,Intel在COMPUTEX前夕針對技術媒體還有技術KOL(包括在解禁前就先把投影片貼微博的中國KOL)進行TECH tour.tw技術說明會;從此次的技術說明會,可看到Lunar Lake的設計概念是在進一步研究過Arm陣營PC處理器後的回擊之作,專注在發揮能源效率而非效能最大化。
從SoC、運算與圖形3Tile回歸更單純的運算Tile搭配系統控制Tile設計
▲Lunar Lake將CPU、GPU、NPU納入單一運算Tile,並搭配管理與連接功能的平台控制Tile
Meteor Lake最大的特色是將架構劃分為三個運算Tile,包括掌管所有基礎功能並包含雙核LP-E Core、NPU等的SoC Tile,包含P Core與E Core的運算Tile與GPU Tile;然而到了Lunar Lake,則進一步將Tile再度打散整併,主要以運算Tile與控制Tile兩個主要Tile掌管主要功能,而運算Tile具備CPU、GPU、NPU等重點架構,並透過分區方式將架構進行配置,控制Tile則負責管理處理器、I/O,並將無線傳輸架構也整合於其中。
Lunar Lake採用這樣的架構與追求能源效率最大化密不可分,筆者認為相較原本的3 Tile分區配置,Lunar Lake的設計有助於簡化多個Tile溝通的複雜性,並簡化Tile溝通產生的延遲與耗損,藉由傳統晶粒分區設計方式將不同功能的群組於晶粒中分配,再透過4個PMIC管理以較傳統更精密的時脈、電壓管理能耗,將能量轉換效率提升。
能耗效率遠勝LP-E Core、效能直逼Raptor Cove的Skymount架構
▲Skymount可說是E Core大幅進化的架構
Skymount是Intel新一代的E Core設計,Skymount的概念類似Meteor Lake的SoC Tile的LP-E Core的,但借助架構的大幅改善,性能直逼現行高效能P Core的Raptor Cove架構;這也使得Skymount能夠以更出色的能耗效率負擔日常應用負載,減少使用P Core的情境,進一步使系統在日常應用更為節能。
▲Skymount在各細節的提升
▲快取容量、頻寬獲得提升
Skymount仍延續Gracemount四核心一個群組並共享快取的模組設計,在分支預測、解碼、亂數執行引擎、序列等都獲得更大幅的提升,同時向量性能也較以往大幅提升,4核心共享的L2快取提升至4MB,此外L2頻寬也提高至128KB,整體的設計朝高性能核心的理念邁進,但仍設法減少對DIE面積的佔用。
▲Skymount強調兼顧效率與性能
▲對比先前的LP E-Core的IPC激增
▲單執行緒是LP E-Core的兩倍,僅需1/3能耗即可達到LP E-Core峰值性能
▲多執行緒同樣僅需1/3能耗即可達到雙核的LP E-Core峰值性能,最大效能則提升4倍
以低功耗架構對比,在相近LP E-Core的能耗限制下基本性能提升幅度達1.38倍、浮點運算則提升達1.68倍。在單執行緒部分,Skymount僅需LP E-Core的1/3能耗就達到其峰值性能,同能耗性能提高1.7倍,整體性能則是LP E-Mount的2倍;在多執行緒的情境雖有些勝之不武,不過4核心的Skymount仍可輕鬆的以LP E-Core的1/3能耗達到相同性能,同樣能耗的性能提升2.9倍,最大效能高出4倍。
▲Skymount的IPC對比Raptor Cove甚至還有2%領先
▲雖然最大性能落後Raptor Lake,不過Skymount的優勢在於日常應用的優異能源效率
▲在日常應用負載僅需Raptor Lake約60%能耗即可達到相同的性能
對比完必然勝出的節能架構,Skymount還要對比第13代Core的Raptor Cove性能核架構;面對性能架構Skymount仍有2%的IPC領先,雖然最大效能仍不及Raptor Cove,然而若僅將日常工作負載所需的性能區塊獨立檢視,Skymount則僅需Skymount約60%的能耗就能達到相同的性能層級,在同樣的能耗則實現1.2倍的效能;這也象徵以往已需動用P Core執行的中負載運算內容,現在僅需使用低功耗的Skymount即可自低負載涵蓋到中等負載,僅有更極端情境才會動用到P Core。
為追求能耗效率最大化取消超執行緒的Lion Cove
▲應用於Lunar Lake的Lion Cove將能耗效率優先於最大化效能
▲具備HT的世代分為三種執行模式,P-Core單執行緒、純E-Core以及P-Core多執行緒
超執行緒Hyper-Threading向來是被視為Intel性能核心必備的技術,然而HT是起於數十年前核心數量不超過4核心的前提、但需滿足多執行緒負載需求所開發的技術;但隨著當前的CPU「核戰」,4核心配置已是最低基本戰力,主流處理器皆已超過6核心以上,8核心則可視為性能處理器的入場票,Intel也重新思索HT技術在當前時空情境的必要性,尤其是針對能耗效能優先的Lunar Lake。
▲在針對單執行緒最佳化的設計下,Lion Cove於單執行緒的能耗效率、單位面積效能等全面提升
▲雖然Lion Cove的多執行緒面積效能減少15%,但能耗效能與每單位面積能耗效能卻反而提升
將能耗效能擺第一位的Lunar Lake的P-Core採用的Lion Lake架構就顛覆傳統的拿掉HT技術,Intel也拿出實證說明為何要大膽的拿掉HT技術;根據Intel的說法,Lunar Lake使用的Lion Cove的設計針對不具HT技術進行最佳化,能較傳統具備HT技術的架構在單執行緒提升15%能耗效能比,單位面積性能提升10%,整體每單位能耗效能提升達30%;而在多執行緒雖然喪失15%的單位能耗效能,但能耗效能比提升5%,同時每單位能耗效能比仍有15%的增長;故考量到能耗效能為優先的前提下,Lion Cove斷然選擇放棄HT技術。
▲時脈調整自傳統100MHz為單位改為更精密的16.67Hz為單位
此外過往P Core皆是著重性能最大化的設計,但為了能與Arm架構抗衡,Lion Cove採用由AI驅動的自主能耗調節技術,且借助更精密的能源管理架構,將以往以100MHz為單位的時脈微調進化為以16.67MHz為單位的調節,使能耗、發熱更為線性與合理。
▲快取新增更前端的L0
▲內部結構改善以往細微而雜亂的結構採用分區方式
▲Lion Cove提升14%的IPC,且能耗效率有著10%至18%的增長
同時在架構設計也進行相當程度的革新,如將亂數引擎獨立、提高亂數引擎架構、向量擴充等,此外快取記憶體設計也更為複雜,除了快取增加以外,較以往的L1+L2快取還增加一層前端L0快取,同時在內部的設計也重新將不同的架構核心構成分區,從以往稱為Sea of”Fubs”的大量小結構改為Sea of Cells的結構分區;在層層的設計與架構革新,Lion Cove的IPC獲得14%增長,能耗效能在不同區間則有10%至18%提升。
呼應Lunar Lake能耗效率最大化的Thread Direct邏輯
▲Lunar Lake的Thread Direct可視為順序逆轉的Raptor Lake或拿掉SoC Tile程序的Meteor Lake
Thread Direct是自Intel首次使用P-Core搭配E-Core的Raptor Lake導入的核心資源分配技術,不過在採用3個Tile的Meteor Lake在資源分配邏輯以晶過一次改變,而Lunar Lake的Thread Direct則又進一步因應架構與能耗優先改變邏輯。
在Alder Lake與Raptor Lake架構,任務將率先由P-Core讀取,當發現運算需求較低時再呼叫E-Core執行,然而當E-Core執行不順遂時又再度將任務遞交給P-Core;在SoC Tile具備LP E-Core的Meteor Lake則會優先把任務交給LP E-Core,當LP E-Core無法負單任務運算負載,再把任務交棒給運算Tile,由運算Tile的E-Core先進行運算,當負載增加時轉移到P-Core。
Lunar Lake的Thread Direct的資源分配邏輯可視為Raptor Lake的翻轉與Meteor Lake的精簡版,Lunar Lake會把任務交由低功耗區塊內的E-Core執行,當運算性能不足時交棒給P-Core執行;也許會有人好奇只不過是與Alder Lake/Raptor Lake的順序對調能有多少差異,然而若檢視執行邏輯就可發現先把任務交付給P-Core後,會因為任務負載不同反覆在P-Core與E-Core之間交棒,但Lunar Lake則是直接由E-Core之後就交棒給P-Core,程序更為精簡。
▲自OS系統層能因應負載需求以不同CPU區塊執行,也支援同步啟用的不分區模式
考慮到Lunar Lake的Skymount E-Core效能大幅提升,以及多數日常任務需求皆為中與低負載,意味著同樣將任務傳輸到CPU時,相較先需喚醒P-Core後才開始分配任務的第一代Thread Direct,Lunar Lake能夠直接先以最高能耗效能的E-Core進行任務,降低初始資源的浪費且僅在需要時交棒P-Core執行;至於對比還需跨Tile的Meteor Lake好處當然更為明顯,畢竟在Meteor Lake等於一項任務可能需要跨兩個Tile、3個處理器群組才能完成。
此外Intel也進一步強化與簡化OS層對於Thread Direct技術的管理能力,使系統能夠智慧的分配任務資源選擇合適的CPU群組,此外還可依據E-Core所屬的節能區運算,P-Core所屬的混核與運算區,以及同步使用兩區的不分區全核心運算模式執行任務,一切的一切都是以能耗效率最大化的目的為最優先前提。
基本性能、AI性能與光線追蹤性能皆提升的Xe2 GPU架構
▲Xe2進一步為了節能進化
▲Xe2的架構採用可擴充的模組化設計,於Lunar Lake為最多8 GPU配置
▲Xe2整合XMX矩陣擴充,達67 TOPS的INT8性能
▲Xe2 GPU將架構針對AI需求強化向量引擎,也包括加入XMX擴充
▲XMX支援INT8與FP16兩項主流精度
Lunar Lake採用新一代的Xe2 GPU架構,Intel指稱Xe2的基礎架構是一種具備擴展性的模組化架構,而在Lunar Lake則配置最高8GPU,並針對AI需求強化向量引擎與矩陣引擎設計,在向量引擎除了支援SIMD16與SIMD32以外,透過XMX矩陣擴充,可支援自INT2、INT4、INT8、FP16至BF16等精度,還可擴充對FP64的支援。
▲強調Xe2 GPU足以執行Stable Diffusion圖像生成
▲光追引擎Xe RTU獲得提升
▲Xe2的能源效率與性能較Xe有顯著的提升(MSI Claw表示:Intel你陰我嗎?)
此外圖形運算架構亦獲得大幅強化升級,並具備更大的快取,還獲得進一步升級的光線追蹤引擎,使得Xe2的能耗效能表現有顯著的提升;Lunar Lake的Xe2具備8核心、64個向量引擎、2路幾何運算通道、8個光追引擎等,較前一世代提升1.5倍的效能,能以前一代U系列GPU的能耗達到前一代H系列GPU的性能,同時結合XMX亦足以執行Stable Diffusion等AI圖像生成。
▲Xe2 GPU支援eDP 1.5螢幕介面規格,更省電且支援可變更新率控制
▲Xe2 GPU在節能的前提下強化基本性能、光追與AI性能
在圖像引擎部分,Lunar Lake具備3路影像輸出,單路可達到8K60 HDR規格或1080p360/1440p/360規格,3路輸出每路最高可達4K60 HDR,外部輸出支援HDMI 2.1、DisplayPort 2.1規格,較大的提升在於連接顯示器的介面提升到更節能且支援動態顯示更新控制的eDP1.5,至於多媒體引擎則進一步新增新一代動態解析度串流編碼VVC的解碼能力。
不光只是NPU的異構運算AI PC平台
▲Intel預期2025年NPU在AI運算的比重會增加,然而GPU運算的占比仍將維持40%
雖然現在由於生成式AI盛行以及微軟定義的Copilot+ PC的硬體規格要求,會使大眾誤解AI PC僅依賴NPU即可實現,不過實際上扣除生成式AI以外,許多的AI任務執行仍需仰賴CPU、GPU與其它指令集,故Intel強調Lunar Lake的NPU 4不僅具備48 TOPS的NPU算力與較前一代2倍的能耗效率比,加上以支援VNNI與AMX指令的CPU的5 TOPS,與支援MXM的Xe2 GPU的67 TOPS,單一Lunar Lake共具備120 TOPS性能。
▲Lunar Lake的NPU 4的效能大幅提升至48 TOPS
▲NPU 4是Intel在處理器整合NPU的重要進展
會有這樣的性能分配也與當前AI任務對於不同架構的運算資源需求有關,縱使生成式AI使NPU運算的地位提昇,但目前AI運算最大的性能來源仍是佔有40%的GPU,NPU的崛起並未動搖到GPU的運算比重,而是削減CPU運算需求的比重,Intel預期2025年CPU運算的比重將會至現行的35%減少為30%,而NPU運算的比重則接手CPU減少的5%運算需求,將與CPU平起平坐。
▲NPU 4將是驅動許多新一代AI應用的關鍵架構,但也需結合高效能的CPU與GPU
Intel看到AI需求的崛起後,也積極投入多項AI開源框架的支援與計畫,現在有越來越多的ISV(獨立軟體供應商)投入對AI的支援,預計2025年會有超過350項的軟體支援與整合AI,並用於包括增強、互動、輔助、創意生成等領域;此外在AI推論領域,業界也將透過降低精度的方式減少資料的占用,使同樣的記憶體可執行更大的模型,或減少執行模型對記憶體的佔用。
因應裝置型態與節能的連接技術與延伸應用
▲Lunar Lake平台原生3路Thunderbolt 4
Lunar Lake在連接技術也有相當的變革,最重要的是將許多原本需透過外部晶片或轉換時線的技術直接在平台原生整合;其中Lunar Lake直接整合Wi-Fi 7與符合LE Audio規範的藍牙5.4無線連接平台,此外考慮到裝置的型態,以及現行Thunderbolt 4可提供雙向充電、數據與影像傳輸的整合性,Lunar Lake晶片亦原生整合3路的Thunderbolt 4通道。同時平台也具備如Thunderbolt Share、Wi-Fi Sensing、跨系統裝置共享的Unison等。
▲Thunderbolt 4對於輕薄型態裝置能提供高效能、多用途的傳輸體驗,並能透過單一纜線連接到XR頭戴裝置
採用USB Type-C連接埠、整合數據傳輸、供電與影像的Thunderbolt 4能提供豐富的應用,其中對於XR設備能夠減化連接的纜線,以單一Thunderbolt 4提供裝置的影像與感測器數據的傳輸,同時輔以Intel稍早宣布的Thunderbolt Share技術,能夠提供跨PC的連接共享體驗,此外隨著預期2024年底Thunderbolt 5裝置將陸續問世,透過Thunderbolt 4連接Thunderbolt 5 SSD也能有比起Thunderbolt 3更好的相容性。
▲將Wi-Fi藍牙整合至處理器內部可降低能耗與降低延遲
▲Intel透過Wi-Fi訊號的變化提供趨近感知應用
以往Intel處理器搭配的無線與藍牙模組是透過外部模組實現,從USB逐步轉移到頻寬更高、延遲更低的PCIe,不過Lunar Lake首度將Wi-Fi 7與藍牙5.4整合至平台控制Tile內,較外部連接又進一步改善能耗效率與提升反應速度,同時對於Intel提出的Wi-Fi Sensing技術,透過整合Wi-Fi的低延遲特性,有助於感知訊號變化時更快的進行使用者趨近或離開感知。
▲Intel Unison將添加三項新功能
此外Unison也將提供更多的功能,除了現行與智慧手機搭配的手機文字輸入、延伸螢幕,搭配應用程式的括裝置檔案分享、利用電腦接聽手機通話以外,還新增透過PC鍵盤滑鼠控制平板裝置,不強制需要Union app的跨裝置檔案控想,還有手機至PC的通用熱點等功能。