第 4 代 Intel® Xeon® 可擴充處理器,助企業坐享節流與永續雙效

眾所矚目的 第 4 代 Intel® Xeon® 可擴充處理器,於 2023 年 1 月重磅問世;它之所以引發關注,在於匯聚諸多亮點於一身,除大幅提升效能外,更整合多項新世代加速技術,不僅有助提升資料中心、AI、高效能運算(HPC)等工作負載的運作效率,亦同時達到節流、減碳等驚喜效益。

節流、減碳所為何來?主要是因為,第 4 代 Intel® Xeon® 可擴充處理器基於「Accelerate with Xeon」訴求,提供多項加速器,可幫助處理器核心卸載許多繁雜瑣碎的工作,從而釋放更多 CPU 運算週期來執行關鍵運算,使企業得以更有效利用處理器核心,一來有助降低伺服器建置成本,二來許多 ISV 採取核心數定價模式,所以隨著所需核心數降低、意謂企業更能發揮軟體授權支出效益;由此可見,企業拜 CPU 內建加速器之賜,即能以更少核心實現相同效能,連帶降低 IT 架構的總體持有成本(TCO),實現節流效益。再者因加速器的功率需求小於處理器,意謂企業可憑藉比從前更低的能耗、來執行同樣的工作負載,創造減碳價值。

憑藉新通道技術,實現效能躍升目標

不可諱言,多數人初探第 4 代 Intel® Xeon® 可擴充處理器時,第一步即是關注基本規格的轉變。首先從 Silicon 角度來看,它採用「Intel 7」製程,相較於現行 10nm SuperFIN,每瓦效能約可提高 10~15%。

接著談到硬體規格,第 4 代 Intel® Xeon® 可擴充處理器蘊含四個重大改變。包括「從 DDR4 升級為 DDR5」、「從 PCIe 4.0 升級為 PCIe 5.0」、「新增 CXL 1.1 通訊介面」、「將 CPU 之間的互連架構升級為 UPI2.0」。基本上,這四項變革都圍繞於 I/O 通道的技術突破。

拜 DDR5 新技術到位,使 Xeon 處理器的記憶體頻寬從 3200 MT/s 躍升 1.5 倍,達到 4800 MT/s。至於 PCIe(PCI Express),每升級一個世代,頻寬就翻倍增長,如今提升為 PCIe 5.0 亦有相同功效。

有關 CXL(Compute Express Link),是一種處理器記憶體互連共享技術,係以 PCIe 5.0 作為傳輸介面的實體層,旨在讓 CPU 藉由 CXL 提供的 Cache Coherent Protocol,存取週邊加速運算裝置上的共享記憶體,堪稱一大突破。論及另一項重要的規格轉變、意即 UPI2.0,單一通道速率高達 16 GT/s,使 Intel CPU 之間得以透過 4 條 UPI 互連,實現 2 插槽,4 插槽及 8 插槽等可多插槽平台擴充性。

大量加速器助攻,帶動每瓦效能飆升

比起上述硬體規格進化,新一代 Xeon 更引人入勝的看點,其實落在各式各樣的加速器。以往尚未有加速器的輔助時,CPU 不單執行運算工作,還需處理繁瑣的 I/O 作業;好比一位能力出眾的辦公室主管,在肩負重要使命之餘,亦須兼做文書的拷貝、翻譯,乃至資料查找…等等庶務,難免倍多力分,如今加速器加入後,就能巧扮秘書角色,幫忙卸載眾多週邊事務,讓處理器核心專注處理複雜運算。

綜觀第 4 代 Intel® Xeon® 可擴充處理器新增的加速器種類,其實相當多,但其中有五項較貼近臺灣企業頻繁執行的作業型態,因而具備較高的存在價值,分別是 AMX、QAT、DSA、DLB、IAA。持續而論,五大加速器並非皆為全新功能,只是過去並未被整合到 CPU,使得企業需額外購置其他擴充卡,才能享有這些功能;反觀現在只要購買 CPU,便直接可取得這些功能。

加速器能幫上什麼忙?經過歸納,主要能讓六種工作負載受惠,包含 AI、Security、HPC、Network、Analytics 及 Storage。以 AI 為例,透過 AMX、DL Boost、AVX-512 等加速器的輔助,有助提升模型訓練或推論的運作效率;又或者針對 Security 部份,經常涉及大量加解密或加解壓縮工作,上一代 Xeon CPU 已為此新增 Crypto Acceleration,執行指令集層面的加解密,第 4 代 Intel® Xeon® 可擴充處理器更進一步整合 QAT、SGX、TDX 等硬體層面的加速功能;至於其他類型的工作負載,亦大致依循類似原理,意即有了相關加速器協助,皆會使原來的作業如虎添翼、效率激增。

五大加速器當中以 AMX (Advanced Matrix Extensions)較為特別,因其餘四項皆由實際 IC 構成、落在處理器核心之外的獨立單位,唯獨 AMX 屬於指令集層面,由處理器核心直接支援,與早先的 DL Boost、BFloat16 等 AI 加速指令集有異曲同工之妙。從前由 CPU 執行 AI 任務,僅能做純量運算和向量運算,無法直接執行矩陣運算;如今透過 AMX,即可補上矩陣運算能力缺口,至多提高 8.6 倍的模型訓練或推論速率。

QAT(QuickAssist Technology)存在已久,早期以卡片形式存在,到了上一代 Ice Lake 整合至晶片組,現在終於被納進 CPU。QAT 負責資料加解壓縮及加解密,基本上所有資料傳輸或分析都會運用這些功能,重要性不言可喻;隨著它成為加速器,對 CPU 可說如釋重負,最多可讓加解壓縮及加解密執行效能提升 84%,使諸如 Web Services、Database 等重要應用受益良多。

DSA(Data Streaming Accelerator)負責資料串流工作,意即協助將資料傳輸到各個處理器核心上,使 CPU 核心不需持續赴記憶體進行資料搬動。DLB(Dynamic Load Balancer)的主要工作,在於將伺服器網卡傳進的資料,依邏輯設定平均分散到每個處理器核心來執行運算,避免負載失衡。IAA(In-Memory Analytics Accelerator)與 DSA 有些類似,但場景不同,負責提升記憶體裡頭的資料查找、加解壓縮等工作加速。

值得一提,一旦啟用 IAA 加速器,可望使 Rocks DB 效能倍增,換言之假設原本需動用 36 臺伺服器才能執行的資料處理作業,如今減半至 18 臺伺服器即可。

顯而易見,第 4 代 Intel® Xeon® 可擴充處理器整合在內的多項加速器,可謂大批神隊友,為 CPU 分憂解勞,讓許許多多的繁雜事務,不再借助需要較大功率的處理器核心來執行,轉而交由較節電的加速器來達成,終至顯著提升每瓦效能,對企業的永續發展產生實質貢獻。

第 4 代 Intel® Xeon® 可擴充處理器內建 AMX、QAT、DLB、IAA 與 DSA 等五大加速器,有助於改善 AI、HPC、資料分析、儲存、網路及安全性等企業關鍵工作負載的能效。