善用第 4 代 Intel® Xeon® 可擴充處理器,輕鬆提升 AI/HPC 應用效能

隨著數據經濟時代來臨,企業對人工智慧(AI)、高效能運算(HPC)等科技的依賴度持續攀升,期望加速挖掘數據洞察,進而變現為高價值的智慧應用,帶動生產稼動率、供應鏈效能或顧客忠誠度…等營運績效的全面進化。

為此,英特爾 針對第 4 代 Intel® Xeon® 可擴充處理器(代號為『Sapphire Rapids』)、Intel® Xeon® CPU Max 系列處理器(代號為『Sapphire Rapids HBM』)的設計,悉心融入許多強化 AI/ML、HPC 總體效能及每瓦效能的元素。像是於核心中新增 AMX (Advanced Matrix Extensions)指令集,為 INT8 及 BF16等攸關 AI 訓練和推論的資料格式賦予矩陣運算能力,抑或在 Max 系列處理器直接封裝高頻寬記憶體(High Bandwidth Memory;HBM),藉以增強 HPC 工作負載的執行效能。凡此種種,皆堪稱 x86 處理器發展史上的重大突破。

新增 AMX 指令集,首度支援矩陣運算能力

綜觀 Intel® Xeon® 可擴充處理器的每一段世代演進,均會在處理器核心新增指令集。譬如在第 1 代加入 AVX-512 指令集;第 2 代加入 AVX-512 VNNI 指令集,提升 INT8/INT16 執行效能;第 3 代支援 BF16 資料格式;現今登場的第 4 代,藉由 AMX 指令集的加入,首度納進矩陣暫存器與矩陣加法器,因而能以更有效率方式來處理 INT8 和 BF16 運算。

具體來說,前幾代 Intel® Xeon® 可擴充處理器不斷擴大支援範圍,建立 INT8、BF16 等資料格式的處理能力,讓企業憑藉 x86 處理器便能有效執行 AI 運算。比方說,假設我們要做 A、B、C、D、E、F 等數值的相加,早期僅能透過純量運算方式,先把 A 和 B 相加,再逐一加上 C、D、E、F。後來隨著 AVX 指令集加入,開始支援向量運算,可直接進行「A+B+C」及「C+D+F」兩組結果的加總,順勢提高單/雙精度浮點運算效能。

進一步到 AMX,能藉由矩陣暫存器,將 A、B、C 數值儲存為同一矩陣,將 C、D、F 儲存為另一矩陣,再利用矩陣加法器,將兩個矩陣直接相加,更快產生最終計算結果。以上一代 VNNI 而論,擁有 2 個 FMA 單元的核心,每個 Clock Cycle 可完成 256 個 INT8 整數運算 ,若換成 AMX,每個 Clock Cycle 可完成 2,048 個 INT8 整數運算;足見在理論上,新一代 Xeon® 可擴充處理器的整數運算效能提升 8 倍,同時新增支援在 AI 十分更常見的 BF16 資料類型,可望大幅增進自然語言處理、推薦系統、影像辨識等工作負載的處理速度。

CPU 世代演進,大幅推升 AI/ML 能源效率與運算效能

接著 以Benchmark 來做討論,以前一代 Intel® Xeon® 8380 (40 核心)、新一代Intel® Xeon® 8480(56 核心)做比較。新一代的核心數量大增 40%,且受惠於 AMX 加入,讓實際上執行 NLP、影像分割、Transformer、物件偵測等 AI 推論工作,得以展現 6~10 倍不等的效能增幅,遠遠高於核心數量所增加的 40%。

另外同樣以 ResNet-50、TensorFlow 為測試基準,第 1 代 Intel® Xeon®(Skylake)可擴充處理器搭配 AVX-512〔INT8〕,每秒可訓練 1,000 張圖片,總功耗為 408 瓦。第 4 代 Intel® Xeon® 可擴充處理器,拜 AMX〔BF16 & INT8〕所賜,每秒可訓練的圖片量增為 12,000 張,據此推算千張圖片的訓練工作量、功耗僅為 75 瓦以下。

意即隨著 Intel® Xeon® 可擴充處理器演進 4 個世代,執行相同 AI 訓練工作,每瓦效能等於驟增了超過 5.4 倍 ,進步幅度之大令人驚艷。

難免有人憂心,套用 AMX 過程是否複雜?答案是否定的。用戶只要採用 Intel® oneAPI Deep Neural Network Library(oneDNN)、沿用一樣的 Toolkit,即可輕易享有矩陣運算效果,相較於學習 GPU 原廠推出的函式庫,入手門檻降低不少。

越依賴記憶體頻寬的工作,越能突顯 HBM 強項

論及英特爾於去年底(2022)發布的新品牌「Intel® Max」,此系列 CPU 與 第 4 代 Intel® Xeon® 可擴充處理器相比,架構相近,差別僅在於 Max 系列 CPU 另外封裝 4 顆 HBM 記憶體(共計內建 64GB 容量,每核心可分配1 GB以上的高頻寬記憶體),不但有助提升 HPC 效能,連帶讓 AI/ML 工作負載雨露均霑、帶來加速的紅利。

顧名思義,HBM(High Bandwidth Memory)的特色在於高頻寬,以 Max 系列 CPU 搭載的 HBM2e 而言,頻寬高達 1TB/s,相當於一般 DDR5 的 4 倍。

Intel® Max 系列 CPU 支援的工作模式有三種。一是「HBM Only」,不另外安裝 DDR5 記憶體,單靠 HBM 即可開機運作。二是「HBM Caching」,另外加裝 DDR5 記憶體擴充容量,不需修改應用程式,直接將 HBM 作為 DDR5 的快取。三是「HBM Flat」,需加裝 DDR5 記憶體,並透過應用程式的修改,讓程式可以分辨兩種記憶體,進而統籌運用這些資源,有效推升應用效能 。

觀察第 3 代 Intel® Xeon® 8380、對比 Intel® Max 系列 CPU 在執行 HPC 的效能提升。針對需考量記憶體速度的 HPCG,Max 系列 CPU 的效能則大幅高出 3.8 倍。至於需同時兼顧 Copy、Scale、Add 等作業需求的 Stream Triad 測試,Intel® Max 系列 CPU 將領先幅度擴大至 5.3 倍。

簡言之,對記憶體頻寬依賴度越大的工作負載,就越能發揮 Max 系列 CPU 的速度優勢。譬如用在氣象或地球科學模擬運算的 WRF,或被製造業用於熱流模擬運算的 Ansys、OpenFOAM 等軟體,假使分別藉由第 3 代 Intel® Xeon® 8380、Intel® Max 系列 CPU 來運作,彼此效能提升至少 2 倍,甚至可高達 3 倍以上。

最後舉一個實際情境,若執行 Altair AcuSolve 流體力學運算,在搭載雙路第 3 代 Intel® Xeon® 可擴充處理器的前提下,需配置 4 個節點、且需額外安裝 64GB DDR 記憶體,功耗為 1,640 瓦;若將處理器轉換為 Intel® Max 系列,僅需配置 1 個節點、也不必額外裝設記憶體,更可將功耗壓低在 700 瓦,不但減少硬體投資又能撙節電費,可說節流、節能一舉多得。

英特爾在第 4 代 Intel® Xeon® 可擴充處理器導入 AMX 指令集,使每 Cycle 能夠執行 8bit 整數運算的次數,從上一代 VNNI 指令集的 256 個大增 8 倍成為 2,048 個,藉此加速 AI 運算效能,為企業所需的加速運算及節能提供最好的解決方案。