高 IOPS 為王道!
Intel® Optane™ SSD 完美助長 vSAN 效能

現今許多人已熟悉 VMware vSAN 儲存虛擬化軟體,知道可透過它降低儲存複雜性與成本,藉由更簡單方式來邁向混合雲及超融合基礎架構(HCI)。因此越來越多企業著手佈建 vSAN,但大部人可能不清楚 vSAN 的 Cache Device 選擇影響 vSAN 的效能甚鉅

事實上就 vSAN 而言,使用不正確的 Cache Device,會淪為「花錢砸自己腳」窘境,讓整體效能不增反減。

簡單來說,vSAN 是 2-Tier 儲存系統,一方面以 Capacity Tier 達到合理的整體儲存成本,另一方面以 Cache Tier 將效能提升到理想目標。此乃因為,通常 Capacity Tier 多是便宜、大容量的儲存媒體,既然便宜,效能難免稍低一些,企業若不想屈就於低效能,即需透過 Cache 把整體IOPS及整體效能拉上來。

一直以來許多人都有迷思,認為須以「容量」為選擇 Cache Device 的先決條件,因為若容量太小,很容易寫滿,達不到 Buffer 效果;但其實應以「效能」作為選擇依據,尤其需要優先挑選 4KB 隨機寫入(Random Write)性能越佳的磁碟。例如在 4KB 隨機寫入 IOPS 經實測高達 115 萬的 Intel® Optane™ SSD DC P5800X,便是理想選項。

4KB 隨機寫入效能落差,竟有如天壤之別

Intel® 與 VMware 合作關係向來緊密,VMware 全線產品皆支援 Intel® PMEM(Intel® Optane™ Persistent Memory)的 Memory Mode、App Direct Mode,及Intel® Optane™ SSD。

綜觀 Intel® Optane™ SSD 產品線,包括第一代的 P4800X、第二代的 P5800X,它們分別採用 PCI 3.0、PCI 4.0架構,而 PCI 4.0 每條通道的傳輸速率從 1GB/s 倍增為 2GB/s,使後者的效能得以遠勝前者。以 P5800X 而論,序列讀取/寫入(Sequential Read/Write)的頻寬依序為 7.2 GB/s 和 6.2 GB/s,看來非常高,但觀察其他新一代 NVMe NAND SSD,其實相去不遠,所以真正的重點並不在此,而在於 4KB 隨機讀寫、特別是「隨機寫入」這個部份。

為何需要重視 4KB 隨機寫入效能?因 4KB 為最小 Size,要讓一般磁碟按照這麼小的容量、頻繁隨機寫入,猶如「要了它的命」,很難展現理想效能。但這個難以突破的罩門,往往是拖垮整體系統效率的癥結,因此我們必須重視這項環節,挑選能在「逆境」中維持好表現的儲存媒體。

以某款高市佔率的 NVMe NAND SSD 為例,4KB 隨機讀取 IOPS 達到 130萬,與 Intel® Optane™ SSD P5800X 的 150 萬相比,幾乎並駕齊驅;但在 4KB 隨機寫入 IOPS 部份,NVMe SSD 僅 21.5 萬,相較 P5800X 的 115 萬落差甚大,可見 4KB 隨機寫入是最能突顯不同儲存媒體優劣勢的關鍵。

為貼近真實使用場景,我們以 4KB 隨機讀寫混合工作負載為前提進行效能測試。若以 Intel® Optane™ SSD P5800X、Intel® SSD D7-P5600(NAND)不同磁碟做比較,後者一旦承受混合工作負載,隨著寫入比重自 0%、20%、40%…逐步提高,IOPS 也從一開始 100 萬持續下滑,反觀 Intel® Optane™ SSD P5800X 卻能從起始的 IOPS 150 萬,一度衝上 200 萬高點,並在 200 萬上下停留很長時間,直至隨機寫入比重漲升至 80% 以上才開始徐徐減緩。以過程中的「70R/30W」,兩者 IOPS 效能的差距便高達 3.7 倍。

何以隨機寫入對效能衝擊甚大?係因一般 NAND 寫入過程涉及垃圾收集、Housekeeping 等作業,一般 NAND 易因這些繁雜程序而被操壞,故會將資料集中到某一個程度後、再往下寫入 Media,以減緩被寫壞的風險,但效能表現就因而滑落。相形之下,Optane™ SSD 沒有類似顧慮,故能展現較為優異的性能。

大容量 SSD 勝任快取?誤會一場!

考量隨機寫入的執行效率較差,但若未審慎處理,恐有資料丟失之虞,故眾廠所設計的處理順序,都優先進行寫入,然後進行讀取。以致在大量寫入壓力下,多數磁碟的讀取反應速度越來越慢。這點對於 vSAN 的 Cache 配置效果,足以帶來重大影響。

假設有一個傳統虛擬化環境,許多 VM 以大約 10GB/s 的吞吐量隨機寫入資料、等同 250K IOPS (4KB block size);因此底層只要配置3顆各具 IOPS 110K 能力的磁碟,便足可維持正常運作效率。

今天若將環境升級為 vSAN,即需在 VM、Disk 中間增闢 Cache Tier;若用戶執著於容量迷思,即會選用容量較大、但性能一般的 SSD 作為 Cache。

假設最終選用的 Cache Device,僅 IOPS 120K 水準,等同 480MB/s 吞吐量,顯見在處理速度上不進反退。更麻煩的是,Cache 不僅需承受 VM 寫入的資料,還肩負 Destage 任務、把資料往下寫進 Capacity Tier 磁碟,所以它的 IOPS 能力必須一分為二,例如形成「60K+60K」,同時間還礙於「先 Write 後 Read」的工作順序,迫使讀取請求嚴重塞車。可想而知,這個不正確的 Cache 配置,形同以 60K 馬力的車承載 250K 重量的人,上下嚴重不匹配,完全無助拉升效能,連帶拖垮讀取效率,造成 vSAN 工作負載陷入龜速運行窘態。

上述僵局,僅需將 Cache 換置成 Intel® Optane™ SSD 即可迎刃而解。一來,P5800X 在 4KB Random Write 的 IOPS 高達逾 115 萬,遠超過多數 vSAN 環境的基本效能需求;二來,Optane™ SSD 同時處理讀寫請求,縱使承受大量寫入,也不會讓讀取被迫排隊,因而可確保 vSAN 環境恆常維持快速、低延遲、高穩定性優勢。

看到這裡,你也許好奇,許多人對於 Cache 配置「應以大容量為宜」的認知,究竟從何而來?其實與「Drive Writes Per Day(DWPD)」耐寫度有關。VMware 建議,為避免 vSAN 的 Cache 輕易被「寫死」,假設用戶採用 DWPD 為 10 的磁碟,應備妥 1.6TB 總容量才足夠耐寫。

由於一般機器有兩個 Disk Group,因此基本容量就是 800GB。惟大家有所不知的是,耐寫度其實只要足夠即可,如 Intel® 的 P5800X,DWPD 高達 100,使安全容量需求驟降為 80GB 即可,超過此數便代表跨過耐寫門檻。

因此若以 400GB 容量的 P5800X,與他牌 1.6TB NVMe SSD,依 vSAN 整體運作效能進行 PK,仍取得壓倒性勝利。足見天下武功、唯快不破,快取速度才是王道,容量大小並非左右 vSAN 效率高低的關鍵。

Blog 文