
什麼是 DPU (資料處理單元)?
資料處理單元 (DPU) 是一種新型的可重新編程高效能處理器,它與高效能網路介面結合,經過最佳化後,可執行和加速資料中心伺服器執行的網路和儲存功能。DPU 像 GPU 一樣插入伺服器的 PCIe 插槽,它們允許伺服器將網路和儲存功能從 CPU 卸載到 DPU,讓 CPU 只需專注於運行作業系統和系統應用程式。DPU 通常使用可重新編程的 FPGA 與網路介面卡結合來加速網路流量,就像 GPU 用於透過將數學運算從 CPU 卸載到 GPU 來加速人工智慧 (AI) 應用程式一樣。過去,GPU 用於提供豐富的即時圖形。這是因為它們可以平行處理大量資料,使其成為加速 AI 工作負載 (例如機器學習和深度學習) 和其他人工智慧工作負載的理想選擇。

DPU 加速伺服器將在未來變得非常受歡迎,這歸功於它們能夠將網路功能從 CPU 卸載到 DPU,釋放出寶貴的 CPU 處理能力,使 CPU 能夠運行更多的應用程式,並盡可能高效地運行作業系統,而不會因處理網路活動而受阻。事實上,一些專家聲稱 30% 的 CPU 處理能力用於處理網路和儲存功能。將儲存和網路功能卸載到 DPU,可為虛擬或容器化工作負載等功能釋放出寶貴的 CPU 處理能力。此外,DPU 還可用於處理包括網路安全、防火牆任務、加密和基礎設施管理在內的功能。
由於 DPU 能夠加速和執行網路和儲存功能,它們將與 CPU (中央處理單元) 和 GPU (圖形處理單元) 一起成為資料中心伺服器的第三個組件。CPU 將用於通用計算。GPU 將用於加速人工智慧應用程式。DPU 則安裝於 DPU 伺服器中,用於處理資料並在資料中心內移動資料。
總體而言,由於資料中心儲存的資料量不斷增加,需要一種能夠加速高效能資料中心伺服器執行的儲存和網路功能的解決方案,因此 DPU 擁有光明的前景。DPU 可以為現有伺服器注入新的生命,因為它們可以透過將網路和儲存功能卸載到 DPU 來降低伺服器的 CPU 使用率。估計顯示,30% 的 CPU 使用率用於網路功能,因此將它們轉移到 DPU 將為您提供額外的 CPU 處理能力。因此,DPU 可以延長您的伺服器壽命數月甚至數年,具體取決於您系統資源用於網路功能的比例。
DPU 的組成部分是什麼?
DPU 是一種由三個主要元件組成的晶片系統。首先,資料處理單元通常具有多核心 CPU,它是軟體可編程的。第二個元件是高效能網路介面,它使 DPU 能夠解析、處理和有效率地透過網路移動資料。第三個元件是豐富的靈活、可編程加速引擎,它將網路和儲存功能從 CPU 卸載到 DPU。DPU 通常與智慧網卡整合,提供強大的網路資料處理能力。
在 DPU 方面,Nvidia 走在前沿,最近發布了 Nvidia Bluefield 2 DPU,這是世界上第一個晶片架構資料基礎設施,針對現代資料中心進行了最佳化。Bluefield 2 DPU 允許資料中心伺服器將網路和儲存功能從 CPU 卸載到 DPU,讓 DPU 處理日常儲存和網路功能。
Nvidia DPU 可以透過 DOCA SDK 存取,它為 DPU 硬體提供了可編程的 API。DOCA 允許組織編程 DPU,以加速伺服器、虛擬機器和容器之間資料進出的資料處理。DPU 加速網路功能,並處理與 VM 和容器相關的東-西流量,以及進出資料中心的北-南流量。也就是說,DPU 的優勢在於在資料中心內移動資料,因為它們針對資料移動進行了最佳化。
此外,Nvidia 表示 DPU 能夠卸載和加速所有資料中心安全服務。這是因為它們包括下一代防火牆、微分割、資料加密功能和入侵偵測。過去,安全性由使用 x86 CPU 的軟體處理;然而,安全性可以卸載到 DPU,為其他任務釋放出 CPU 資源。
DPU 最常見的功能是什麼?
DPU 擁有多項功能,以下為 DPU 最常見的功能:
- 透過一個或多個 100 Gigabit 到 200 Gigabit 介面的高速連線
- 高速封包處理
- 透過 ARM 或 MIPS 型 CPU 進行多核心處理 (8 個 64 位元 Arm CPU 核心)
- 支援 DDR4 和 DDR5 RAM 的記憶體控制器
- 加速器
- PCI Express Gen 4 支援
- 安全性功能
- 獨立於主機系統作業系統的自訂作業系統
最常見的 DPU 解決方案有哪些?
Nvidia 發布了名為 Nvidia Mellanox BlueField 2 DPU 和 BlueField 2X DPU 的 DPU。BlueField 2X DPU 擁有 BlueField 2 DPU 的所有功能,此外還有一個 Ampere GPU,可在 DPU 上實現人工智慧功能。Nvidia 在其 DPU 上包含了 GPU,以處理安全、網路和儲存管理。例如,機器學習或深度學習可以在資料處理單元本身上運行,並用於識別和阻止網路入侵嘗試。此外,Nvidia 表示計劃在 2022 年推出 Bluefield 3,在 2023 年推出 Bluefield 4。
英特爾 (Intel) 和賽靈思 (Xilinx) 等公司正在推出一些 DPU。也就是說,賽靈思和英特爾的一些產品被稱為 SmartNIC。賽靈思和英特爾的 SmartNIC 利用 FPGA 來加速網路和儲存功能。SmartNIC 的工作方式與資料處理單元相同,它們將網路功能從 CPU 卸載到 SmartNIC,透過智慧地將網路和儲存功能委派給 SmartNIC 來釋放處理能力。由於 FPGA 的可重新編程特性,FPGA 為資料路徑帶來了平行處理和自訂性。
例如,賽靈思提供 ALVEO 系列的 SmartNIC,包含各種產品,而英特爾及其合作夥伴提供多種基於 FPGA 的 SmartNIC 解決方案,以加速大型資料中心的資料處理工作負載。英特爾聲稱其 SmartNIC「透過將交換、儲存和安全功能卸載到單一 PCIe 平台 (結合了英特爾 FPGA 和英特爾 Xeon 處理器) 來提升資料中心效能水準」。英特爾提供第二種較新的 Smart NIC 解決方案,稱為 Silicom FPGA SmartNIC N5010,它結合了英特爾 Stratix 10 FPGA 和英特爾乙太網路 800 系列介面卡,為組織提供 4 個 100 Gigabit 乙太網路埠,為資料中心提供充足的頻寬。
DPU 為何日漸普及?
我們生活在數位資訊時代,每天都會產生大量的資料。隨著物聯網設備、自動駕駛汽車、智慧家庭和智慧工作場所的數量不斷增加,資料中心也日益飽和。因此,需要有解決方案來幫助資料中心應對進出資料中心的資料量,以及資料中心內部移動的資料量不斷增加的問題。
DPU 包含資料移動系統,可加速資料移動和處理操作,將網路功能從伺服器處理器卸載到 DPU。DPU 是從伺服器中提取更多處理能力的好方法,特別是考慮到摩爾定律已經放緩,促使組織使用硬體加速器從硬體中獲得更多效能,從而降低組織的總體擁有成本,因為可以從現有硬體中提取更多效能,使伺服器能夠執行更多應用程式工作負載。
資料處理單元和 FPGA SmartNIC 正日益普及,Microsoft 和 Google 正在探索將它們引入資料中心,以加速資料處理和人工智慧工作負載。此外,Nvidia 已與 VMware 合作,將網路、安全和儲存任務卸載到 DPU。
還有哪些效能加速器?
現在我們將討論資料中心中常用的其他一些效能加速器。我們將討論的效能加速器包括 GPU (圖形處理單元)、計算儲存和 FPGA (現場可程式化閘陣列)。
1. 圖形處理單元 (GPU)
圖形處理單元通常部署在資料中心的高效能伺服器中,以加速工作負載。伺服器通常會將複雜的數學計算卸載到 GPU,因為 GPU 可以更快地執行這些計算。這是因為 GPU 採用並行架構,由比 CPU 更多的小型核心組成,使其能夠並行處理許多任務,從而使組織能夠從伺服器中提取更多效能。

圖片來源 (Nvidia)
例如,平均 CPU 有四到十個核心,而 GPU 有數百或數千個較小核心,它們協同工作,並行處理複雜計算。因此,GPU 與 CPU 不同,CPU 的核心較少,更適合序列資料處理。GPU 加速伺服器非常適合高解析度影片編輯、醫學影像、人工智慧、機器學習訓練和深度學習訓練。
安裝在資料中心伺服器上的 GPU 非常適合加速深度學習訓練和機器學習訓練,這些訓練需要大量的計算能力,而 CPU 根本無法提供。GPU 執行人工智慧任務比 CPU 快,因為它們配備了 HBM (高頻寬記憶體和數百或數千個核心,可以比傳統 CPU 更快地執行浮點算術。
基於這些原因,組織使用 GPU 來訓練深度學習和機器學習模型。資料集越大、神經網路越大,組織就越有可能需要 GPU 來加速工作負載。儘管 CPU 可以執行深度學習訓練和機器學習訓練,但它們需要很長時間才能進行複雜的計算。在某些情況下,深度學習訓練需要幾個小時;然而,如果只使用 CPU 執行相同的任務,則可能需要幾天到幾週的時間,而不是僅僅幾個小時。
此外,在資料中心伺服器中添加 GPU 可以顯著提高資料輸送量,並以盡可能低的延遲處理和分析資料。延遲是指完成給定任務所需的時間量,而資料輸送量是指單位時間內完成的任務數量。
2. 計算儲存裝置 (CSD)
計算儲存已作為效能加速器進入資料中心。計算儲存在儲存裝置層級處理資料,減少 CPU 與儲存裝置之間的資料移動。計算儲存可實現即時資料分析,並透過減少輸入/輸出瓶頸來提高系統效能。計算儲存裝置看起來與普通儲存裝置相同,但它們包含一個多核心處理器,用於執行諸如在資料進入儲存裝置時建立索引以及在儲存裝置中搜尋特定條目等功能。

圖片來源 (AnandTech)
由於對即時處理和分析資料的需求不斷增長,計算儲存裝置正日益普及。即時資料處理和分析之所以可能,是因為資料不再需要在儲存裝置和 CPU 之間移動。相反,資料在儲存裝置本身上進行處理。將計算能力帶到資料所在的精確位置的儲存媒體上,可以實現即時分析和決策。
3. FPGA (現場可程式化閘陣列)

圖片來源 (Xilinx)
FPGA 是一種由邏輯塊、I/O 單元和其他資源組成的積體電路,允許使用者根據其想要執行的工作負載的特定要求,以不同的方式重新程式化和重新配置晶片。FPGA 正日益普及,用於執行深度學習推論處理和機器學習推論。此外,基於 FPGA 的 SmartNIC正被使用,因為它們能夠將網路和儲存功能從 CPU 卸載到 SmartNIC。網路和儲存功能會對系統的 CPU 造成沉重負擔,因此將這些功能卸載到 SmartNIC可以釋放寶貴的 CPU 處理能力,以執行作業系統和其他關鍵應用程式。基於 FPGA 的 SmartNIC允許組織針對將卸載到 SmartNIC 的特定工作負載優化 SmartNIC,提供難以在其他地方找到的客製化能力。
總結
此時,DPU (資料處理單元) 在高效能資料中心伺服器中日益普及,這已不足為奇,因為它們能夠將儲存和網路功能卸載到 DPU,從而使處理器能夠專注於執行作業系統和產生收入的應用程式。Premio提供多種DPU伺服器,利用 DPU 將資料處理、網路功能和儲存功能從 CPU 卸載到 DPU,使伺服器更加強大。Nvidia 聲稱,一個單一的 BlueField 2 資料處理單元可以處理與 125 個 CPU 核心所需的相同資料中心服務,從而使 DPU 伺服器能夠聰明地工作,而不是更努力地工作。因此,如果您有興趣購買 DPU 伺服器,請隨時聯繫我們的 DPU 伺服器專業人員。他們將非常樂意協助您選擇或客製化符合您特定需求的解決方案。
