NVIDIA Blackwell GPU 架構有哪些新功能？

隨著 NVIDIA Blackwell 架構的推出以及逐漸淘汰先前的 Ada 世代，工業人工智慧部署正邁入一個新階段。在製造業、自動化和智慧基礎設施，以及物理人工智慧和代理人工智慧等新興領域，企業正日益採用 NVIDIA Blackwell GPU 來推動下一代邊緣工作負載。

這些應用程式需要更高水準的運算效能、效率和可擴展性，尤其是在即時處理和系統可靠性至關重要的環境中。

在本部落格中，我們將探討 Blackwell 與先前的 Ada 架構相比有何差異，並強調其關鍵進展和新功能。

用於邊緣和工作站部署的 NVIDIA Blackwell GPU

在深入探討架構更新之前，了解 GPU 產品線本身至關重要。NVIDIA 的 Blackwell 架構涵蓋多個 GPU 層級，涵蓋資料中心、工作站和邊緣運算使用案例。對於工業邊緣 PC 部署，最相關的型號是專業 RTX PRO 系列，該系列在效能、電源效率和緊湊外形尺寸之間取得了平衡。

用於邊緣 AI 系統的工作站 GPU：

NVIDIA RTX PRO 6000 Blackwell 工作站版
NVIDIA RTX PRO 6000 Blackwell Max-Q 工作站版
NVIDIA RTX PRO 5000 Blackwell
NVIDIA RTX PRO 4500 Blackwell
NVIDIA RTX PRO 4000 Blackwell
NVIDIA RTX PRO 4000 Blackwell SFF 版
NVIDIA RTX PRO 2000 Blackwell

這些 GPU 針對以下方面進行了優化：

人工智慧和資料密集型工作負載，包括推論、模擬和生成式人工智慧
可擴展的效能層級，從入門級到高階工作站運算
高記憶體容量和頻寬，用於處理大型資料集和模型
多應用程式工作流程，結合人工智慧、視覺化和分析
靈活部署，從全尺寸工作站到緊湊、空間受限的系統

NVIDIA Blackwell 架構的關鍵進展

與先前的 Ada 架構相比，Blackwell 在AI 運算效能、核心架構和資料吞吐量方面實現了顯著提升，從而能更有效地執行現代邊緣工作負載。

更高的運算密度：CUDA 核心和 AI 效能

Blackwell 最顯著的進步之一是原始運算能力的提升，這得益於更高的 CUDA 核心數量和改進的 AI 加速。

GPU 型號	CUDA 核心 (Ada)	CUDA 核心 (Blackwell)	AI TOPS (Ada)	AI TOPS (Blackwell)	TDP
RTX 6000	18,176	24,064	~1,457	~3,511	300W
RTX 5000	12,800	14,080	~1,334	~2,064	250W/300W
RTX 4500	7,680	10,496	~728	~1,687	210W/200W
RTX 4000	6,144	8,960	~307	~1,247	130W/140W
RTX 4000 SFF	6,144	8,960	~307	~770	70W
RTX 2000	2,816	4,352	~192	~545	70W

與上一代 GPU 相比，這代表 AI 吞吐量大幅增加，可實現：

針對 AI 和模擬工作負載的更高平行處理能力
跨多模型管線的更快推論速度
支援更複雜和更大規模的 AI 應用程式

Blackwell 不僅專注於峰值時脈速度，還透過在相同的功耗範圍內提供更高的效能來提高運算密度，從而顯著提高每瓦效能。

採用第五代 Tensor 核心的先進 AI 運算

Blackwell GPU 引入了第五代 Tensor 核心，支援 FP4 精度，可實現更快、更高效的 AI 處理。根據 NVIDIA 的說法，這些核心的 AI 工作負載效能比上一代高出三倍。

這使得邊緣系統能夠處理更複雜的工作負載，例如：

電腦視覺和檢測
預測性分析
本機 LLM 推論和生成式 AI

(圖片來源：NVIDIA)

採用 GDDR7 的下一代記憶體

Blackwell 的另一項重大進步是轉向 GDDR7 記憶體，這提高了記憶體頻寬和整體工作負載容量。在整個工作站產品線中，Blackwell GPU 的 GPU 記憶體可擴展至 96GB，讓系統能夠處理更大的 AI 模型、更複雜的模擬和更繁重的多應用程式工作負載。對於資料集大小和吞吐量直接影響效能的高效能 AI 和視覺運算環境來說，額外的記憶體空間特別有價值。

(圖片來源：NVIDIA)

AI 管理處理器和工作負載整合

Blackwell 引入了一個名為AI 管理處理器 (AMP) 的新架構組件，旨在改進 GPU 工作負載的排程和執行方式。

AMP 是一個專用的片上處理器，直接在 GPU 上管理任務排程，減少對 CPU 的依賴。這使得併發工作負載之間的協調更有效率，並在多個應用程式同時運行時降低延遲。

同時，Blackwell 將 AI 更緊密地整合到整體 GPU 架構中，使其能夠與渲染、模擬和視訊處理工作負載同時運行。GPU 不再將 AI 視為獨立功能，而是可以在單一平台上更有效地處理混合工作負載。

實際上，這使得系統能夠同時運行AI 推論、視覺化、模擬和視訊處理，提高整體利用率並降低系統複雜性——尤其是在功率和空間受限的邊緣部署中。

(圖片來源：NVIDIA)

您現在可以使用 NVIDIA Blackwell GPU 做什麼？

憑藉這些架構進步，Blackwell GPU 能夠在單一系統上高效運行新一類工作負載。企業現在可以將運算整合到統一的平台中，而不是依賴多個專用加速器。

您現在可以實際執行：

用於即時決策的 AI 推論
用於 3D 渲染和人機介面 (HMI) 應用的視覺化
用於建模和數位孿生環境的模擬
用於分析和多串流工作負載的視訊處理

在單一 GPU 上，這些工作負載可以直接部署在邊緣，從而降低系統複雜性並提高整體效率。

此功能對於以下應用程式尤其重要：

數位孿生，其中模擬和即時資料必須協同運作
機器人，需要低延遲 AI 和視覺處理
智慧製造，其中檢測、分析和自動化持續運行

透過整合這些工作負載，Blackwell 實現了更具可擴展性和效率的邊緣系統，讓企業能夠在靠近來源的地方處理資料，同時保持高效能。

Premio 的工業 GPU 電腦已為 NVIDIA Blackwell 做好準備

為了充分利用 Blackwell GPU，系統架構與 GPU 本身一樣重要。Premio 的工業 GPU 電腦旨在支援高效能 NVIDIA GPU，同時滿足邊緣部署的可靠性和環境需求。

Premio 提供一系列支援 GPU 的平台，每個平台都針對不同的部署要求進行了優化。若要了解更多資訊，請造訪 Premio 的工業 GPU 電腦頁面。

所有 Premio GPU 系統的設計都具有工業級耐用性，包括 GPU 固定機制（例如鎖定支架），以確保 GPU 在操作過程中的安全。這可確保在有震動、振動和其他惡劣條件的環境中可靠運行。

結論

NVIDIA Blackwell 標誌著向更高效、AI 原生 GPU 架構的轉變，提供更高的每瓦效能、改進的記憶體功能，以及將多個工作負載整合到單一平台的能力。與上一代 Ada 相比，Blackwell 更優化以滿足現代 AI 需求，使得推論、模擬、視覺化和視訊處理等工作負載能夠更有效地協同運行，即使在受限環境中也是如此。對於工業邊緣部署，這意味著更快的即時處理、降低的系統複雜性和更大的可擴展性。當與 Premio 的工業 GPU 電腦搭配使用時，這些功能可以在惡劣、空間和電源受限的環境中可靠地部署，為製造業、機器人技術和智慧基礎設施中的下一代邊緣 AI 應用提供堅實的基礎。

最新文章：

工業觸控螢幕電腦和顯示器

超級電容器技術