CPU-vs-GPU-vsTPU

人工智慧和機器學習技術一直在加速智慧應用的發展。為應對日益複雜的應用，半導體公司不斷開發處理器和加速器，包括 CPU、GPU 和 TPU。然而，隨著摩爾定律的放緩，單靠 CPU 的性能將不足以有效執行要求嚴苛的工作負載。問題在於，企業如何加速整個系統的性能，以支援 AI 應用程式的過度需求？答案可能來自於 GPU 和 TPU 的開發，以補充 CPU 來運行深度學習模型。這就是為什麼了解 CPU、GPU 和 TPU 背後的技術對於跟上不斷發展的技術以獲得更好的性能和效率至關重要。

如果您正在尋找關於 CPU、GPU 與 TPU 之間有何區別的答案？或者它們如何在電腦架構中運作？閱讀此部落格可能會有助於您回答一些關於 CPU、GPU 和 TPU 的問題。

CPU、GPU 與 TPU

從根本上來說，CPU、GPU 和 TPU 之間的區別在於，CPU 是作為電腦大腦的處理單元，旨在成為通用程式設計的理想選擇。相反地，GPU 是增強電腦圖形和 AI 工作負載的效能加速器。而 TPU 是 Google 客戶開發的處理器，利用（特定機器學習框架）TensorFlow 加速機器學習工作負載。如需深入了解效能加速，請參閱之前關於專用運算硬體的部落格文章。

什麼是 CPU？

中央處理器 (CPU) 是所有智慧裝置中都存在的核心處理器。CPU 是一種通用處理器，設計有幾個強大的核心和大容量快取記憶體，使其能夠同時執行幾個軟體執行緒。CPU 就像管弦樂隊中的指揮；它控制從記憶體到顯示卡的所有其他組件，以執行系統的許多處理功能。

CPU 至少有一個處理核心，但隨著時間的推移，已經發展到包含越來越多的核心。擁有數個核心使 CPU 能夠執行多執行緒處理，這是一種允許 CPU 在單個核心上同時執行兩個執行緒的技術。此外，現代 CPU 現在有兩個到六個核心，有些甚至有八到 64 個企業級 CPU 核心，通常專用於資料中心。

CPU 功能摘要：

有多個核心
低延遲
專門用於串行處理
能夠同時執行少量操作
對 RNN（遞歸神經網路）具有最高的 FLOPS 利用率
由於其大容量記憶體而支援最大的模型
對於不規則計算（例如，小批次非 MatMul 計算）更靈活和可程式化

什麼是 GPU？

GPU-graphics-processing-unit

GPU (圖形處理單元) 是一種專門處理器，作為 CPU 的效能加速器。與 CPU 相比，GPU 擁有數千個核心，可以將複雜的問題分解成數千或數百萬個獨立任務，並平行處理它們。平行運算利用數千個 GPU 核心來優化各種應用程式，包括圖形處理、視訊渲染、機器學習，甚至是比特幣等加密貨幣的挖礦。

在過去十年中，GPU 對於深度學習的發展至關重要。憑藉加速大型矩陣運算並在單次操作中執行混合精度矩陣計算的能力，GPU 可以高速加速深度學習。這種平行運算技術使 GPU 成為現代超級運算的重要組成部分，引發了全球 AI 熱潮。

GPU 功能摘要：

擁有數千個核心
高吞吐量
專為平行處理設計
能夠同時執行數千個操作

深入了解 GPU 在工業 4.0 中的作用

什麼是 TPU？

TPU-tensor-processing-unit

TPU 指的是張量處理單元 (Tensor Processing Units)，這是一種應用專用積體電路 (ASIC)。TPU 是由 Google 從頭開始設計的；他們於 2015 年開始使用 TPU，並於 2018 年公開。TPU 可作為雲端或較小的晶片版本使用。雲端 TPU 在執行密集向量和矩陣計算方面速度極快，可加速 TensorFlow 軟體上的神經網路機器學習。TensorFlow 是一個由 Google Brain Team 開發的開源機器學習平台，旨在幫助開發人員、研究人員和企業在由雲端 TPU 硬體支援的高級 TensorFlow API 上運行和操作 AI 模型。TPU 可最大限度地減少訓練大型複雜神經網路模型的準確時間。使用 TPU，以前需要數週才能在 GPU 上訓練的深度學習模型，現在只需數小時即可在 TPU 上完成。

TPU 功能摘要：

專用於矩陣處理的硬體
高延遲 (與 CPU 相比)
極高吞吐量
極致平行運算
針對大型批次和 CNN (卷積神經網路) 高度優化

CPU、GPU 和 TPU 的製造商是誰？

CPU-manufactures-GPU-manufacturers-TPU-manufacturers

CPU 製造商：Intel、AMD、Qualcomm、NVIDIA、IBM、Samsung、Apple、Hewlett-Packard、VIA、Atmel 等。

GPU 製造商：NVIDIA、AMD、Broadcom Limited、Imagination Technologies (PowerVR)

TPU 製造商：Google、Coral (Google 旗下)、HAILO

何時使用 CPU、GPU 或 TPU 執行您的機器學習模型？

CPU-GPU-TPU-for-AI-applications

CPU 是通用處理器，而 GPU 和 TPU 則是優化的加速器，可加速機器學習。選擇哪種處理器來執行機器學習工作負載似乎很簡單。但是，您可能需要仔細查看並考慮正在執行哪種機器學習模型，以決定哪種硬體最適合您的工作負載。以下是一些快速指南，可幫助您確定哪種處理器最適合您的應用程式：

CPU：

需要最高靈活性的原型
訓練不需要長時間的簡單模型
訓練具有小有效批次大小的小模型
主要以 C++ 編寫，基於自訂 TensorFlow 操作
I/O 有限或系統網路頻寬有限的模型

GPU：

難以變更的模型或不存在的來源
具有 GPU 必須支援的眾多自訂 TensorFlow 操作的模型
無法在 Cloud TPU 上使用的模型
具有較大有效批次大小的中型或大型模型

TPU：

主要使用矩陣運算訓練模型
在主要訓練循環中不包含自訂 TensorFlow 操作的模型訓練
需要數週或數月才能完成的模型訓練
訓練具有非常大有效批次大小的龐大模型

深入了解深度學習嵌入式系統

CPU、GPU 和 TPU 如何連接到主機板？

主機板是一種塑膠電路板 (PCB)，其中包含各種電腦組件，例如 CPU、記憶體以及其他周邊設備的連接器。主機板是所有 CPU、GPU 和 TPU 連接以與系統其他電子組件通訊的地方。

CPU 如何連接到主機板？

CPU-socket-how-CPU-attached-to-the-motherboard?

CPU 有兩種基本類型：插槽式 CPU 和 SoC (單晶片系統) 整合式 CPU。插槽式 CPU 安裝在主機板上的 CPU 插槽中。CPU 插槽建有數千個接觸點或金屬針腳，用於在 CPU 與連接在主機板上的其他處理器之間傳輸電力和資料。插槽式 CPU 通常透過針腳柵格陣列 (PGA) 或陸地柵格陣列 (LGA) CPU 插槽連接。另一方面，SoC 是一種獨特的晶片組，它將 CPU 與記憶體和圖形加速器等其他基本週邊設備整合到單一矽晶片中。SoC 通常透過球柵陣列 (BGA) 連接直接焊接在主機板上，並為物聯網和行動應用程式提供更好的功耗。

CPU 功耗及其散熱解決方案

CPU-power-consumption-and-cooling-solution

CPU 功耗是指 CPU 運行所需的功率值。功耗值可以作為您選擇合適散熱解決方案的有用指南。選擇散熱解決方案時，製造商通常使用 TDP (熱設計功耗) 來描述其解決方案冷卻 CPU 的效率。TDP 值決定了處理器在繁重工作負載下能產生多少熱量。CPU 的功耗和 TDP 高度相關，其中較高的功耗導致較高的 TDP。CPU 越強大，它消耗的功率就越多，在運行繁重工作負載時產生的熱量就越多。市場上有各種不同 TDP 值的 CPU；CPU 的 TDP 通常介於 10W 到 130W 之間。要選擇合適的散熱解決方案，您的散熱解決方案和您的 CPU 必須具有相似的 TDP。例如，具有 95W TDP 的 CPU 需要 95W TDP 的散熱解決方案。在工業領域，無風扇堅固型電腦利用被動散熱解決方案來冷卻 CPU。無風扇解決方案可以冷卻 TDP 為 10W 到 65W 的處理器。任何超出此範圍的都將需要主動散熱解決方案，通常帶有風扇。

GPU 如何連接到主機板？

GPU-power-consumption-and-cooling-solution

GPU 是附加加速器，其連接主機板的方式略有不同。GPU 有兩種基本類型：獨立 GPU 和整合式 GPU。獨立 GPU 是一個獨立於中央處理單元的外部圖形處理器。GPU 擁有獨立於 CPU 的專用記憶體。獨立 GPU 通常連接到主機板上的 PCI Express x16 插槽。相反地，整合式 GPU 與 CPU 一起嵌入在 SoC 積體電路中。

GPU 功耗及其散熱解決方案

顯示卡也會分享其功耗和以瓦特 (W) 為單位的 TDP 值。典型的獨立 GPU 功耗約為 80W 至 250W，根據其 TDP 額定值，產生的熱量約為 100W 至 300W。獨立 GPU 通常包含內建散熱解決方案，這些解決方案已與其顯示卡的 TDP 相符。檢查 GPU 的功耗和 TDP 值有助於決定要購買哪種 PSU (電源供應單元)，或者您是否要為重度超頻應用程式安裝額外的散熱解決方案。

TPU 如何連接到主機板？

TPU-tensor-processing-unit

2019 年初，Google 終於發布了可從其 Coral 品牌購買的 TPU 硬體。您現在可以購買的 TPU 裝置目前的規格是每秒可執行 4 兆次運算 (TOPS)，每個 TOPS 僅消耗 0.5 瓦電力。目前有三種 TPU 硬體可供選擇：

透過 USB 連接線連接 Edge TPU 的 TPU USB 加速器。
透過 mPCIe 或 M.2 (A+E 和 B+M 鍵) 連接的 TPU。M.2 和 mPCIe 連接器使 TPU 能夠直接連接到主機板。
TPU 開發板選項是一種單板電腦，帶有可拆卸的系統級模組 (SoM)，適用於模組化 AI 應用程式。

TPU 功耗及其散熱解決方案

TPU-power-management-and-cooling-solution

Google Edge TPU ML 加速器具有 8 TOPS (每秒兆次運算) 的總峰值效能，每瓦功耗為 2 TOPS。對於散熱解決方案，您可以透過 M.2 TPU 上的獨立散熱墊連接散熱片或金屬外殼，以確保長期成功運作。此外，Edge TPU 具有高接面溫度 Tj，最大接面溫度為 Tj: 115℃。接面溫度是矽晶片的最高工作溫度。Edge TPU 的接面溫度必須保持在溫度限制以下才能安全運作。每個 TPU 都包含一個溫度感測器，用於監測內部溫度並指定用於動態頻率縮放 (DFS) 的觸發點。由於其緊湊的外形、低功耗、卓越的效率和耐高溫特性，工業邊緣應用對 TPU 的需求日益增加。

結果顯示，不同的處理技術會根據特定應用程式提供不同的優勢。新興技術發展迅速，隨著人工智慧和半導體產業的指數級增長，持續更新運算技術的最新創新至關重要。

最新文章：

工業觸控螢幕電腦和顯示器

超級電容器技術

CPU、GPU 與 TPU 有何不同？（完整概述）

CPU、GPU 與 TPU