十四、TensorFlow 處理單元 · ApacheCN 深度學習譯文集

# 十四、TensorFlow 處理單元 Google 服務（例如 Google 搜索（RankBrain），街景，Google 照片和 Google 翻譯）有一個共同點：它們都使用 Google 的 Tensor 處理單元或 **TPU** 進行計算。您可能在想什么是 TPU，這些服務有什么好處？所有這些服務都在后臺使用最新的機器學習算法，并且這些算法涉及大量計算。 TPU 有助于加速所涉及的神經網絡計算。甚至 AlphaGo，一種在 Go 游戲中擊敗 Lee Sedol 的深度學習程序，都由 TPU 推動。因此，讓我們看看 TPU 到底是什么。 TPU 是 Google 專門為機器學習而定制的定制專用集成電路（**ASIC**），是針對 Tensorflow 量身定制的。它基于 28 納米工藝構建，運行頻率為 700 MHz，運行時消耗 40 W 的能量。它包裝為外部加速卡，可以插入現有的 SATA 硬盤插槽中。 TPU 通過 PCIe Gen 3×16 總線連接到主機 CPU，該總線提供 12.5 GB/s 的有效帶寬。到目前為止，第一代 TPU 的目標是推理，即使用已經訓練好的模型。 DNN 的訓練通常需要更多時間，但仍在 CPU 和 GPU 上進行。在 [2017 年 5 月的博客文章](https://www.blog.google/topics/google-cloud/google-cloud-offer-tpus-machine-learning/)中宣布的第二代 TPU 都可以訓練和推斷機器學習模型。 # TPU 的組件在本書涵蓋的所有深度學習模型中，無論學習范例如何，都需要進行三個基本計算：乘法，加法和激活函數的應用。前兩個成分是矩陣乘法的一部分：權重矩陣`W`需要與輸入矩陣`X`相乘`W^T · X`；矩陣乘法在 CPU 上的計算量很大，盡管 GPU 使操作并行化，但仍有改進的余地。 TPU 具有 65,536 個 8 位整數矩陣乘法器單元（**MXU**），峰值吞吐量為 92 TOPS。 GPU 和 TPU 乘法之間的主要區別在于 GPU 包含浮點乘法器，而 TPU 包含 8 位整數乘法器。 TPU 還包含一個統一緩沖區（**UB**），用作寄存器的 24 MB SRAM 和一個包含硬接線激活函數的激活單元（**AU**）。 MXU 是使用脈動數組架構實現的。它包含一個數組算術邏輯單元（ALU），該數組連接到網狀拓撲中的少量最近鄰居。每個數據值僅讀取一次，但在流過 ALU 數組時會多次用于不同的操作，而無需將其存儲回寄存器。 TPU 中的 ALU 僅以固定模式執行乘法和加法。 MXU 已針對矩陣乘法進行了優化，不適用于通用計算。每個 TPU 還具有一個片外 8GiB DRAM 池，稱為加權存儲器。它具有四個階段的流水線，并執行 CISC 指令。到目前為止，TPU 由六個神經網絡組成：兩個 MLP，兩個 CNN 和兩個 LSTM。在高級指令的幫助下對 TPU 進行編程；下面是一些用于對 TPU 進行編程的指令： * `Read_Weights`：從內存讀取權重 * `Read_Host_Memory`：從內存中讀取數據 * `MatrixMultiply/Convolve`：與數據相乘或卷積并累加結果 * `Activate`：應用激活函數 * `Write_Host_Memory`：將結果寫入存儲器 Google 創建了一個 API 棧，以方便 TPU 編程；它將來自 Tensorflow 圖的 API 調用轉換為 TPU 指令。 # TPU 的優勢 TPU 提供的優于 GPU 和 CPU 的首要優勢是性能。 Google 將 TPU 的性能與運行基準代碼（代表 95% 的推理工作量）的服務器級 Intel Haswell CPU 和 NVIDIA K80 GPU 進行了比較。它發現 TPU 的速度比 NVIDIA GPU 和 Intel CPU 快 15-30 倍。第二個重要參數是功耗。降低功耗非常重要，因為它具有雙重能源優勢：它不僅減少了功耗，而且還通過降低散熱成本來散熱，從而節省了功耗，從而消除了加工過程中產生的熱量。 TPU / CPU 每瓦性能比其他 CPU 和 GPU 配置提高了 30-80 倍。 TPU 的另一個優點是其最小化和確定性的設計，因為它們一次只能執行一個任務。與 CPU 和 GPU 相比，單線程 TPU 沒有任何復雜的微架構功能會消耗晶體管和能量來改善平均情況，但不會消耗 99% 的情況：沒有緩存，分支預測，亂序執行，多處理，推測性預取，地址合并，多線程，上下文切換等。極簡主義是特定領域處理器的優點。 # 訪問 TPU Google 已決定不直接將 TPU 出售給他人；取而代之的是，將通過 Google 云平臺提供 TPU：[Cloud TPU Alpha](https://cloud.google.com/tpu/)。 Cloud TPU Alpha 將提供高達 180 teraflops 的計算性能和 64 GB 的超高帶寬內存。用戶將能夠從自定義虛擬機連接到這些 Cloud TPU。 Google 還決定向全球的機器學習研究人員免費提供 1000 個云 TPU 集群，以加快開放式機器學習研究的步伐。在有限的計算時間內，將授予選定的個人訪問權限； [個人可以使用以下鏈接進行注冊](https://services.google.com/fb/forms/tpusignup/)。根據 Google Blog： “由于 TensorFlow 研究云的主要目標是使整個開放式機器學習研究社區受益，因此，成功的申請人有望做到以下幾點：通過同行評審的出版物，開源代碼，博客文章或其他開放媒體與世界分享其 TFRC 支持的研究與 Google 分享具體的建設性反饋，以幫助我們隨著時間的推移改進 TFRC 計劃和基礎的 Cloud TPU 平臺。想象一下 ML 加速豐富的未來，并基于這種未來開發新的機器學習模型。” # TPU 上的資源 * Norman P.Jouppi 等人，張量處理單元的數據中心內性能分析，arXiv：1704.04760（2017）。在本文中，作者將 TPU 與服務器級的 Intel Haswell CPU 和 NVIDIA k80 GPU 進行了比較。本文以 TPU 與 CPU 和 K80 GPU 的性能為基準。 * [此 Google 博客通過以下簡單術語說明了 TPU 及其工作原理](https://cloud.google.com/blog/big-data/2017/05/an-in-depth-look-at-googles-first-tensor-processing-unit-tpu)