<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                ??一站式輕松地調用各大LLM模型接口,支持GPT4、智譜、豆包、星火、月之暗面及文生圖、文生視頻 廣告
                # 十四、TensorFlow 處理單元 Google 服務(例如 Google 搜索(RankBrain),街景,Google 照片和 Google 翻譯)有一個共同點:它們都使用 Google 的 Tensor 處理單元或 **TPU** 進行計算。 您可能在想什么是 TPU,這些服務有什么好處? 所有這些服務都在后臺使用最新的機器學習算法,并且這些算法涉及大量計算。 TPU 有助于加速所涉及的神經網絡計算。 甚至 AlphaGo,一種在 Go 游戲中擊敗 Lee Sedol 的深度學習程序,都由 TPU 推動。 因此,讓我們看看 TPU 到底是什么。 TPU 是 Google 專門為機器學習而定制的定制專用集成電路(**ASIC**),是針對 Tensorflow 量身定制的。 它基于 28 納米工藝構建,運行頻率為 700 MHz,運行時消耗 40 W 的能量。 它包裝為外部加速卡,可以插入現有的 SATA 硬盤插槽中。 TPU 通過 PCIe Gen 3×16 總線連接到主機 CPU,該總線提供 12.5 GB/s 的有效帶寬。 到目前為止,第一代 TPU 的目標是推理,即使用已經訓練好的模型。 DNN 的訓練通常需要更多時間,但仍在 CPU 和 GPU 上進行。 在 [2017 年 5 月的博客文章](https://www.blog.google/topics/google-cloud/google-cloud-offer-tpus-machine-learning/)中宣布的第二代 TPU 都可以訓練和推斷機器學習模型。 # TPU 的組件 在本書涵蓋的所有深度學習模型中,無論學習范例如何,都需要進行三個基本計算:乘法,加法和激活函數的應用。 前兩個成分是矩陣乘法的一部分:權重矩陣`W`需要與輸入矩陣`X`相乘`W^T · X`; 矩陣乘法在 CPU 上的計算量很大,盡管 GPU 使操作并行化,但仍有改進的余地。 TPU 具有 65,536 個 8 位整數矩陣乘法器單元(**MXU**),峰值吞吐量為 92 TOPS。 GPU 和 TPU 乘法之間的主要區別在于 GPU 包含浮點乘法器,而 TPU 包含 8 位整數乘法器。 TPU 還包含一個統一緩沖區(**UB**),用作寄存器的 24 MB SRAM 和一個包含硬接線激活函數的激活單元(**AU**)。 MXU 是使用脈動數組架構實現的。 它包含一個數組算術邏輯單元(ALU),該數組連接到網狀拓撲中的少量最近鄰居。 每個數據值僅讀取一次,但在流過 ALU 數組時會多次用于不同的操作,而無需將其存儲回寄存器。 TPU 中的 ALU 僅以固定模式執行乘法和加法。 MXU 已針對矩陣乘法進行了優化,不適用于通用計算。 每個 TPU 還具有一個片外 8GiB DRAM 池,稱為加權存儲器。 它具有四個階段的流水線,并執行 CISC 指令。 到目前為止,TPU 由六個神經網絡組成:兩個 MLP,兩個 CNN 和兩個 LSTM。 在高級指令的幫助下對 TPU 進行編程; 下面是一些用于對 TPU 進行編程的指令: * `Read_Weights`:從內存讀取權重 * `Read_Host_Memory`:從內存中讀取數據 * `MatrixMultiply/Convolve`:與數據相乘或卷積并累加結果 * `Activate`:應用激活函數 * `Write_Host_Memory`:將結果寫入存儲器 Google 創建了一個 API 棧,以方便 TPU 編程; 它將來自 Tensorflow 圖的 API 調用轉換為 TPU 指令。 # TPU 的優勢 TPU 提供的優于 GPU 和 CPU 的首要優勢是性能。 Google 將 TPU 的性能與運行基準代碼(代表 95% 的推理工作量)的服務器級 Intel Haswell CPU 和 NVIDIA K80 GPU 進行了比較。 它發現 TPU 的速度比 NVIDIA GPU 和 Intel CPU 快 15-30 倍。 第二個重要參數是功耗。 降低功耗非常重要,因為它具有雙重能源優勢:它不僅減少了功耗,而且還通過降低散熱成本來散熱,從而節省了功耗,從而消除了加工過程中產生的熱量。 TPU / CPU 每瓦性能比其他 CPU 和 GPU 配置提高了 30-80 倍。 TPU 的另一個優點是其最小化和確定性的設計,因為它們一次只能執行一個任務。 與 CPU 和 GPU 相比,單線程 TPU 沒有任何復雜的微架構功能會消耗晶體管和能量來改善平均情況,但不會消耗 99% 的情況:沒有緩存,分支預測,亂序執行, 多處理,推測性預取,地址合并,多線程,上下文切換等。 極簡主義是特定領域處理器的優點。 # 訪問 TPU Google 已決定不直接將 TPU 出售給他人; 取而代之的是,將通過 Google 云平臺提供 TPU:[Cloud TPU Alpha](https://cloud.google.com/tpu/)。 Cloud TPU Alpha 將提供高達 180 teraflops 的計算性能和 64 GB 的超高帶寬內存。 用戶將能夠從自定義虛擬機連接到這些 Cloud TPU。 Google 還決定向全球的機器學習研究人員免費提供 1000 個云 TPU 集群,以加快開放式機器學習研究的步伐。 在有限的計算時間內,將授予選定的個人訪問權限; [個人可以使用以下鏈接進行注冊](https://services.google.com/fb/forms/tpusignup/)。 根據 Google Blog: “由于 TensorFlow 研究云的主要目標是使整個開放式機器學習研究社區受益,因此,成功的申請人有望做到以下幾點: 通過同行評審的出版物,開源代碼,博客文章或其他開放媒體與世界分享其 TFRC 支持的研究 與 Google 分享具體的建設性反饋,以幫助我們隨著時間的推移改進 TFRC 計劃和基礎的 Cloud TPU 平臺。 想象一下 ML 加速豐富的未來,并基于這種未來開發新的機器學習模型。” # TPU 上的資源 * Norman P.Jouppi 等人,張量處理單元的數據中心內性能分析,arXiv:1704.04760(2017)。 在本文中,作者將 TPU 與服務器級的 Intel Haswell CPU 和 NVIDIA k80 GPU 進行了比較。 本文以 TPU 與 CPU 和 K80 GPU 的性能為基準。 * [此 Google 博客通過以下簡單術語說明了 TPU 及其工作原理](https://cloud.google.com/blog/big-data/2017/05/an-in-depth-look-at-googles-first-tensor-processing-unit-tpu)
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看