成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<center id="ac2ga"><blockquote id="ac2ga"></blockquote></center>

<sup id="ac2ga"><small id="ac2ga"></small></sup>

<optgroup id="ac2ga"></optgroup>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

CPU、GPU 和 TPU 都是如何工作的？有什么區(qū)別？TPU為什么能碾壓GPU?

作者：機器之心編譯 2018-11-13 13:10:10

商務(wù)辦公開發(fā)工具

很多讀者可能分不清楚 CPU、GPU 和 TPU 之間的區(qū)別，因此 Google Cloud 將在這篇博客中簡要介紹它們之間的區(qū)別，并討論為什么 TPU 能加速深度學(xué)習(xí)。

很多讀者可能分不清楚 CPU、GPU 和 TPU 之間的區(qū)別，因此 Google Cloud 將在這篇博客中簡要介紹它們之間的區(qū)別，并討論為什么 TPU 能加速深度學(xué)習(xí)。

張量處理單元（TPU）是一種定制化的 ASIC 芯片，它由谷歌從頭設(shè)計，并專門用于機器學(xué)習(xí)工作負(fù)載。TPU 為谷歌的主要產(chǎn)品提供了計算支持，包括翻譯、照片、搜索助理和 Gmail 等。Cloud TPU 將 TPU 作為可擴展的云計算資源，并為所有在 Google Cloud 上運行*** ML 模型的開發(fā)者與數(shù)據(jù)科學(xué)家提供計算資源。在 Google Next’18 中，我們宣布 TPU v2 現(xiàn)在已經(jīng)得到用戶的廣泛使用，包括那些免費試用用戶，而 TPU v3 目前已經(jīng)發(fā)布了內(nèi)部測試版。

第三代 Cloud TPU

如上為 tpudemo.com 截圖，該網(wǎng)站 PPT 解釋了 TPU 的特性與定義。在本文中，我們將關(guān)注 TPU 某些特定的屬性。

神經(jīng)網(wǎng)絡(luò)如何運算

在我們對比 CPU、GPU 和 TPU 之前，我們可以先了解到底機器學(xué)習(xí)或神經(jīng)網(wǎng)絡(luò)需要什么樣的計算。如下所示，假設(shè)我們使用單層神經(jīng)網(wǎng)絡(luò)識別手寫數(shù)字。

如果圖像為 28×28 像素的灰度圖，那么它可以轉(zhuǎn)化為包含 784 個元素的向量。神經(jīng)元會接收所有 784 個值，并將它們與參數(shù)值（上圖紅線）相乘，因此才能識別為「8」。其中參數(shù)值的作用類似于用「濾波器」從數(shù)據(jù)中抽取特征，因而能計算輸入圖像與「8」之間的相似性：

這是對神經(jīng)網(wǎng)絡(luò)做數(shù)據(jù)分類最基礎(chǔ)的解釋，即將數(shù)據(jù)與對應(yīng)的參數(shù)相乘（上圖兩種顏色的點），并將它們加在一起（上圖右側(cè)收集計算結(jié)果）。如果我們能得到***的預(yù)測值，那么我們會發(fā)現(xiàn)輸入數(shù)據(jù)與對應(yīng)參數(shù)非常匹配，這也就最可能是正確的答案。

簡單而言，神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)和參數(shù)之間需要執(zhí)行大量的乘法和加法。我們通常會將這些乘法與加法組合為矩陣運算，這在我們大學(xué)的線性代數(shù)中會提到。所以關(guān)鍵點是我們該如何快速執(zhí)行大型矩陣運算，同時還需要更小的能耗。

CPU 如何運行

因此 CPU 如何來執(zhí)行這樣的大型矩陣運算任務(wù)呢？一般 CPU 是基于馮諾依曼架構(gòu)的通用處理器，這意味著 CPU 與軟件和內(nèi)存的運行方式如下：

CPU 如何運行：該動圖僅展示了概念性原理，并不反映 CPU 的實際運算行為。

CPU ***的優(yōu)勢是靈活性。通過馮諾依曼架構(gòu)，我們可以為數(shù)百萬的不同應(yīng)用加載任何軟件。我們可以使用 CPU 處理文字、控制火箭引擎、執(zhí)行銀行交易或者使用神經(jīng)網(wǎng)絡(luò)分類圖像。

但是，由于 CPU 非常靈活，硬件無法一直了解下一個計算是什么，直到它讀取了軟件的下一個指令。CPU 必須在內(nèi)部將每次計算的結(jié)果保存到內(nèi)存中（也被稱為寄存器或 L1 緩存）。內(nèi)存訪問成為 CPU 架構(gòu)的不足，被稱為馮諾依曼瓶頸。雖然神經(jīng)網(wǎng)絡(luò)的大規(guī)模運算中的每一步都是完全可預(yù)測的，每一個 CPU 的算術(shù)邏輯單元（ALU，控制乘法器和加法器的組件）都只能一個接一個地執(zhí)行它們，每一次都需要訪問內(nèi)存，限制了總體吞吐量，并需要大量的能耗。

GPU 如何工作

為了獲得比 CPU 更高的吞吐量，GPU 使用一種簡單的策略：在單個處理器中使用成千上萬個 ALU?，F(xiàn)代 GPU 通常在單個處理器中擁有 2500-5000 個 ALU，意味著你可以同時執(zhí)行數(shù)千次乘法和加法運算。

GPU 如何工作：這個動畫僅用于概念展示。并不反映真實處理器的實際工作方式。

這種 GPU 架構(gòu)在有大量并行化的應(yīng)用中工作得很好，例如在神經(jīng)網(wǎng)絡(luò)中的矩陣乘法。實際上，相比 CPU，GPU 在深度學(xué)習(xí)的典型訓(xùn)練工作負(fù)載中能實現(xiàn)高幾個數(shù)量級的吞吐量。這正是為什么 GPU 是深度學(xué)習(xí)中***的處理器架構(gòu)。

但是，GPU 仍然是一種通用的處理器，必須支持幾百萬種不同的應(yīng)用和軟件。這又把我們帶回到了基礎(chǔ)的問題，馮諾依曼瓶頸。在每次幾千個 ALU 的計算中，GPU 都需要訪問寄存器或共享內(nèi)存來讀取和保存中間計算結(jié)果。因為 GPU 在其 ALU 上執(zhí)行更多的并行計算，它也會成比例地耗費更多的能量來訪問內(nèi)存，同時也因為復(fù)雜的線路而增加 GPU 的物理空間占用。

TPU 如何工作

當(dāng)谷歌設(shè)計 TPU 的時候，我們構(gòu)建了一種領(lǐng)域特定的架構(gòu)。這意味著，我們沒有設(shè)計一種通用的處理器，而是專用于神經(jīng)網(wǎng)絡(luò)工作負(fù)載的矩陣處理器。TPU 不能運行文本處理軟件、控制火箭引擎或執(zhí)行銀行業(yè)務(wù)，但它們可以為神經(jīng)網(wǎng)絡(luò)處理大量的乘法和加法運算，同時 TPU 的速度非?？?、能耗非常小且物理空間占用也更小。

其主要助因是對馮諾依曼瓶頸的大幅度簡化。因為該處理器的主要任務(wù)是矩陣處理，TPU 的硬件設(shè)計者知道該運算過程的每個步驟。因此他們放置了成千上萬的乘法器和加法器并將它們直接連接起來，以構(gòu)建那些運算符的物理矩陣。這被稱作脈動陣列（Systolic Array）架構(gòu)。在 Cloud TPU v2 的例子中，有兩個 128X128 的脈動陣列，在單個處理器中集成了 32768 個 ALU 的 16 位浮點值。

我們來看看一個脈動陣列如何執(zhí)行神經(jīng)網(wǎng)絡(luò)計算。首先，TPU 從內(nèi)存加載參數(shù)到乘法器和加法器的矩陣中。

然后，TPU 從內(nèi)存加載數(shù)據(jù)。當(dāng)每個乘法被執(zhí)行后，其結(jié)果將被傳遞到下一個乘法器，同時執(zhí)行加法。因此結(jié)果將是所有數(shù)據(jù)和參數(shù)乘積的和。在大量計算和數(shù)據(jù)傳遞的整個過程中，不需要執(zhí)行任何的內(nèi)存訪問。

這就是為什么 TPU 可以在神經(jīng)網(wǎng)絡(luò)運算上達到高計算吞吐量，同時能耗和物理空間都很小。

好處：成本降低至 1/5

因此使用 TPU 架構(gòu)的好處就是：降低成本。以下是截至 2018 年 8 月（寫這篇文章的時候）Cloud TPU v2 的使用價格。

CPU、GPU 和 TPU 都是如何工作的？有什么區(qū)別？TPU為什能碾壓GPU? 這篇說的最清楚！

Cloud TPU v2 的價格，截至 2018 年 8 月。

斯坦福大學(xué)發(fā)布了深度學(xué)習(xí)和推理的基準(zhǔn)套裝 DAWNBench。你可以在上面找到不同的任務(wù)、模型、計算平臺以及各自的基準(zhǔn)結(jié)果的組合。

DAWNBench：https://dawn.cs.stanford.edu/benchmark/

在 DAWNBench 比賽于 2018 年 4 月結(jié)束的時候，非 TPU 處理器的***訓(xùn)練成本是 72.40 美元（使用現(xiàn)場實例訓(xùn)練 ResNet-50 達到 93% 準(zhǔn)確率）。而使用 Cloud TPU v2 搶占式計價，你可以在 12.87 美元的價格完成相同的訓(xùn)練結(jié)果。這僅相當(dāng)于非 TPU 的不到 1/5 的成本。這正是神經(jīng)網(wǎng)絡(luò)領(lǐng)域特定架構(gòu)的威力之所在。

原文鏈接：https://cloud.google.com/blog/products/ai-machine-learning/what-makes-tpus-fine-tuned-for-deep-learning

【本文是51CTO專欄機構(gòu)“機器之心”的原創(chuàng)譯文，微信公眾號“機器之心( id: almosthuman2014)”】

戳這里，看該作者更多好文

責(zé)任編輯：武曉燕來源： 51CTO專欄

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：高清亚洲 | 在线国产视频观看 | 91社区在线高清 | 免费一区二区三区 | 欧美精品一区二区在线观看 | 亚洲精品成人av久久 | 欧美日在线 | 成人在线中文 | 国产精品久久久久久久久久久新郎 | 欧美成人影院 | 综合另类 | 观看毛片| 中国黄色在线视频 | 九九热国产精品视频 | 人人擦人人 | 91免费观看在线 | 国产精品日韩一区二区 | 五月综合久久 | 精品欧美一区二区在线观看 | 4h影视| 性色av一区 | 先锋资源在线 | 2021天天干夜夜爽 | 欧美aⅴ片 | 国产一区不卡 | 精品久久不卡 | 日韩三级视频 | 999免费观看视频 | 在线视频一区二区 | 精品视频成人 | 国产欧美精品区一区二区三区 | 亚洲欧美国产毛片在线 | 国产一区二区精华 | 日本a在线 | 日韩国产在线观看 | 欧美高清视频在线观看 | 欧美精品一区在线 | 欧美一区二区在线观看视频 | 美日韩视频 | 亚洲欧洲综合av | 亚洲一区二区三区视频 |

<strong id="oye6m"></strong>

<acronym id="oye6m"></acronym>

<pre id="oye6m"></pre>

<code id="oye6m"><small id="oye6m"></small></code>