Jeff Dean 在 Google 進行大規模深度學習 · HighScalability 中文示例

# Jeff Dean 在 Google 進行大規模深度學習 > 原文： [http://highscalability.com/blog/2016/3/16/jeff-dean-on-large-scale-deep-learning-at-google.html](http://highscalability.com/blog/2016/3/16/jeff-dean-on-large-scale-deep-learning-at-google.html) <iframe allowfullscreen="" frameborder="0" height="225" src="https://www.youtube.com/embed/QSaZGT4-6EY?rel=0" width="400"></iframe> *If you can’t understand what’s in information then it’s going to be very difficult to organize it.* 此引用來自 [Jeff Dean](http://research.google.com/pubs/jeff.html) ，目前是 Google 系統基礎架構小組的向導，研究員，研究員。摘自他最近的演講： [智能計算機系統的大規模深度學習](https://www.youtube.com/watch?v=QSaZGT4-6EY) 。自 [AlphaGo 訴 Lee Se-dol](https://gogameguru.com/tag/deepmind-alphago-lee-sedol/) 以來， [John Henry](https://en.wikipedia.org/wiki/John_Henry_(folklore)) 的現代版本與的致命一擊 [像蒸汽錘一樣，吸引了全世界，對 AI 的普遍恐懼](https://www.youtube.com/watch?v=j3LVFdWBHVM) [[ 啟示錄](http://thenextweb.com/insider/2014/03/08/ai-could-kill-all-meet-man-takes-risk-seriously/) ，這似乎是掩蓋 Jeff 演講的絕佳時機。而且，如果您認為 AlphaGo 現在很好，請等到 beta 達到。 Jeff 當然是指 Google 臭名昭著的 [座右銘](https://www.google.com/about/company/) ： *整理世界各地的信息并使其廣泛傳播可訪問且有用的* 。從歷史上看，我們可能會將“組織”與收集，清理，存儲，建立索引，報告和搜索數據相關聯。早期 Google 掌握的所有東西。完成這項任務后，Google 便迎接了下一個挑戰。現在 **的組織意味著對** 的理解。我的演講重點： * **實際的神經網絡由數億個參數**組成。 Google 的技能在于如何在大型有趣的數據集上構建并快速訓練這些巨大的模型，將其應用于實際問題，*和*然后在各種不同平臺（電話）上將模型快速部署到生產環境中，傳感器，云等）。 * 神經網絡在 90 年代沒有興起的原因是**缺乏計算能力，也缺少大型有趣的數據集**。您可以在 Google 上看到 Google 對算法的天生喜愛，再加上龐大的基礎架構和不斷擴大的數據集，如何為 AI 掀起一場**完美的 AI 風暴。** * Google 與其他公司之間的關鍵區別在于，當他們在 2011 年啟動 Google Brain 項目時， **并未將他們的研究留在象牙塔** 。項目團隊與 Android，Gmail 和照片等其他團隊密切合作，以實際改善這些屬性并解決難題。對于每個公司來說，這都是難得的，也是一個很好的教訓。 **通過與您的員工合作進行研究** 。 * 這個想法很有效：他們了解到他們可以采用一整套子系統，其中一些子系統可能是機器學習的， **則將其替換為更通用的端到端終端機器學習資料** 。通常，當您有很多復雜的子系統時，通常會有很多復雜的代碼將它們縫合在一起。如果您可以用數據和非常簡單的算法替換所有內容，那就太好了。 * **機器學習只會變得更好，更快。** 。杰夫的一句話：機器學習社區的發展確實非常快。人們發表了一篇論文，并且在一周之內，全世界許多研究小組下載了該論文，閱讀，進行了剖析，對其進行了理解，對其進行了一些擴展，并在 [上發布了自己的擴展。 arXiv.org](http://arxiv.org/) 。它與計算機科學的許多其他部分不同，在其他方面，人們將提交論文，六個月后，一個會議將決定是否接受該論文，然后在三個月后的會議中發表。到那時已經一年了。將時間從一年縮短到一周，真是太神奇了。 * **可以魔術方式組合技術** 。翻譯團隊使用計算機視覺編寫了可識別取景器中文本的應用程序。它翻譯文本，然后將翻譯后的文本疊加在圖像本身上。另一個示例是編寫圖像標題。它將圖像識別與序列到序列神經網絡相結合。您只能想象將來所有這些模塊化組件將如何組合在一起。 * **具有令人印象深刻的功能的模型在智能手機** 上足夠小。為了使技術消失，情報必須走到最前沿。它不能依賴于連接到遠程云大腦的網絡臍帶。由于 TensorFlow 模型可以在手機上運行，??因此這可能是可能的。 * 如果您不考慮如何使用深度神經網絡解決您的數據理解問題， **幾乎可以肯定是** 。這條線直接來自談話，但是在您使用深層神經網絡解決了棘手的問題之后，觀察到棘手的問題后，事實就很清楚了。 Jeff 總是進行精彩的演講，這一演講也不例外。它簡單，有趣，深入并且相對容易理解。如果您想了解深度學習知識，或者只是想了解 Google 在做什么，那么必須要看的是。談話內容不多。它已經包裝好了。因此，我不確定本文將為您帶來多少價值。因此，如果您只想觀看視頻，我會理解的。與 Google 對話一樣，您會感到我們只被邀請到 Willy Wonka 的巧克力工廠的大廳里。我們面前是一扇鎖著的門，我們沒有被邀請進來。那扇門之外的東西一定充滿了奇跡。但是，就連威利旺卡（Willy Wonka）的大廳也很有趣。因此，讓我們了解杰夫對未來的看法……這很有趣... ## 理解意味著什么？ * 當向人們展示街道場景時，他們可以毫無疑問地從場景中挑選文字，了解到一家商店出售紀念品，一家商店的價格確實很低，依此類推。直到最近，計算機還無法從圖像中提取此信息。 ![](https://img.kancloud.cn/38/24/382462797fdeaeeb2acfa6ad33142a24_320x163.png) * 如果您真的想從圖像中了解物理世界，則計算機需要能夠挑選出有趣的信息，閱讀并理解它們。 * 小型移動設備在當今和將來都主導著計算機交互。這些設備需要不同類型的接口。您需要真正能夠理解并產生語音。 * 進行查詢：[待售汽車零件]。舊版 Google 會匹配第一個結果，因為關鍵字匹配，但是比較匹配的是第二個文檔。真正了解查詢的含義是深層次而不是膚淺的單詞層次，這是您構建良好的搜索和語言理解產品所需要的。 ![](https://img.kancloud.cn/17/4c/174ce4d262ddc0ea11ac49733bac5ea6_320x120.png) ## Google 的深度神經網絡簡史 * [Google Brain 項目](https://en.wikipedia.org/wiki/Google_Brain) 于 2011 年啟動，致力于真正推動神經網絡技術的發展。 * 神經網絡已經存在很長時間了。它們在 60 年代和 70 年代發明，并在 80 年代末和 90 年代初流行，但它們逐漸消失了。兩個問題：1）缺乏訓練大型模型所需的計算能力，這意味著無法將神經網絡應用于較大的有趣數據集上的較大問題。 2）缺少大量有趣的數據集。 * 僅與 Google 的幾個產品組合作。隨著時間的推移，隨著小組發布的好消息或解決了以前無法解決的問題的消息，周圍的消息傳開了，越來越多的團隊會去幫助他們解決問題。 * 一些使用深度學習技術的產品/領域：Android，Apps，藥物發現，Gmail，圖像理解，地圖，自然語言，照片，機器人技術，語音翻譯等。 * **深度學習可以應用在如此多樣化的項目**中的原因是，它們**涉及到適用于不同領域的同一組構建模塊**：語音，文本，搜索查詢，圖像，視頻，標簽，實體，單詞，音頻功能。您可以輸入一種信息，確定要使用的信息，一起收集表示要計算的功能的訓練數據集，然后就可以使用了。 * 這些模型運行良好，因為 **您以非常原始的數據形式輸入** ，您無需手工設計許多有趣的功能，該模型的強大功能在于它能夠通過觀察大量示例來自動確定對數據集感興趣的部分。 * 您可以學習通用表示法，可能跨域學習。例如，“汽車”可能與汽車的圖像具有相同的含義。 * 他們已經知道他們可以采用一整套子系統，其中一些子系統可能是機器學習的，因此**替換為更通用的端到端機器學習文章**。通常，當您有很多復雜的子系統時，通常會有很多復雜的代碼將它們縫合在一起。如果您可以用數據和非常簡單的算法替換所有內容，那就太好了。 ## 什么是深度神經網絡？ * [神經網絡](https://en.wikipedia.org/wiki/Artificial_neural_network) 從數據中學到了一個非常復雜的功能。來自一個空間的輸入將轉換為另一個空間的輸出。 * 此功能與 x 2 不同，它是一個非常復雜的功能。當您輸入原始像素（例如貓）時，輸出將是對象類別。 ![](https://img.kancloud.cn/5a/42/5a4229388679ded4127bc07e9d213ed1_320x72.png) * 深度學習中的“ **深度**”是指神經網絡中的**層數。** * 深度的一個不錯的特性是該系統由簡單且可訓練的數學函數的 **集合組成。** * 深度神經網絡與許多機器學習風格兼容。 * 例如，您有一個輸入，即貓的圖片，而輸出中有人將該圖像標記為貓，則稱為 [監督學習](https://en.wikipedia.org/wiki/Supervised_learning) 。您可以給系統提供許多受監管的示例，并且您將學習近似于在受監管的示例中觀察到的功能。 * 您也可以進行 [無監督訓練](https://en.wikipedia.org/wiki/Unsupervised_learning) ，其中僅顯示圖像，而您不知道其中包含什么。然后，系統可以學習拾取大量圖像中出現的圖案。因此，即使您不知道該怎么稱呼圖像，它也可以識別出其中所有帶有貓的圖像都具有共同點。 * 還與 [強化學習](https://en.wikipedia.org/wiki/Reinforcement_learning) 等更奇特的技術兼容，這是一種非常重要的技術，已被用作一種 AlphaGo。 ## 什么是深度學習？ * 神經網絡模型**寬松地基于我們認為大腦的行為**。這不是神經元真正工作原理的詳細模擬。這是神經元的簡單抽象版本。 ![](https://img.kancloud.cn/5c/fa/5cfab592cee674efbeb3229949afb7f7_240x120.png) * 神經元有很多輸入。真實的神經元可以將不同的強度與不同的輸入相關聯。人工神經網絡試圖在所有這些邊上學習權重，這些權重是與不同輸入相關的優勢。 * 真實的神經元將其輸入和強度進行某種組合，并決定觸發或不觸發（峰值）。 * 人工神經元不僅發出尖峰，還發出實數值。這些神經元計算的功能是其輸入的加權總和乘以通過某些非線性函數施加的權重。 * 通常，當今使用的非線性函數是 [整流線性單元](https://en.wikipedia.org/wiki/Rectifier_(neural_networks)) （最大值（0，x））。在 90 年代，許多非線性函數是 [更平滑的](https://www.quora.com/What-is-special-about-rectifier-neural-units-used-in-NN-learning) S 型或正弦函數。它具有不錯的特性，即當神經元不觸發時給出真實的零，而接近于零的值可以為您優化系統提供幫助。 * 例如，如果神經元作為權重為-0.21、0.3 和 0.7 的三個輸入 X1，X1，X3，則計算將為：y = max（0，-.0.21 * x1 + 0.3 * x2 + 0.7 * x3）。 * 在確定圖像是貓還是狗時，圖像將經過一系列圖層放置。一些神經元會根據其輸入而激發或不激發。 ![](https://img.kancloud.cn/bb/12/bb1266ef23c526172b605605d940ee5b_320x208.png) * 最低層的神經元將看著小塊像素。較高級別的神經元將查看下面的神經元的輸出，并決定是否觸發。 * 該模型將逐步向上移動，例如說它是一只貓。在這種情況下哪一個是錯的，那是一條狗（盡管我也以為是貓，所以是狗嗎？）。 * 這是一個錯誤決策的信號會反饋到系統中，然后該信號將對模型的其余部分進行調整，以使下一次查看圖像時輸出看起來像狗一樣。 * 這就是神經網絡的**目標，** **對模型中所有邊緣**的權重進行很小的調整 **，以使您更有可能正確理解示例。您可以在所有示例中進行匯總，以便正確地使用大多數示例。** * 學習算法非常簡單。未完成時： * 選擇一個隨機訓練示例“（輸入，標簽）”。例如，帶有所需輸出“ cat”的貓圖片。 * 在“輸入”上運行神經網絡，并查看其產生的結果。 * 調整邊緣的權重以使輸出更接近“標簽” * 如何調整邊緣的權重以使輸出更接近標簽？ * [反向傳播](http://mattmazur.com/2015/03/17/a-step-by-step-backpropagation-example/) 。以下是推薦的解釋： [計算圖上的演算：反向傳播](http://colah.github.io/posts/2015-08-Backprop/) 。 * 微積分的 [鏈規則](https://www.khanacademy.org/math/differential-calculus/taking-derivatives/chain-rule/v/chain-rule-introduction) 用于確定當選擇的是貓而不是狗時，在神經網絡的頂部，您知道如何調整最頂層的權重使其更可能說狗。 ![](https://img.kancloud.cn/93/d6/93d6fdaefcf9798ce6417efeba665114_320x204.png) * 您需要使用權重朝箭頭方向前進，以使其更有可能說狗。不要邁出大步，因為它是復雜的不平坦表面。采取非常小的步驟，使其更有可能在下一次遇到狗。通過多次迭代并查看示例，結果更有可能成為狗。 * 通過鏈式規則，您可以了解較低層的參數更改將如何影響輸出。這意味著網絡中的 **變化可以通過** 一直回蕩到輸入，從而使整個模型適應并更有可能說狗。 * 真正的神經網絡是 **，它由數億個參數組成** ，因此您要在億維空間中進行調整，并嘗試了解其影響網絡的輸出。 ## 神經網絡的一些不錯的特性 * **神經網絡可以應用于很多不同類型的問題** （只要您有很多有趣的數據需要理解）。 * 文字：英語和其他語言的單詞數以萬億計。有很多對齊的文本，其中逐句級別的一種語言和另一種語言的翻譯版本。 * 視覺數據：數十億個圖像和視頻。 * 音頻：每天數萬小時的語音。 * 用戶活動：有許多不同的應用程序在生成數據。例如來自搜索引擎的查詢或在電子郵件中標記垃圾郵件的人。您可以學習許多活動并構建智能系統。 * 知識圖：數十億個標記關系三倍。 * **如果向它們投入更多數據，并使模型更大，則結果往往會更好** 。 * 如果您在問題上投入了更多數據而又沒有使模型更大，則可以通過學習有關數據集的更明顯事實來飽和模型的容量。 * **通過增加模型的大小，它不僅可以記住明顯的事物**，而且可以記住可能僅在數據集中的一小部分示例中出現的細微模式。 * 通過在更多數據上構建更大的模型 **，需要進行更多的計算** 。 Google 一直在努力研究如何擴展計算量以解決這些問題，從而訓練更大的模型。 ## 深度學習對 Google 有何重大影響？ ### 語音識別 * 這是 Google Brain 團隊與之合作部署神經網絡的第一批團隊之一。他們幫助他們部署了基于神經網絡的新聲學模型，而不是他們所使用的 [隱藏馬爾可夫模型](https://en.wikipedia.org/wiki/Hidden_Markov_model) 。 * 聲學模型的問題是要從語音的 150 毫秒變為預測在 10 毫秒的中間發出什么聲音。例如，是 ba 還是 ka 聲音？然后，您將獲得這些預測的完整序列，然后將它們與語言模型結合在一起，以了解用戶的意見。 * 他們的初始模型 **減少了 30％的單詞識別錯誤** ，這確實很重要。從那時起，語音團隊一直在研究更復雜的模型和高級網絡，以進一步降低錯誤率。現在，當您在電話里講話時，語音識別比三五年前要好得多。 ### ImageNet 挑戰 * 大約 6 年前，發布了 [ImageNet](http://image-net.org/) 數據集。當時大約有 100 萬張圖像，是計算機視覺的最大數據集之一。這個龐大的數據集的發布推動了計算機視覺領域的發展。 * 將圖像放置在大約 1000 個不同類別中，每個類別大約放置 1000 張圖像。 * 有上千種不同的豹子，小型摩托車等圖片。 * 一個復雜的因素是并非所有標簽都正確。 * 目標是推廣到新型圖像。您可以說是豹子還是櫻桃，換個新圖片？ * 在使用神經網絡進行挑戰之前，錯誤率約為 26％。 2014 年，Google 以 6.66％的錯誤率贏得了挑戰。 2015 年，錯誤率降至 3.46％。 * 這是一個龐大而深入的模型。每個盒子都像整個神經元層一樣在進行卷積運算。這是本文： [隨著卷積的發展而深入](http://www.cs.unc.edu/~wliu/papers/GoogLeNet.pdf) 。 ![](https://img.kancloud.cn/29/ac/29ac79d7a7534ac1cc4a80f1b1bb19db_320x122.png) * 人類 Andrej Karpathy 接受了挑戰，錯誤率為 5.1％。您可以在以下位置了解他的經驗： [我在 ImageNet 上與 ConvNet 競爭所學到的東西。](http://karpathy.github.io/2014/09/02/what-i-learned-from-competing-against-a-convnet-on-imagenet/) #### 神經網絡模型擅長什么？ * 這些模型在 **方面表現出色，在**方面有很好的區分。例如，計算機擅長區分狗的品種，而人類則不如。當人們看到一朵花并說是一朵花時，計算機可以分辨出它是“芙蓉”還是“大麗花”。 * 這些模型**擅長于概括**。例如，看起來不相似的不同種類的餐點仍將正確地標記為“餐點”。 * 當計算機出錯時，錯誤對于原因是明智的。例如，sl 看起來很像蛇。 ### Google 相冊搜索 * 能夠查看像素并了解圖像中的內容是一種強大的功能。 * Google 相冊團隊實現了無需標記即可搜索照片的功能。您可以找到雕像，yoda，圖紙，水等的圖片，而無需為圖片加標簽。 ### 街景圖像 * 在街景圖像中，您希望能夠閱讀所有文字。這是更精細的視覺任務。 * 您需要首先能夠找到圖像中的文本。經過訓練的模型可以從本質上預測像素的熱圖，其中像素包含文本，而像素不包含文本。訓練數據是圍繞文本片段繪制的多邊形。 * 因為訓練數據包含不同的字符集，所以以多種語言查找文本沒有問題。它適用于大字體和小字體；靠近攝像機的單詞和遠離攝像機的單詞；用不同的顏色。 * 這是一種相對容易訓練的模型。這是一個卷積網絡，它會嘗試預測每個像素是否包含文本。 ### 在 Google 搜索排名中的 RankBrain * [RankBrain](http://searchengineland.com/faq-all-about-the-new-google-rankbrain-algorithm-234440) 于 2015 年推出。它是排名第三的最重要搜索排名信號（100 秒）。有關更多信息，請訪問： [Google 將其獲利的 Web 搜索移交給 AI 機器](http://www.bloomberg.com/news/articles/2015-10-26/google-turning-its-lucrative-web-search-over-to-ai-machines) 。 * 搜索排名有所不同，因為您希望能夠理解該模型，并且希望了解其為何做出某些決定。 * 這是搜索排名小組在使用神經網絡進行搜索排名時的不安。當系統出錯時，他們想了解為什么這樣做。 * 創建了調試工具，并在模型中建立了足夠的可理解性，以克服該反對意見。 * 通常，您不想手動調整參數。您試圖了解模型為什么要進行這種預測，并弄清楚該模型是否與訓練數據有關，是否與問題不匹配？您可以訓練一種數據分布，然后應用到另一種數據分布。通過搜索查詢的分布，您每天的變化都會有所變化。由于事件的發生，變化總是在發生。您必須了解自己的分布是否穩定，例如語音識別，人們發出的聲音變化不大。查詢和文檔內容經常更改，因此您必須確保模型是最新的。一般而言，我們需要做一個更好的工作構建工具，以了解這些神經網絡內部發生的事情，找出導致預測的原因。 ### 序列到序列模型 * 可以將世界上的許多問題構想為將一個序列映射到另一個序列。 Google 的 Sutskever，Vinyals 和 Le 撰寫了有關該主題的突破性論文： [序列到神經網絡的序列學習](http://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf) 。 * 他們特別關注語言翻譯，以及將英語翻譯成法語的問題。翻譯實際上只是將英語單詞序列映射到法語單詞序列。 * 神經網絡非常擅長學習非常復雜的功能，因此該模型將學習將英語映射到法語句子的功能。 ![](https://img.kancloud.cn/b6/fa/b6fadba5534c95e683306ffb8bb7ea30_320x174.png) * 用 EOS（句子結尾）信號一次輸入一種語言的句子。當看到一個 EOS 以另一種語言開始產生相應的句子時，模型被訓練。訓練數據是指意義相同的語言句子對。它只是試圖對該功能建模。 * 在每一步中，它都會散發您詞匯表中所有詞匯表項上的概率分布。在推論時，您需要做一點搜索而不是訓練。如果您必須最大化每個單詞的概率，則不一定要獲得最可能的句子。對聯合概率進行搜索，直到找到最大可能的句子。 * 該系統在公共翻譯任務上達到了最新水平。大多數其他翻譯系統都是針對問題子部分的一堆手工編碼或機器學習模型，而不是完整的端到端學習系統。 * 該模型引起了人們的廣泛關注，因為很多問題都可以映射到這種逐序列方法。 #### 智能回復 * [智能回復](http://googleresearch.blogspot.com/2015/11/computer-respond-to-this-email.html) 是在產品中如何使用逐序列的示例。在電話上，您希望能夠快速響應電子郵件，并且打字很麻煩。 * 他們與 Gmail 團隊合作開發了一個系統來預測郵件的可能回復。 * 第一步是訓練一個小模型，以預測消息是否是可以簡短回復的消息。如果是這樣，則會激活一個更大，計算量更大的模型，該模型將消息作為順序輸入，并嘗試預測響應字的順序。 * 例如，在一封詢問感恩節邀請的電子郵件中，三種預計的回復是：我們會去的; 抱歉，我們無法做到。 * 使用智能回復可以在收件箱應用中生成令人驚訝的回復數量。 #### 圖片字幕 * 生成圖像標題時，您要嘗試在給定圖像像素的情況下使人們可能寫出的有關圖像的標題最大化。 * 取得已開發的圖像模型和已開發的序列到序列模型，并將它們插入在一起。圖像模型用作輸入。不用一次查看一個英語單詞，而是查看圖像的像素。 * 經過訓練可以產生字幕。訓練數據集具有由五個不同的人書寫的帶有五個不同標題的圖像。共寫了大約 700,000 個句子，大約 100,000 至 200,000 張圖像。 * 關于計算機上嬰兒抱著泰迪熊的照片，照片是：一個抱著毛絨玩具的孩子的特寫鏡頭；一個嬰兒在玩具熊旁邊睡著了。 * 它沒有人的理解水平。錯誤的結果可能很有趣。 ### 組合視覺+翻譯 * 可以組合技術。翻譯團隊使用計算機視覺編寫了可識別取景器中文本的應用程序。它翻譯文本，然后將翻譯后的文本疊加在圖像本身上（看起來非常令人印象深刻，大約為 37:29）。 * 這些模型足夠小，可以**，**，**，全部在設備上運行！** ## 周轉時間及其對研究的影響 * 每天訓練一張 GPU 卡需要 6 個星期。 * Google 真的很希望能夠快速完成研究。這樣做的想法是快速訓練模型，了解哪些方法行之有效，哪些行之有效，并找出下一組要運行的實驗。 * 模型應在數小時之內（而不是數天或數周）可訓練。它使每個進行此類研究的人都更有效率。 ## 如何快速訓練大型模型 ### 模型并行 * 神經網絡具有許多固有的并行性。 * 計算它們時，所有不同的單個神經元大多彼此獨立，尤其是當您具有局部接受場時，其中一個神經元僅接受來自其下方的少數神經元的輸入。 * 可以在不同的 GPU 卡上的不同計算機上劃分工作。只有跨越邊界的數據才需要通信。 ![](https://img.kancloud.cn/cf/f5/cff54d92075c0d976107d6a5437080b3_320x224.png) ### 數據并行 * 您要優化的模型的參數集不應位于集中服務中的一臺計算機中，因此您可以擁有許多不同的模型副本，這些副本將協作以優化參數。 * 在訓練過程中讀取不同的隨機數據（示例）。每個副本都將獲取模型中的當前參數集，讀取一些有關梯度應為多少的數據，找出要對參數進行哪些調整，然后將調整發送回集中的參數服務器集。參數服務器將對參數進行調整。并重復此過程。 ![](https://img.kancloud.cn/d3/94/d39495cee6ec0672460ebdd98a5c5b85_320x200.png) * 這可以跨許多副本完成。有時他們會在 500 臺不同的機器上使用 500 個模型的副本，以便快速優化參數并處理大量數據。 * 該過程可以是 **異步** ，其中每個料倉都在其自己的循環中，獲取參數，計算梯度并將其發送回去，而無需任何控制或同步其他的。不利的一面是，當梯度返回時，參數可能已從計算時移開。事實證明，對于許多模型（實際上最多 50 至 100 個副本）來說，這是可以的。 * 該進程可以 **同步** 。一個控制器控制所有副本。兩者似乎都起作用并且具有不同的優點和缺點（未列出）。演講的下一部分是關于 TensorFlow 的，我不會在這里討論。這篇文章已經太長了。 ## Q & A * **如果您不是 Google 這樣的大公司，并且無法訪問大數據集，該怎么辦？** 從運作良好的模型開始，該模型在公共數據集上經過訓練。公共數據集通常可用。然后對更適合您的問題的數據進行培訓。從相似且可公開獲得的數據集開始時，您可能只需要為特定問題加上標簽的 1,000 或 10,000 個示例。 ImageNet 是此過程工作的一個很好的例子。 * **作為工程師，您最大的錯誤是什么？** 不在 BigTable 中放置分布式事務。如果要更新多個行，則必須滾動自己的事務協議。不會輸入它是因為它會使系統設計變得復雜。回想起來，許多團隊都希望擁有這種能力，并以不同程度的成功建立自己的團隊。我們應該在核心系統中實現事務。它在內部也將是有用的。 Spanner 通過添加事務來解決此問題。 ## 相關文章 * [關于 HackerNews](https://news.ycombinator.com/item?id=11298308) * Ryan Adams 的 [AlphaGo](http://deepmind.com/alpha-go.html) 的真棒麻瓜可獲得的技術解釋 [機器學習音樂視頻](http://www.thetalkingmachines.com/blog/) [Talking Machines](http://www.thetalkingmachines.com/) 播客的集。 * [TensorFlow](https://www.tensorflow.org/) * [為什么機器學習課程的注冊人數激增](http://blogs.nvidia.com/blog/2016/02/24/enrollment-in-machine-learning/) * [使用深度卷積神經網絡](http://arxiv.org/abs/1412.6564) 進行移動評估 * [捍衛強大的 AI：語法](http://disagreeableme.blogspot.com/2012/11/in-defence-of-strong-ai-semantics-from.html) 的語義 * [中文會議室參數](http://plato.stanford.edu/entries/chinese-room/) * [Google：將計算機上的多個工作負荷相乘，以提高機器利用率并節省資金](http://highscalability.com/blog/2013/11/13/google-multiplex-multiple-works-loads-on-computers-to-increa.html) * [Google 延遲容忍系統：將不可預測的部分做成可預測的整體](http://highscalability.com/blog/2012/6/18/google-on-latency-tolerant-systems-making-a-predictable-whol.html) * [Google DeepMind：它是什么，它如何工作，您應該被嚇到嗎？](http://www.techworld.com/personal-tech/google-deepmind-what-is-it-how-it-works-should-you-be-scared-3615354/) * [重塑 Google 帝國的人工大腦內部](http://www.wired.com/2014/07/google_brain/) * [神經網絡揭秘](http://lumiverse.io/series/neural-networks-demystified) * [神經網絡黑客指南](http://karpathy.github.io/neuralnets/) * [神經網絡和深度學習](http://neuralnetworksanddeeplearning.com/) * [神經網絡（常規）](http://colah.github.io/) * [stephencwelch /神經網絡解密](https://github.com/stephencwelch/Neural-Networks-Demystified) * [加州大學伯克利分校深度學習主題課程](https://github.com/joanbruna/stat212b) * [機器學習：2014-2015](https://www.cs.ox.ac.uk/people/nando.defreitas/machinelearning/) * [通過深度強化學習玩 Atari](https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf) * [通過深度強化學習](https://storage.googleapis.com/deepmind-data/assets/papers/DeepMindNature14236Paper.pdf) 進行人為控制您提到了 arxiv.org，但卻錯過了 [gitxiv.com](http://gitxiv.com) ，這是機器學習中“真正非常快的”開發周期的下一個演變。在 Gitxiv 上，您可以在 arxiv.org 上找到某些論文的實現。這是您希望隨論文提供的源代碼。大多數實現是由第三方完成的，但越來越多的是高質量的。人類如何更好地以最適合 AI 消費和理解的形式構造文本，例如 Br??ainRank 或其他一些深度神經網絡？ “從歷史上看，我們可能會將'組織'與收集，清理，存儲，建立索引，報告和搜索數據聯系在一起。所有 Google 早期掌握的東西。完成這一任務后，Google 便邁入了下一個挑戰。現在組織意味著理解。” 我還沒有看過杰夫·迪恩（Jeff Dean）的演講-但有趣的是，幾天前我在 Twitter 上發布了完全相同的內容： “ IMO Google 的長期目標不僅是“組織世界的信息”，還在于使用#AI“理解”它： https://twitter.com/arunshroff/status/709072187773349889 要點：約翰·亨利的故事是我小時候最喜歡的故事之一。盡管這場比賽對他來說是致命的，但他還是在蒸汽錘上獲勝。因此，我不確定您想以此類推論來說明什么。總體而言，自工業革命以來，我們就發生了人機沖突，這表明發生了棘輪事件。永遠無法退回的齒輪轉動。約翰·亨利（John Henry）是其中一員。 AlphaGo 不是，但是它即將到來。約翰·亨利死了。那不是贏。充其量是物理上的勝利。他悲慘的勝利并沒有阻止接下來發生的一切。機器置換人的肌肉。好文章。小重點。 Alpha Go 沒有使用強化學習，這很重要。強化學習是為單人問題設計的，它在諸如游戲等兩人模型中的使用遠非直截了當。最大的問題是，如果自己一個人去，您將探索哪個領域。因此，Alpha Go 使用（深度）學習來確定要探索的動作，如何評估情況以及何時停止評估，但是總體算法是一種博弈。重要的是，學習不能解決所有問題，并且有明顯的盲點。其中之一就是結構很多的問題，例如是否有對手試圖擊敗您。還有其他情況。