# Jeff Dean 在 Google 進行大規模深度學習
> 原文: [http://highscalability.com/blog/2016/3/16/jeff-dean-on-large-scale-deep-learning-at-google.html](http://highscalability.com/blog/2016/3/16/jeff-dean-on-large-scale-deep-learning-at-google.html)
<iframe allowfullscreen="" frameborder="0" height="225" src="https://www.youtube.com/embed/QSaZGT4-6EY?rel=0" width="400"></iframe>
*If you can’t understand what’s in information then it’s going to be very difficult to organize it.*
此引用來自 [Jeff Dean](http://research.google.com/pubs/jeff.html) ,現為 Google 系統基礎架構小組的向導,研究員,研究員。 摘自他最近的演講: [智能計算機系統的大規模深度學習](https://www.youtube.com/watch?v=QSaZGT4-6EY) 。
自 [AlphaGo 訴 Lee Se-dol](https://gogameguru.com/tag/deepmind-alphago-lee-sedol/) 以來, [John Henry](https://en.wikipedia.org/wiki/John_Henry_(folklore)) 的現代版本 與 的致命一擊 [像蒸汽錘一樣,已經籠罩了整個世界,人們普遍對 AI 感到恐懼](https://www.youtube.com/watch?v=j3LVFdWBHVM) [[ 啟示錄](http://thenextweb.com/insider/2014/03/08/ai-could-kill-all-meet-man-takes-risk-seriously/) ,這似乎是掩蓋 Jeff 演講的絕佳時機。 而且,如果您認為 AlphaGo 現在很好,請等到 beta 達到。
Jeff 當然是指 Google 臭名昭著的 [座右銘](https://www.google.com/about/company/) : *整理世界各地的信息并將其廣泛地傳播 可訪問且有用的* 。
從歷史上看,我們可能會將“組織”與收集,清理,存儲,建立索引,報告和搜索數據相關聯。 早期 Google 掌握的所有東西。 完成這項任務后,Google 便迎接了下一個挑戰。
現在 **的組織意味著對** 的理解。
我的演講重點:
* **實際的神經網絡由數億個參數**組成。 Google 的技能在于如何在大型有趣的數據集上構建并快速訓練這些龐大的模型,將其應用于實際問題,*和*然后將模型快速部署到各種不同平臺(電話)中的生產環境中 ,傳感器,云等)。
* 神經網絡在 90 年代沒有興起的原因是**缺乏計算能力,也缺少大型有趣的數據集**。 您可以在 Google 上看到 Google 對算法自然的熱愛,再加上龐大的基礎架構和不斷擴大的數據集,如何為 AI 掀起**完美的 AI 風暴。**
* Google 與其他公司之間的關鍵區別在于,當他們在 2011 年啟動 Google Brain 項目時, **并未將他們的研究留在象牙塔** 。 項目團隊與 Android,Gmail 和照片等其他團隊密切合作,以實際改善這些屬性并解決難題。 對于每個公司來說,這都是難得的,也是一個很好的教訓。 **通過與您的員工合作進行研究** 。
* 這個想法很有效:他們了解到他們可以采用一整套子系統,其中一些子系統可以通過機器學習,并且 **替換為更通用的端到端 終端機器學習資料** 。 通常,當您有很多復雜的子系統時,通常會有很多復雜的代碼將它們縫合在一起。 如果您可以用數據和非常簡單的算法替換所有內容,那就太好了。
* **機器學習只會變得更好,更快。** 。 杰夫的一句話:機器學習社區的發展確實非常快。 人們發表了一篇論文,并且在一周之內,全世界許多研究小組下載了該論文,閱讀,進行了剖析,對其進行了理解,對其進行了一些擴展,并在 [上發布了自己的擴展。 arXiv.org](http://arxiv.org/) 。 它與計算機科學的許多其他部分不同,在其他方面,人們將提交論文,六個月后,一個會議將決定是否接受該論文,然后在三個月后的會議中發表。 到那時已經一年了。 將時間從一年縮短到一周,真是太神奇了。
* **可以魔術方式組合技術** 。 翻譯團隊使用計算機視覺編寫了可識別取景器中文本的應用程序。 它翻譯文本,然后將翻譯后的文本疊加在圖像本身上。 另一個示例是編寫圖像標題。 它將圖像識別與序列到序列神經網絡相結合。 您只能想象將來所有這些模塊化組件將如何組合在一起。
* **具有令人印象深刻的功能的模型在智能手機** 上足夠小。 為了使技術消失,情報必須走到最前沿。 它不能依賴于連接到遠程云大腦的網絡臍帶。 由于 TensorFlow 模型可以在手機上運行,??因此這可能是可能的。
* 如果您不考慮如何使用深度神經網絡來解決數據理解問題, **幾乎可以肯定是** 。 這條線直接來自談話,但是在您使用深層神經網絡解決了棘手的問題之后,觀察到棘手的問題后,事實就很清楚了。
Jeff 總是進行精彩的演講,而這一演講也不例外。 它簡單,有趣,深入并且相對容易理解。 如果您想了解深度學習知識,或者只是想了解 Google 在做什么,那么必須要看的是 。
談話內容不多。 它已經包裝好了。 因此,我不確定本文將為您帶來多少價值。 因此,如果您只想觀看視頻,我會理解的。
與 Google 對話一樣,您會感到我們只被邀請到 Willy Wonka 的巧克力工廠的大廳里。 我們面前是一扇鎖著的門,我們沒有被邀請進來。那扇門之外的東西一定充滿了奇跡。 但是,就連威利旺卡(Willy Wonka)的大廳也很有趣。
因此,讓我們了解杰夫對未來的看法……這很令人著迷...
## 理解意味著什么?
* 當向人們展示街道場景時,他們可以毫無問題地從場景中挑選文字,了解到一家商店出售紀念品,一家商店的價格確實很低,等等。 直到最近,計算機還無法從圖像中提取此信息。

* 如果您真的想從圖像中了解物理世界,則計算機需要能夠挑選出有趣的信息,閱讀并理解它們。
* 小型移動設備在當今和將來都主導著計算機交互。 這些設備需要不同類型的接口。 您需要真正能夠理解并產生語音。
* 進行查詢:[待售汽車零件]。 舊的 Google 會匹配第一個結果,因為關鍵字匹配,但是比較好的匹配是第二個文檔。 真正了解查詢的含義是深層次而不是膚淺的單詞層次,這是構建良好的搜索和語言理解產品所需要的。

## Google 的深度神經網絡簡史
* [Google Brain 項目](https://en.wikipedia.org/wiki/Google_Brain) 從 2011 年開始,致力于真正推動神經網絡技術的發展。
* 神經網絡已經存在很長時間了。 它們在 60 年代和 70 年代發明,并在 80 年代末和 90 年代初流行,但它們逐漸消失了。 兩個問題:1)缺乏訓練大型模型所需的計算能力,這意味著無法將神經網絡應用于較大的有趣數據集上的較大問題。 2)缺少大量有趣的數據集。
* 僅與 Google 的幾個產品組合作。 隨著時間的流逝,隨著小組發布的好消息或解決了以前無法解決的問題的消息,周圍的人流連忘返,更多的團隊會去幫助他們解決問題。
* 一些使用深度學習技術的產品/領域:Android,Apps,藥物發現,Gmail,圖像理解,地圖,自然語言,照片,機器人技術,語音翻譯等。
* **深度學習可以應用在如此多樣化的項目**中的原因是,它們**涉及到適用于不同領域的同一組構建模塊**:語音,文本,搜索查詢,圖像, 視頻,標簽,實體,單詞,音頻功能。 您可以輸入一種信息,確定要使用的信息,一起收集表示要計算的功能的訓練數據集,然后就可以使用了。
* 這些模型運作良好,因為 **您以非常原始的數據形式輸入** ,您無需手工設計很多有趣的功能, 該模型的強大功能在于它能夠通過觀察大量示例來自動確定數據集的有趣之處。
* 您可以學習通用表示法,可能跨域學習。 例如,“汽車”的含義可能與汽車的圖像相同。
* 他們已經知道他們可以采用一整套子系統,其中一些子系統可能是機器學習的,因此**替換為更通用的端到端機器學習文章**。 通常,當您有很多復雜的子系統時,通常會有很多復雜的代碼將它們縫合在一起。 如果您可以用數據和非常簡單的算法替換所有內容,那就太好了。
## 什么是深度神經網絡?
* [神經網絡](https://en.wikipedia.org/wiki/Artificial_neural_network) 從數據中學到了非常復雜的功能。 來自一個空間的輸入將轉換為另一個空間的輸出。
* 此功能與 x 2 不同,它是一個非常復雜的功能。 例如,當您輸入原始像素(例如貓)時,輸出將是對象類別。

* 深度學習中的“ **深度**”是指神經網絡中的**層數。**
* 深度的一個不錯的特性是該系統由簡單且可訓練的數學函數 的 **集合組成。**
* 深度神經網絡與許多機器學習風格兼容。
* 例如,您有一個輸入,即貓的圖片,而輸出中有人將該圖像標記為貓,則稱為 [監督學習](https://en.wikipedia.org/wiki/Supervised_learning) 。 您可以為系統提供許多受監管的示例,并且您將學習近似于與在受監管的示例中觀察到的功能相似的函數。
* 您也可以進行 [無監督訓練](https://en.wikipedia.org/wiki/Unsupervised_learning) ,其中僅顯示圖像,不知道圖像中包含什么。 然后,系統可以學習掌握在許多圖像中出現的模式。 因此,即使您不知道該怎么稱呼圖像,它也可以識別出其中所有帶有貓的圖像都具有共同點。
* 還與 [強化學習](https://en.wikipedia.org/wiki/Reinforcement_learning) 等更奇特的技術兼容,這是一種非常重要的技術,已被用作一種 AlphaGo。
## 什么是深度學習?
* 神經網絡模型**寬松地基于我們認為大腦的行為**。 這不是神經元真正工作原理的詳細模擬。 這是神經元的簡單抽象版本。 
* 神經元有很多輸入。 真實的神經元可以將不同的強度與不同的輸入相關聯。 人工神經網絡嘗試學習所有這些邊上的權重,這些權重是與不同輸入相關的優勢。
* 真實的神經元會結合其輸入和強度,并決定觸發或不觸發,即尖峰。
* 人工神經元不僅發出尖峰,還發出實數值。 這些神經元計算的功能是其輸入的加權總和乘以通過某些非線性函數施加的權重。
* 通常,當今使用的非線性函數是 [整流線性單元](https://en.wikipedia.org/wiki/Rectifier_(neural_networks)) (最大值(0,x))。 在 90 年代,許多非線性函數是 [更平滑的](https://www.quora.com/What-is-special-about-rectifier-neural-units-used-in-NN-learning) S 型或正弦函數。 它具有不錯的特性,即當神經元不觸發時提供真實的零,而接近零的值可以在優化系統時為您提供幫助。
* 例如,如果神經元作為權重為-0.21、0.3 和 0.7 的三個輸入 X1,X1,X3,則計算將為:y = max(0,-.0.21 * x1 + 0.3 * x2 + 0.7 * x3)。
* 在確定圖像是貓還是狗時,圖像將經過一系列圖層放置。 一些神經元會根據其輸入而激發或不激發。

* 最低層的神經元將看著小塊像素。 較高級別的神經元將查看下面的神經元的輸出,并決定是否觸發。
* 該模型將逐步向上移動,例如說它是一只貓。 在這種情況下哪個是錯的,那是一條狗(盡管我也以為是貓,還是在籃中的狗?)。
* 這是一個錯誤決策的信號會反饋到系統中,然后該信號將對模型的其余部分進行調整,以使下次查看圖像時輸出看起來像狗一樣。
* 這就是神經網絡的**目標,** **對整個模型中所有邊緣**的權重進行很小的調整 **,以使您更有可能正確理解示例 。 您可以在所有示例中進行匯總,以便正確地使用大多數示例。**
* 學習算法非常簡單。 未完成時:
* 選擇一個隨機訓練示例“(輸入,標簽)”。 例如,帶有所需輸出“ cat”的貓圖片。
* 在“輸入”上運行神經網絡,并查看其產生的結果。
* 調整邊緣的權重以使輸出更接近“標簽”
* 如何調整邊緣的權重以使輸出更接近標簽?
* [反向傳播](http://mattmazur.com/2015/03/17/a-step-by-step-backpropagation-example/) 。 以下是推薦的解釋: [計算圖上的演算:反向傳播](http://colah.github.io/posts/2015-08-Backprop/) 。
* 微積分的 [鏈規則](https://www.khanacademy.org/math/differential-calculus/taking-derivatives/chain-rule/v/chain-rule-introduction) 用于確定當選擇的是貓而不是狗時,在神經網絡的頂部,您了解如何調整 最頂層的權重使其更可能說狗。

* 您需要使用權重朝箭頭方向前進,以使其更有可能說狗。 不要邁出大步,因為它是復雜的不平坦表面。 采取非常小的步驟,使其更有可能在下一次遇到狗。 通過多次迭代并查看示例,結果更有可能成為狗。
* 通過鏈式規則,您可以了解較低層的參數更改將如何影響輸出。 這意味著網絡中的 **變化可以通過** 一直回蕩到輸入,從而使整個模型適應并更有可能說狗。
* 真正的神經網絡是 **,它由數億個參數組成** ,因此您要在億維空間中進行調整,并嘗試了解其影響 網絡的輸出。
## 神經網絡的一些不錯的特性
* **神經網絡可以應用于許多不同類型的問題** (只要您有很多有趣的數據需要理解)。
* 文字:英語和其他語言的單詞數以萬億計。 有很多對齊的文本,在一個句子的層次上有一種語言的翻譯版本和另一種語言的翻譯版本。
* 視覺數據:數十億個圖像和視頻。
* 音頻:每天數萬小時的語音。
* 用戶活動:有許多不同的應用程序在生成數據。 例如來自搜索引擎的查詢或在電子郵件中標記垃圾郵件的人。 您可以學習許多活動并構建智能系統。
* 知識圖:數十億標記的關系三倍。
* **如果向它們投入更多數據,并使模型更大,則結果往往會更好** 。
* 如果您在問題上投入了更多數據而又沒有使模型更大,則可以通過學習有關數據集的更顯而易見的事實來飽和模型的容量。
* **通過增加模型的大小,它不僅可以記住明顯的事物**,而且可以記住可能僅在數據集中的一小部分示例中出現的細微模式。
* 通過在更多數據上構建更大的模型 **,需要進行更多的計算** 。 Google 一直在努力研究如何擴展計算量以解決這些問題,從而訓練更大的模型。
## 深度學習對 Google 有何重大影響?
### 語音識別
* 這是 Google Brain 團隊與之合作部署神經網絡的第一批團隊之一。 他們幫助他們部署了基于神經網絡的新聲學模型,而不是他們所使用的 [隱藏馬爾可夫模型](https://en.wikipedia.org/wiki/Hidden_Markov_model) 。
* 聲學模型的問題是要從語音的 150 毫秒轉到預測在 10 毫秒的中間發出什么聲音。 例如,是 ba 還是 ka 聲音? 然后,您將獲得這些預測的完整序列,然后將它們與語言模型結合在一起,以了解用戶的意見。
* 他們的初始模型 **將字識別錯誤減少了 30%** ,這確實是一個大問題。 從那時起,語音團隊一直在研究更復雜的模型和高級網絡,以進一步降低錯誤率。 現在,當您在電話里講話時,語音識別比三五年前要好得多。
### ImageNet 挑戰
* 大約 6 年前,發布了 [ImageNet](http://image-net.org/) 數據集。 當時大約有 100 萬張圖像,是計算機視覺的最大數據集之一。 這個龐大的數據集的發布推動了計算機視覺領域的發展。
* 將圖像放置在大約 1000 個不同類別中,每個類別大約放置 1000 張圖像。
* 有上千種不同的豹子,小型摩托車等圖片。
* 一個復雜的因素是并非所有標簽都正確。
* 目標是推廣到新型圖像。 您可以說是豹子還是櫻桃,換個新圖片?
* 在使用神經網絡進行挑戰之前,錯誤率約為 26%。 2014 年,Google 以 6.66% 的 錯誤率贏得了挑戰。 2015 年,錯誤率降至 3.46%。
* 這是一個龐大而深入的模型。 每個盒子都像整個神經元層一樣在進行卷積運算。 這是本文: [隨著卷積的發展而深入](http://www.cs.unc.edu/~wliu/papers/GoogLeNet.pdf) 。

* 人類 Andrej Karpathy 接受了挑戰,錯誤率為 5.1%。 您可以在以下位置了解他的經驗: [我在 ImageNet 上與 ConvNet 競爭所學到的東西。](http://karpathy.github.io/2014/09/02/what-i-learned-from-competing-against-a-convnet-on-imagenet/)
#### 神經網絡模型擅長什么?
* 該模型在 **方面表現出色,在**方面有很好的區分。 例如,計算機擅長區分狗的品種,而人類則不如。 當人們看到一朵花并說是一朵花時,計算機可以分辨出它是“芙蓉”還是“大麗花”。
* 這些模型**擅長于概括**。 例如,看起來不相似的不同種類的餐食仍將正確地標記為“餐食”。
* 當計算機出錯時,錯誤對于原因是明智的。 例如,sl 看起來很像蛇。
### Google 相冊搜索
* 能夠查看像素并了解圖像中的內容是一種強大的功能。
* Google 相冊小組實現了無需標記即可搜索照片的功能。 您可以找到雕像,yoda,圖紙,水等的圖片,而無需為圖片加標簽。
### 街景圖像
* 在街景圖像中,您希望能夠閱讀所有文字。 這是更精細的視覺任務。
* 您需要首先能夠找到圖像中的文本。 經過訓練的模型可以從本質上預測像素的熱圖,其中像素包含文本,而像素不包含文本。 訓練數據是圍繞文本片段繪制的多邊形。
* 因為訓練數據包含不同的字符集,所以以多種語言查找文本沒有問題。 它適用于大字體和小字體; 靠近攝像機的單詞和遠離攝像機的單詞; 用不同的顏色。
* 這是一種相對容易訓練的模型。 這是一個卷積網絡,它會嘗試預測每個像素是否包含文本。
### 在 Google 搜索排名中的 RankBrain
* [RankBrain](http://searchengineland.com/faq-all-about-the-new-google-rankbrain-algorithm-234440) 于 2015 年推出。它是第三重要的搜索排名信號(100 秒)。 有關更多信息,請訪問: [Google 將其獲利的 Web 搜索移交給 AI 機器](http://www.bloomberg.com/news/articles/2015-10-26/google-turning-its-lucrative-web-search-over-to-ai-machines) 。
* 搜索排名有所不同,因為您希望能夠理解該模型,并且希望了解其做出某些決定的原因。
* 這是搜索排名小組在使用神經網絡進行搜索排名時的不安。 當系統出錯時,他們想了解為什么這樣做。
* 創建了調試工具,并在模型中建立了足夠的可理解性,以克服該反對意見。
* 通常,您不想手動調整參數。 您試圖了解模型為什么要進行這種預測,并弄清楚該模型是否與訓練數據有關,是否與問題不匹配? 您可以訓練一種數據分布,然后應用到另一種數據分布。 通過搜索查詢的分布,您每天的變化都會有所變化。 由于事件的發生,變化總是在發生。 您必須了解自己的分布是否穩定,例如語音識別,人們發出的聲音變化不大。 查詢和文檔內容經常更改,因此您必須確保模型是最新的。 一般而言,我們需要做得更好的工作構建工具,以了解這些神經網絡內部發生的事情,找出導致預測的原因。
### 序列到序列模型
* 可以將世界上的許多問題構想為將一個序列映射到另一個序列。 Google 的 Sutskever,Vinyals 和 Le 撰寫了有關該主題的突破性論文: [序列到神經網絡的序列學習](http://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf) 。
* 他們特別關注語言翻譯,以及將英語翻譯成法語的問題。 翻譯實際上只是將英語單詞序列映射到法語單詞序列。
* 神經網絡非常擅長學習非常復雜的功能,因此該模型將學習將英語映射到法語句子的功能。

* 用 EOS(句子結尾)信號一次輸入一種語言的句子。 當看到一個 EOS 以另一種語言開始產生相應的句子時,模型被訓練。 訓練數據是指意義相同的語言句子對。 它只是試圖對該功能建模。
* 在每個步驟中,它都會在您詞匯表中的所有詞匯表項上發出概率分布。 在推論時,您需要做一點搜索而不是訓練。 如果您必須最大化每個單詞的概率,則不一定要獲得最可能的句子。 對聯合概率進行搜索,直到找到最大可能的句子。
* 該系統在公共翻譯任務上達到了最新水平。 大多數其他翻譯系統都是針對問題子集的一堆手工編碼或機器學習的模型,而不是完整的端到端學習系統。
* 該模型引起了人們的廣泛關注,因為很多問題都可以映射到這種逐序列方法。
#### 智能回復
* [智能回復](http://googleresearch.blogspot.com/2015/11/computer-respond-to-this-email.html) 是如何在產品中使用逐個序列的示例。 在電話上,您希望能夠快速響應電子郵件,并且打字很麻煩。
* 他們與 Gmail 團隊合作開發了一個系統來預測郵件的可能回復。
* 第一步是訓練一個小模型,以預測消息是否是可以簡短回復的消息。 如果是這樣,則會激活一個更大,計算量更大的模型,該模型將消息作為順序輸入,并嘗試預測響應字的順序。
* 例如,在一封詢問感恩節邀請的電子郵件中,三種預計的回復是: 我們會去的; 抱歉,我們無法做到。
* 使用智能回復可以在收件箱應用中生成令人驚訝的回復數量。
#### 圖片字幕
* 生成圖像標題時,您要嘗試在給定圖像像素的情況下使人可能為該圖像寫上的標題。
* 取得已開發的圖像模型和已開發的序列到序列模型,并將它們插入在一起。 圖像模型用作輸入。 不用一次查看一個英語句子,而是查看圖像的像素。
* 經過訓練可以產生字幕。 訓練數據集具有由五個不同的人書寫的帶有五個不同標題的圖像。 共寫了大約 700,000 個句子,大約 100,000 至 200,000 張圖像。
* 關于電腦上寫道的一個抱著玩具熊的嬰兒的照片:關閉一個抱著毛絨玩具的孩子; 一個嬰兒在玩具熊旁邊睡著了。
* 它沒有人的理解水平。 錯誤的結果可能很有趣。
### 組合視覺+翻譯
* 可以組合技術。 翻譯團隊使用計算機視覺編寫了可識別取景器中文本的應用程序。 它翻譯文本,然后將翻譯后的文本疊加在圖像本身上(看起來非常令人印象深刻,大約為 37:29)。
* 這些模型足夠小,可以在設備 上運行**和** **!**
## 周轉時間及其對研究的影響
* 每天訓練一張 GPU 卡需要 6 個星期。
* Google 真的很希望能夠快速完成研究。 這個想法是要快速訓練模型,了解哪些方法行之有效,哪些行之有效,并找出下一組要運行的實驗。
* 模型應在數小時之內(而不是數天或數周)可訓練。 它使每個進行此類研究的人都更有效率。
## 如何快速訓練大型模型
### 模型并行
* 神經網絡具有許多固有的并行性。
* 在計算它們時,所有不同的單個神經元大多彼此獨立,尤其是當您具有局部感受野時,其中一個神經元僅接受來自其下方少數神經元的輸入。
* 可以在不同的 GPU 卡上的不同計算機上劃分工作。 只有跨越邊界的數據才需要通信。

### 數據并行
* 您要優化的模型的參數集不應位于集中服務中的一臺計算機中,因此您可以擁有許多不同的模型副本,這些副本將協作以優化參數。
* 在訓練過程中讀取不同的隨機數據(示例)。 每個副本都將獲取模型中的當前參數集,讀取一些有關梯度應為多少的數據,找出要對參數進行哪些調整,然后將調整發送回集中的參數服務器集 。 參數服務器將對參數進行調整。 并重復該過程。

* 這可以跨許多副本完成。 有時,他們在 500 臺不同的機器上使用 500 個模型的副本,以便快速優化參數并處理大量數據。
* 該過程可以是 **異步** ,其中每個料倉都在其自己的循環中,獲取參數,計算梯度并將其發送回去,而無需任何控制或同步 其他的。 不利的一面是,當梯度返回時,參數可能已從計算時移開。 事實證明,對于實際上多達 50 到 100 個副本的多種模型而言,這是可以的。
* 該進程可以 **同步** 。 一個控制器控制所有副本。 兩者似乎都起作用并且具有不同的優點和缺點(未列出)。
演講的下一部分是關于 TensorFlow 的,我不會在這里討論。 這篇文章已經太長了。
## Q & A
* **如果您不是 Google 這樣的大公司,并且無法訪問大數據集,該怎么辦?** 從運作良好的模型開始,該模型在公共數據集上經過訓練。 公共數據集通常可用。 然后對更適合您的問題的數據進行培訓。 從相似且可公開獲得的數據集開始時,您可能只需要為特定問題加上標簽的 1,000 或 10,000 個示例。 ImageNet 是此過程工作的一個很好的例子。
* **作為工程師,您最大的錯誤是什么?** 不在 BigTable 中放置分布式事務。 如果要更新多個行,則必須滾動自己的事務協議。 不會輸入它是因為它會使系統設計變得復雜。 回想起來,許多團隊都希望擁有這種能力,并以不同程度的成功建立自己的團隊。 我們應該在核心系統中實現事務。 它在內部也將是有用的。 Spanner 通過添加事務來解決此問題。
## 相關文章
* [關于 HackerNews](https://news.ycombinator.com/item?id=11298308)
* Ryan Adams 的 [AlphaGo](http://deepmind.com/alpha-go.html) 的真棒麻瓜可獲得的技術解釋 [機器學習音樂視頻](http://www.thetalkingmachines.com/blog/) [Talking Machines](http://www.thetalkingmachines.com/) 播客的 集。
* [TensorFlow](https://www.tensorflow.org/)
* [為什么機器學習課程的注冊人數激增](http://blogs.nvidia.com/blog/2016/02/24/enrollment-in-machine-learning/)
* [使用深度卷積神經網絡](http://arxiv.org/abs/1412.6564) 進行移動評估
* [捍衛強大的 AI:語法](http://disagreeableme.blogspot.com/2012/11/in-defence-of-strong-ai-semantics-from.html) 的語義
* [中文會議室參數](http://plato.stanford.edu/entries/chinese-room/)
* [Google:將計算機上的多個工作負荷相乘以提高機器利用率并節省資金](http://highscalability.com/blog/2013/11/13/google-multiplex-multiple-works-loads-on-computers-to-increa.html)
* [Google On Latency Tolerant Systems:由不可預測的部分組成可預測的整體](http://highscalability.com/blog/2012/6/18/google-on-latency-tolerant-systems-making-a-predictable-whol.html)
* [Google DeepMind:它是什么,它如何工作,您應該被嚇到嗎?](http://www.techworld.com/personal-tech/google-deepmind-what-is-it-how-it-works-should-you-be-scared-3615354/)
* [重塑 Google 帝國的人工大腦內部](http://www.wired.com/2014/07/google_brain/)
* [神經網絡揭秘](http://lumiverse.io/series/neural-networks-demystified)
* [神經網絡黑客指南](http://karpathy.github.io/neuralnets/)
* [神經網絡和深度學習](http://neuralnetworksanddeeplearning.com/)
* [神經網絡(常規)](http://colah.github.io/)
* [stephencwelch /神經網絡解密](https://github.com/stephencwelch/Neural-Networks-Demystified)
* [加州大學伯克利分校深度學習主題課程](https://github.com/joanbruna/stat212b)
* [機器學習:2014-2015](https://www.cs.ox.ac.uk/people/nando.defreitas/machinelearning/)
* [通過深度強化學習玩 Atari](https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf)
* [通過深度強化學習](https://storage.googleapis.com/deepmind-data/assets/papers/DeepMindNature14236Paper.pdf) 進行人為控制
您提到了 arxiv.org,但卻錯過了 [gitxiv.com](http://gitxiv.com) ,這是機器學習中“真正非常快的”開發周期的下一個演變。 在 Gitxiv 上,您可以在 arxiv.org 上找到某些論文的實現。 這是您希望隨論文提供的源代碼。 大多數實現是由第三方完成的,但越來越多的是高質量的。
人類如何更好地以最適合 AI(例如 BrainRank 或其他深度神經網絡)消費和理解的形式來構造文本?
“從歷史上看,我們可能會將'組織'與收集,清理,存儲,建立索引,報告和搜索數據聯系在一起。所有 Google 早期掌握的東西。完成這一任務后,Google 便迎接了下一個挑戰。
現在組織意味著理解。”
我還沒有看過杰夫·迪恩(Jeff Dean)的演講-但有趣的是,幾天前我在 Twitter 上發布了完全相同的內容:
“ IMO Google 的長期目標不僅是“組織世界的信息”,還在于使用#AI 來“理解”它:
https://twitter.com/arunshroff/status/709072187773349889
要點:約翰·亨利的故事是我小時候最喜歡的故事之一。
盡管這場比賽對他來說是致命的,但他還是*擊敗了*蒸汽錘。 因此,我不確定您想以此類推論來說明什么。
總體而言,自工業革命以來,我們就發生了人機沖突,這表明發生了棘輪事件。 永遠無法退回的齒輪轉動。 約翰·亨利(John Henry)是其中一員。 AlphaGo 不是,但是它來了。
約翰·亨利死了。 那不是贏。 充其量是物理上的勝利。 他悲慘的勝利并沒有阻止接下來發生的一切。 機器置換人的肌肉。
好文章。 小重點。 Alpha Go 沒有使用強化學習,這很重要。 強化學習是專為單人問題設計的,它在游戲等兩人模型中的使用遠非直截了當。 最大的問題是,如果自己一個人去,您將探索哪個領域。 因此,Alpha Go 使用(深度)學習來確定要探索的動作,如何評估情況以及何時停止評估,但是總體算法是一種博弈。 重要的是,學習不能解決所有問題,并且有明顯的盲點。 其中之一就是結構很多的問題,例如是否有對手試圖擊敗您。 還有其他情況。
- LiveJournal 體系結構
- mixi.jp 體系結構
- 友誼建筑
- FeedBurner 體系結構
- GoogleTalk 架構
- ThemBid 架構
- 使用 Amazon 服務以 100 美元的價格構建無限可擴展的基礎架構
- TypePad 建筑
- 維基媒體架構
- Joost 網絡架構
- 亞馬遜建筑
- Fotolog 擴展成功的秘訣
- 普恩斯的教訓-早期
- 論文:Wikipedia 的站點內部,配置,代碼示例和管理問題
- 擴大早期創業規模
- Feedblendr 架構-使用 EC2 進行擴展
- Slashdot Architecture-互聯網的老人如何學會擴展
- Flickr 架構
- Tailrank 架構-了解如何在整個徽標范圍內跟蹤模因
- Ruby on Rails 如何在 550k 網頁瀏覽中幸存
- Mailinator 架構
- Rackspace 現在如何使用 MapReduce 和 Hadoop 查詢 TB 的數據
- Yandex 架構
- YouTube 架構
- Skype 計劃 PostgreSQL 擴展到 10 億用戶
- 易趣建筑
- FaceStat 的禍根與智慧贏得了勝利
- Flickr 的聯合會:每天進行數十億次查詢
- EVE 在線架構
- Notify.me 體系結構-同步性
- Google 架構
- 第二人生架構-網格
- MySpace 體系結構
- 擴展 Digg 和其他 Web 應用程序
- Digg 建筑
- 在 Amazon EC2 中部署大規模基礎架構的六個經驗教訓
- Wolfram | Alpha 建筑
- 為什么 Facebook,Digg 和 Twitter 很難擴展?
- 全球范圍擴展的 10 個 eBay 秘密
- BuddyPoke 如何使用 Google App Engine 在 Facebook 上擴展
- 《 FarmVille》如何擴展以每月收獲 7500 萬玩家
- Twitter 計劃分析 1000 億條推文
- MySpace 如何與 100 萬個并發用戶一起測試其實時站點
- FarmVille 如何擴展-后續
- Justin.tv 的實時視頻廣播架構
- 策略:緩存 404 在服務器時間上節省了洋蔥 66%
- Poppen.de 建筑
- MocoSpace Architecture-一個月有 30 億個移動頁面瀏覽量
- Sify.com 體系結構-每秒 3900 個請求的門戶
- 每月將 Reddit 打造為 2.7 億頁面瀏覽量時汲取的 7 個教訓
- Playfish 的社交游戲架構-每月有 5000 萬用戶并且不斷增長
- 擴展 BBC iPlayer 的 6 種策略
- Facebook 的新實時消息系統:HBase 每月可存儲 135 億條消息
- Pinboard.in Architecture-付費玩以保持系統小巧
- BankSimple 迷你架構-使用下一代工具鏈
- Riak 的 Bitcask-用于快速鍵/值數據的日志結構哈希表
- Mollom 體系結構-每秒以 100 個請求殺死超過 3.73 億個垃圾郵件
- Wordnik-MongoDB 和 Scala 上每天有 1000 萬個 API 請求
- Node.js 成為堆棧的一部分了嗎? SimpleGeo 說是的。
- 堆棧溢出體系結構更新-現在每月有 9500 萬頁面瀏覽量
- Medialets 體系結構-擊敗艱巨的移動設備數據
- Facebook 的新實時分析系統:HBase 每天處理 200 億個事件
- Microsoft Stack 是否殺死了 MySpace?
- Viddler Architecture-每天嵌入 700 萬個和 1500 Req / Sec 高峰
- Facebook:用于擴展數十億條消息的示例規范架構
- Evernote Architecture-每天有 900 萬用戶和 1.5 億個請求
- TripAdvisor 的短
- TripAdvisor 架構-4,000 萬訪客,200M 動態頁面瀏覽,30TB 數據
- ATMCash 利用虛擬化實現安全性-不變性和還原
- Google+是使用您也可以使用的工具構建的:閉包,Java Servlet,JavaScript,BigTable,Colossus,快速周轉
- 新的文物建筑-每天收集 20 億多個指標
- Peecho Architecture-鞋帶上的可擴展性
- 標記式架構-擴展到 1 億用戶,1000 臺服務器和 50 億個頁面視圖
- 論文:Akamai 網絡-70 個國家/地區的 61,000 臺服務器,1,000 個網絡
- 策略:在 S3 或 GitHub 上運行可擴展,可用且廉價的靜態站點
- Pud 是反堆棧-Windows,CFML,Dropbox,Xeround,JungleDisk,ELB
- 用于擴展 Turntable.fm 和 Labmeeting 的數百萬用戶的 17 種技術
- StackExchange 體系結構更新-平穩運行,Amazon 4x 更昂貴
- DataSift 體系結構:每秒進行 120,000 條推文的實時數據挖掘
- Instagram 架構:1400 萬用戶,1 TB 的照片,數百個實例,數十種技術
- PlentyOfFish 更新-每月 60 億次瀏覽量和 320 億張圖片
- Etsy Saga:從筒倉到開心到一個月的瀏覽量達到數十億
- 數據范圍項目-6PB 存儲,500GBytes / sec 順序 IO,20M IOPS,130TFlops
- 99designs 的設計-數以千萬計的綜合瀏覽量
- Tumblr Architecture-150 億頁面瀏覽量一個月,比 Twitter 更難擴展
- Berkeley DB 體系結構-NoSQL 很酷之前的 NoSQL
- Pixable Architecture-每天對 2000 萬張照片進行爬網,分析和排名
- LinkedIn:使用 Databus 創建低延遲更改數據捕獲系統
- 在 30 分鐘內進行 7 年的 YouTube 可擴展性課程
- YouPorn-每天定位 2 億次觀看
- Instagram 架構更新:Instagram 有何新功能?
- 搜索技術剖析:blekko 的 NoSQL 數據庫
- Pinterest 體系結構更新-1800 萬訪問者,增長 10 倍,擁有 12 名員工,410 TB 數據
- 搜索技術剖析:使用組合器爬行
- iDoneThis-從頭開始擴展基于電子郵件的應用程序
- StubHub 體系結構:全球最大的票務市場背后的驚人復雜性
- FictionPress:在網絡上發布 600 萬本小說
- Cinchcast 體系結構-每天產生 1,500 小時的音頻
- 棱柱架構-使用社交網絡上的機器學習來弄清您應該在網絡上閱讀的內容
- 棱鏡更新:基于文檔和用戶的機器學習
- Zoosk-實時通信背后的工程
- WordPress.com 使用 NGINX 服務 70,000 req / sec 和超過 15 Gbit / sec 的流量
- 史詩般的 TripAdvisor 更新:為什么不在云上運行? 盛大的實驗
- UltraDNS 如何處理數十萬個區域和數千萬條記錄
- 更簡單,更便宜,更快:Playtomic 從.NET 遷移到 Node 和 Heroku
- Spanner-關于程序員使用 NoSQL 規模的 SQL 語義構建應用程序
- BigData 使用 Erlang,C 和 Lisp 對抗移動數據海嘯
- 分析數十億筆信用卡交易并在云中提供低延遲的見解
- MongoDB 和 GridFS 用于內部和內部數據中心數據復制
- 每天處理 1 億個像素-少量競爭會導致大規模問題
- DuckDuckGo 體系結構-每天進行 100 萬次深度搜索并不斷增長
- SongPop 在 GAE 上可擴展至 100 萬活躍用戶,表明 PaaS 未通過
- Iron.io 從 Ruby 遷移到 Go:減少了 28 臺服務器并避免了巨大的 Clusterf ** ks
- 可汗學院支票簿每月在 GAE 上擴展至 600 萬用戶
- 在破壞之前先檢查自己-鱷梨的建筑演進的 5 個早期階段
- 縮放 Pinterest-兩年內每月從 0 到十億的頁面瀏覽量
- Facebook 的網絡秘密
- 神話:埃里克·布魯爾(Eric Brewer)談銀行為什么不是堿-可用性就是收入
- 一千萬個并發連接的秘密-內核是問題,而不是解決方案
- GOV.UK-不是你父親的書庫
- 縮放郵箱-在 6 周內從 0 到 100 萬用戶,每天 1 億條消息
- 在 Yelp 上利用云計算-每月訪問量為 1.02 億,評論量為 3900 萬
- 每臺服務器將 PHP 擴展到 30,000 個并發用戶的 5 條 Rockin'Tips
- Twitter 的架構用于在 5 秒內處理 1.5 億活躍用戶,300K QPS,22 MB / S Firehose 以及發送推文
- Salesforce Architecture-他們每天如何處理 13 億筆交易
- 擴大流量的設計決策
- ESPN 的架構規模-每秒以 100,000 Duh Nuh Nuhs 運行
- 如何制作無限可擴展的關系數據庫管理系統(RDBMS)
- Bazaarvoice 的架構每月發展到 500M 唯一用戶
- HipChat 如何使用 ElasticSearch 和 Redis 存儲和索引數十億條消息
- NYTimes 架構:無頭,無主控,無單點故障
- 接下來的大型聲音如何使用 Hadoop 數據版本控制系統跟蹤萬億首歌曲的播放,喜歡和更多內容
- Google 如何備份 Internet 和數十億字節的其他數據
- 從 HackerEarth 用 Apache 擴展 Python 和 Django 的 13 個簡單技巧
- AOL.com 體系結構如何發展到 99.999%的可用性,每天 800 萬的訪問者和每秒 200,000 個請求
- Facebook 以 190 億美元的價格收購了 WhatsApp 體系結構
- 使用 AWS,Scala,Akka,Play,MongoDB 和 Elasticsearch 構建社交音樂服務
- 大,小,熱還是冷-條帶,Tapad,Etsy 和 Square 的健壯數據管道示例
- WhatsApp 如何每秒吸引近 5 億用戶,11,000 內核和 7,000 萬條消息
- Disqus 如何以每秒 165K 的消息和小于 0.2 秒的延遲進行實時處理
- 關于 Disqus 的更新:它仍然是實時的,但是 Go 摧毀了 Python
- 關于 Wayback 機器如何在銀河系中存儲比明星更多的頁面的簡短說明
- 在 PagerDuty 遷移到 EC2 中的 XtraDB 群集
- 擴展世界杯-Gambify 如何與 2 人組成的團隊一起運行大型移動投注應用程序
- 一點點:建立一個可處理每月 60 億次點擊的分布式系統的經驗教訓
- StackOverflow 更新:一個月有 5.6 億次網頁瀏覽,25 臺服務器,而這一切都與性能有關
- Tumblr:哈希處理每秒 23,000 個博客請求的方式
- 使用 HAProxy,PHP,Redis 和 MySQL 處理 10 億個請求的簡便方法來構建成長型啟動架構
- MixRadio 體系結構-兼顧各種服務
- Twitter 如何使用 Redis 進行擴展-105TB RAM,39MM QPS,10,000 多個實例
- 正確處理事情:通過即時重放查看集中式系統與分散式系統
- Instagram 提高了其應用程序的性能。 這是如何做。
- Clay.io 如何使用 AWS,Docker,HAProxy 和 Lots 建立其 10 倍架構
- 英雄聯盟如何將聊天擴大到 7000 萬玩家-需要很多小兵。
- Wix 的 Nifty Architecture 技巧-大規模構建發布平臺
- Aeron:我們真的需要另一個消息傳遞系統嗎?
- 機器:惠普基于憶阻器的新型數據中心規模計算機-一切仍在變化
- AWS 的驚人規模及其對云的未來意味著什么
- Vinted 體系結構:每天部署數百次,以保持繁忙的門戶穩定
- 將 Kim Kardashian 擴展到 1 億個頁面
- HappyPancake:建立簡單可擴展基金會的回顧
- 阿爾及利亞分布式搜索網絡的體系結構
- AppLovin:通過每天處理 300 億個請求向全球移動消費者進行營銷
- Swiftype 如何以及為何從 EC2 遷移到真實硬件
- 我們如何擴展 VividCortex 的后端系統
- Appknox 架構-從 AWS 切換到 Google Cloud
- 阿爾及利亞通往全球 API 的憤怒之路
- 阿爾及利亞通往全球 API 步驟的憤怒之路第 2 部分
- 為社交產品設計后端
- 阿爾及利亞通往全球 API 第 3 部分的憤怒之路
- Google 如何創造只有他們才能創造的驚人的數據中心網絡
- Autodesk 如何在 Mesos 上實施可擴展事件
- 構建全球分布式,關鍵任務應用程序:Trenches 部分的經驗教訓 1
- 構建全球分布式,關鍵任務應用程序:Trenches 第 2 部分的經驗教訓
- 需要物聯網嗎? 這是美國一家主要公用事業公司從 550 萬米以上收集電力數據的方式
- Uber 如何擴展其實時市場平臺
- 優步變得非常規:使用司機電話作為備份數據中心
- 在不到五分鐘的時間里,Facebook 如何告訴您的朋友您在災難中很安全
- Zappos 的網站與 Amazon 集成后凍結了兩年
- 為在現代時代構建可擴展的有狀態服務提供依據
- 細分:使用 Docker,ECS 和 Terraform 重建基礎架構
- 十年 IT 失敗的五個教訓
- Shopify 如何擴展以處理來自 Kanye West 和 Superbowl 的 Flash 銷售
- 整個 Netflix 堆棧的 360 度視圖
- Wistia 如何每小時處理數百萬個請求并處理豐富的視頻分析
- Google 和 eBay 關于構建微服務生態系統的深刻教訓
- 無服務器啟動-服務器崩潰!
- 在 Amazon AWS 上擴展至 1100 萬以上用戶的入門指南
- 為 David Guetta 建立無限可擴展的在線錄制活動
- Tinder:最大的推薦引擎之一如何決定您接下來會看到誰?
- 如何使用微服務建立財產管理系統集成
- Egnyte 體系結構:構建和擴展多 PB 分布式系統的經驗教訓
- Zapier 如何自動化數十億個工作流自動化任務的旅程
- Jeff Dean 在 Google 進行大規模深度學習
- 如今 Etsy 的架構是什么樣的?
- 我們如何在 Mail.Ru Cloud 中實現視頻播放器
- Twitter 如何每秒處理 3,000 張圖像
- 每天可處理數百萬個請求的圖像優化技術
- Facebook 如何向 80 萬同時觀看者直播
- Google 如何針對行星級基礎設施進行行星級工程設計?
- 為 Mail.Ru Group 的電子郵件服務實施反垃圾郵件的貓捉老鼠的故事,以及 Tarantool 與此相關的內容
- The Dollar Shave Club Architecture Unilever 以 10 億美元的價格被收購
- Uber 如何使用 Mesos 和 Cassandra 跨多個數據中心每秒管理一百萬個寫入
- 從將 Uber 擴展到 2000 名工程師,1000 個服務和 8000 個 Git 存儲庫獲得的經驗教訓
- QuickBooks 平臺
- 美國大選期間城市飛艇如何擴展到 25 億個通知
- Probot 的體系結構-我的 Slack 和 Messenger Bot 用于回答問題
- AdStage 從 Heroku 遷移到 AWS
- 為何將 Morningstar 遷移到云端:降低 97%的成本
- ButterCMS 體系結構:關鍵任務 API 每月可處理數百萬個請求
- Netflix:按下 Play 會發生什么?
- ipdata 如何以每月 150 美元的價格為來自 10 個無限擴展的全球端點的 2500 萬個 API 調用提供服務
- 每天為 1000 億個事件賦予意義-Teads 的 Analytics(分析)管道
- Auth0 體系結構:在多個云提供商和地區中運行
- 從裸機到 Kubernetes
- Egnyte Architecture:構建和擴展多 PB 內容平臺的經驗教訓
- 縮放原理
- TripleLift 如何建立 Adtech 數據管道每天處理數十億個事件
- Tinder:最大的推薦引擎之一如何決定您接下來會看到誰?
- 如何使用微服務建立財產管理系統集成
- Egnyte 體系結構:構建和擴展多 PB 分布式系統的經驗教訓
- Zapier 如何自動化數十億個工作流自動化任務的旅程
- Jeff Dean 在 Google 進行大規模深度學習
- 如今 Etsy 的架構是什么樣的?
- 我們如何在 Mail.Ru Cloud 中實現視頻播放器
- Twitter 如何每秒處理 3,000 張圖像
- 每天可處理數百萬個請求的圖像優化技術
- Facebook 如何向 80 萬同時觀看者直播
- Google 如何針對行星級基礎設施進行行星級工程設計?
- 為 Mail.Ru Group 的電子郵件服務實施反垃圾郵件的貓捉老鼠的故事,以及 Tarantool 與此相關的內容
- The Dollar Shave Club Architecture Unilever 以 10 億美元的價格被收購
- Uber 如何使用 Mesos 和 Cassandra 跨多個數據中心每秒管理一百萬個寫入
- 從將 Uber 擴展到 2000 名工程師,1000 個服務和 8000 個 Git 存儲庫獲得的經驗教訓
- QuickBooks 平臺
- 美國大選期間城市飛艇如何擴展到 25 億條通知
- Probot 的體系結構-我的 Slack 和 Messenger Bot 用于回答問題
- AdStage 從 Heroku 遷移到 AWS
- 為何將 Morningstar 遷移到云端:降低 97%的成本
- ButterCMS 體系結構:關鍵任務 API 每月可處理數百萬個請求
- Netflix:按下 Play 會發生什么?
- ipdata 如何以每月 150 美元的價格為來自 10 個無限擴展的全球端點的 2500 萬個 API 調用提供服務
- 每天為 1000 億個事件賦予意義-Teads 的 Analytics(分析)管道
- Auth0 體系結構:在多個云提供商和地區中運行
- 從裸機到 Kubernetes
- Egnyte Architecture:構建和擴展多 PB 內容平臺的經驗教訓