深度學習——維基 · AI學習摘記

[TOC] **深度學習**（英語：deep learning）是[機器學習](https://zh.wikipedia.org/wiki/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0 "機器學習")拉出的分支，它試圖使用包含復雜結構或由多重非[線性變換](https://zh.wikipedia.org/wiki/%E7%BA%BF%E6%80%A7%E5%8F%98%E6%8D%A2 "線性變換")構成的多個處理層對數據進行高層抽象的[算法](https://zh.wikipedia.org/wiki/%E7%AE%97%E6%B3%95 "算法")。[[1]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-BOOK2014-1)[[2]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-BENGIODEEP-2)[[3]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-BENGIO2012-3)[[4]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-SCHIDHUB-4)[[5]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-NatureBengio-5) 深度學習是[機器學習](https://zh.wikipedia.org/wiki/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0 "機器學習")中一種基于對數據進行[表征學習](https://zh.wikipedia.org/wiki/%E8%A1%A8%E5%BE%81%E5%AD%A6%E4%B9%A0 "表征學習")的方法。觀測值（例如一幅圖像）可以使用多種方式來表示，如每個像素強度值的向量，或者更抽象地表示成一系列邊、特定形狀的區域[等](https://zh.wikipedia.org/wiki/%E5%B0%BA%E5%BA%A6%E4%B8%8D%E8%AE%8A%E7%89%B9%E5%BE%B5%E8%BD%89%E6%8F%9B "尺度不變特征轉換")。而使用某些特定的表示方法更容易從實例中學習任務（例如，人臉識別或面部表情識別[[6]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-6)）。深度學習的好處是用[非監督式](https://zh.wikipedia.org/wiki/%E9%9D%9E%E7%9B%A3%E7%9D%A3%E5%BC%8F%E5%AD%B8%E7%BF%92 "非監督式學習")或[半監督式](https://zh.wikipedia.org/w/index.php?title=%E5%8D%8A%E7%9B%91%E7%9D%A3%E5%BC%8F%E5%AD%A6%E4%B9%A0&action=edit&redlink=1)的[特征學習](https://zh.wikipedia.org/wiki/%E7%89%B9%E5%BE%81%E5%AD%A6%E4%B9%A0 "特征學習")和分層[特征提取](https://zh.wikipedia.org/wiki/%E7%89%B9%E5%BE%81%E6%8F%90%E5%8F%96 "特征提取")高效算法來替代手工獲取[特征](https://zh.wikipedia.org/w/index.php?title=%E7%89%B9%E5%BE%81_(%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0)&action=edit&redlink=1)。[[7]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-7) [表征學習](https://zh.wikipedia.org/wiki/%E8%A1%A8%E5%BE%81%E5%AD%A6%E4%B9%A0 "表征學習")的目標是尋求更好的表示方法并創建更好的模型來從大規模未標記數據中學習這些表示方法。表達方式類似[神經科學](https://zh.wikipedia.org/wiki/%E7%A5%9E%E7%BB%8F%E7%A7%91%E5%AD%A6 "神經科學")的進步，并松散地創建在類似[神經系統](https://zh.wikipedia.org/wiki/%E7%A5%9E%E7%BB%8F%E7%B3%BB%E7%BB%9F "神經系統")中的信息處理和通信模式的理解上，如[神經編碼](https://zh.wikipedia.org/wiki/%E7%A5%9E%E7%BB%8F%E7%BC%96%E7%A0%81 "神經編碼")，試圖定義拉動神經元的反應之間的關系以及[大腦](https://zh.wikipedia.org/wiki/%E5%A4%A7%E8%84%91 "大腦")中的神經元的電活動之間的關系。[[8]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-8) 至今已有數種深度學習框架，如[深度神經網絡](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#.E6.B7.B1.E5.BA.A6.E7.A5.9E.E7.BB.8F.E7.BD.91.E7.BB.9C "深度學習")、[卷積神經網絡](https://zh.wikipedia.org/wiki/%E5%8D%B7%E7%A7%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C "卷積神經網絡")和[深度置信網絡](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E7%BD%AE%E4%BF%A1%E7%BD%91%E7%BB%9C&action=edit&redlink=1)和[遞歸神經網絡](https://zh.wikipedia.org/wiki/%E9%80%92%E5%BD%92%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C "遞歸神經網絡")已被應用[計算機視覺](https://zh.wikipedia.org/wiki/%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89 "計算機視覺")、[語音識別](https://zh.wikipedia.org/wiki/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB "語音識別")、[自然語言處理](https://zh.wikipedia.org/wiki/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86 "自然語言處理")、音頻識別與[生物信息學](https://zh.wikipedia.org/wiki/%E7%94%9F%E7%89%A9%E4%BF%A1%E6%81%AF%E5%AD%A6 "生物信息學")等領域并獲取了極好的效果。另外，“深度學習”已成為類似術語，或者說是[神經網絡](https://zh.wikipedia.org/wiki/%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C "神經網絡")的品牌重塑。[[9]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-9)[[10]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-10) ## 簡介[[編輯](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=1 "編輯小節：簡介")] 深度學習框架，尤其是基于[人工神經網絡](https://zh.wikipedia.org/wiki/%E4%BA%BA%E5%B7%A5%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C "人工神經網絡")的框架可以追溯到1980年福島邦彥提出的新認知機[[11]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-FUKU1980-11)，而人工神經網絡的歷史更為久遠。1989年，[揚·勒丘恩](https://zh.wikipedia.org/wiki/%E6%89%AC%C2%B7%E5%8B%92%E4%B8%98%E6%81%A9 "揚·勒丘恩")（Yann LeCun）等人開始將1974年提出的標準[反向傳播算法](https://zh.wikipedia.org/wiki/%E5%8F%8D%E5%90%91%E4%BC%A0%E6%92%AD%E7%AE%97%E6%B3%95 "反向傳播算法")[[12]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-WERBOS1974-12)應用于深度神經網絡，這一網絡被用于手寫郵政編碼識別。盡管算法可以成功執行，但計算代價非常巨大，神經網路的訓練時間達到了3天，因而無法投入實際使用[[13]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-LECUN1989-13)。許多因素導致了這一緩慢的訓練過程，其中一種是由[于爾根·施密德胡伯](https://zh.wikipedia.org/w/index.php?title=%E4%BA%8E%E5%B0%94%E6%A0%B9%C2%B7%E6%96%BD%E5%AF%86%E5%BE%B7%E8%83%A1%E4%BC%AF&action=edit&redlink=1)的學生[賽普·霍克賴特](https://zh.wikipedia.org/w/index.php?title=%E8%B5%9B%E6%99%AE%C2%B7%E9%9C%8D%E5%85%8B%E8%B5%96%E7%89%B9&action=edit&redlink=1 "賽普·霍克賴特（頁面不存在）")（[Sepp Hochreiter](https://zh.wikipedia.org/w/index.php?title=Sepp_Hochreiter&action=edit&redlink=1)）于1991年提出的梯度消失問題[[14]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-HOCH1991-14)[[15]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-HOCH2001-15)。最早的進行一般自然雜亂圖像中自然物體識別的深度學習網絡是翁巨揚（Juyang Weng）等在1991和1992發表的[生長網](https://zh.wikipedia.org/w/index.php?title=%E7%94%9F%E9%95%BF%E7%BD%91&action=edit&redlink=1 "生長網（頁面不存在）")（Cresceptron）[[16]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-Weng1992-16)[[17]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-Weng1993-17)[[18]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-Weng1997-18)。它也是第一個提出了后來很多實驗廣泛采用的一個方法：現在稱為最大匯集（max-pooling)以用于處理大物體的變形等問題。生長網不僅直接從雜亂自然場景中學習老師指定的一般物體，還用網絡反向分析的方法把圖像內被識別了的物體從背景圖像中分區出來。 2007年前后，[杰弗里·辛頓](https://zh.wikipedia.org/wiki/%E6%9D%B0%E5%BC%97%E9%87%8C%C2%B7%E8%BE%9B%E9%A1%BF "杰弗里·辛頓")和魯斯蘭·薩拉赫丁諾夫（Ruslan Salakhutdinov）提出了一種在前饋神經網絡中進行有效訓練的算法。這一算法將網絡中的每一層視為[無監督](https://zh.wikipedia.org/w/index.php?title=%E6%97%A0%E7%9B%91%E7%9D%A3%E5%AD%A6%E4%B9%A0&action=edit&redlink=1 "無監督學習（頁面不存在）")的[受限玻爾茲曼機](https://zh.wikipedia.org/wiki/%E5%8F%97%E9%99%90%E7%8E%BB%E5%B0%94%E5%85%B9%E6%9B%BC%E6%9C%BA "受限玻爾茲曼機")，再使用有監督的反向傳播算法進行調優[[19]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-HINTON2007-19)。在此之前的1992年，在更為普遍的情形下，施密德胡伯也曾在[遞歸神經網絡](https://zh.wikipedia.org/wiki/%E9%80%92%E5%BD%92%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C "遞歸神經網絡")上提出一種類似的訓練方法，并在實驗中證明這一訓練方法能夠有效提高有監督學習的執行速度[[20]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-SCHMID1992-20)[[21]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-SCHMID1991-21). 自深度學習出現以來，它已成為很多領域，尤其是在計算機視覺和語音識別中，成為各種領先系統的一部分。在通用的用于檢驗的數據集，例如語音識別中的TIMIT和圖像識別中的ImageNet, Cifar10上的實驗證明，深度學習能夠提高識別的精度。與此同時，神經網絡也受到了其他更加簡單歸類模型的挑戰，[支持向量機](https://zh.wikipedia.org/wiki/%E6%94%AF%E6%8C%81%E5%90%91%E9%87%8F%E6%9C%BA "支持向量機")等模型在20世紀90年代到21世紀初成為過流行的機器學習算法。硬件的進步也是深度學習重新獲得關注的重要因素。高性能[圖形處理器](https://zh.wikipedia.org/wiki/%E5%9C%96%E5%BD%A2%E8%99%95%E7%90%86%E5%99%A8 "圖形處理器")的出現極大地提高了數值和矩陣運算的速度，使得機器學習算法的運行時間得到了顯著的縮短[[22]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-CIRESAN2010-22)[[23]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-RAINA2009-23)。深度學習網絡在2001年后正逐漸被更有潛力的基于腦模型的網絡[[24]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-WengScience2001-24)[[25]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-WengIJCNN5-25)所替代。腦科學的大量研究已表明人腦網絡不是一個級聯的結構，大概是為了腦計算的必要吧。 ## 基本概念[[編輯](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=2 "編輯小節：基本概念")] 深度學習的基礎是機器學習中的分散表示（distributed representation）。分散表示假定觀測值是由不同因子相互作用生成。在此基礎上，深度學習進一步假定這一相互作用的過程可分為多個層次，代表對觀測值的多層抽象。不同的層數和層的規模可用于不同程度的抽象[[3]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-BENGIO2012-3)。深度學習運用了這分層次抽象的思想，更高層次的概念從低層次的概念學習得到。這一分層結構常常使用[貪婪算法](https://zh.wikipedia.org/wiki/%E8%B2%AA%E5%A9%AA%E7%AE%97%E6%B3%95 "貪婪算法")逐層構建而成，并從中選取有助于機器學習的更有效的特征[[3]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-BENGIO2012-3). 不少深度學習算法都以無監督學習的形式出現，因而這些算法能被應用于其他算法無法企及的無標簽數據，這一類數據比有標簽數據更豐富，也更容易獲得。這一點也為深度學習贏得了重要的優勢[[3]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-BENGIO2012-3)。 ## 人工神經網絡下的深度學習[[編輯](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=3 "編輯小節：人工神經網絡下的深度學習")] 一部分最成功的深度學習方法涉及到對[人工神經網絡](https://zh.wikipedia.org/wiki/%E4%BA%BA%E5%B7%A5%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C "人工神經網絡")的運用。人工神經網絡受到了1959年由諾貝爾獎得主[大衛·休伯爾](https://zh.wikipedia.org/wiki/%E5%A4%A7%E8%A1%9B%C2%B7%E4%BC%91%E4%BC%AF%E7%88%BE "大衛·休伯爾")（David H. Hubel）和[托斯坦·威澤爾](https://zh.wikipedia.org/wiki/%E6%89%98%E6%96%AF%E5%9D%A6%C2%B7%E5%A8%81%E6%B3%BD%E5%B0%94 "托斯坦·威澤爾")（Torsten Wiesel）提出的理論啟發。休伯爾和威澤爾發現，在大腦的[初級視覺皮層](https://zh.wikipedia.org/wiki/%E5%88%9D%E7%BA%A7%E8%A7%86%E8%A7%89%E7%9A%AE%E5%B1%82 "初級視覺皮層")中存在兩種細胞：簡單細胞和復雜細胞，這兩種細胞承擔不同層次的視覺感知功能。受此啟發，許多神經網絡模型也被設計為不同節點之間的分層模型[[26]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-26)。福島邦彥提出的新認知機引入了使用無監督學習訓練的卷積神經網絡。燕樂存將有監督的[反向傳播算法](https://zh.wikipedia.org/wiki/%E5%8F%8D%E5%90%91%E4%BC%A0%E6%92%AD%E7%AE%97%E6%B3%95 "反向傳播算法")應用于這一架構[[27]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-LeCun1989-27)。事實上，從反向傳播算法自20世紀70年代提出以來，不少研究者都曾試圖將其應用于訓練有監督的深度神經網絡，但最初的嘗試大都失敗。[賽普·霍克賴特](https://zh.wikipedia.org/w/index.php?title=%E8%B5%9B%E6%99%AE%C2%B7%E9%9C%8D%E5%85%8B%E8%B5%96%E7%89%B9&action=edit&redlink=1)在其博士論文中將失敗的原因歸結為梯度消失，這一現象同時在深度前饋神經網絡和遞歸神經網絡中出現，后者的訓練過程類似深度網絡。在分層訓練的過程中，本應用于修正模型參數的誤差隨著層數的增加指數遞減，這導致了模型訓練的效率低下[[28]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-28)[[29]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-29)。為了解決這一問題，研究者們提出了一些不同的方法。[于爾根·施密德胡伯](https://zh.wikipedia.org/w/index.php?title=%E4%BA%8E%E5%B0%94%E6%A0%B9%C2%B7%E6%96%BD%E5%AF%86%E5%BE%B7%E8%83%A1%E4%BC%AF&action=edit&redlink=1)于1992年提出多層級網絡，利用無監督學習訓練深度神經網絡的每一層，再使用反向傳播算法進行調優。在這一模型中，神經網絡中的每一層都代表觀測變量的一種壓縮表示，這一表示也被傳遞到下一層網絡[[20]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-SCHMID1992-20)。另一種方法是賽普·霍克賴特和于爾根·施密德胡伯提出的[長短期記憶神經網絡](https://zh.wikipedia.org/w/index.php?title=%E9%95%BF%E7%9F%AD%E6%9C%9F%E8%AE%B0%E5%BF%86%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C&action=edit&redlink=1)，LSTM）[[30]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-lstm-30)。2009年，在ICDAR 2009舉辦的連筆手寫識別競賽中，在沒有任何先驗知識的情況下，深度多維長短期記憶神經網絡獲取了其中三場比賽的勝利[[31]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-31)[[32]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-32)。斯文·貝克提出了在訓練時只依賴梯度符號的神經抽象金字塔模型，用以解決圖像重建和人臉定位的問題[[33]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-33)。其他方法同樣采用了無監督預訓練來構建神經網絡，用以發現有效的特征，此后再采用有監督的反向傳播以區分有標簽數據。辛頓等人于2006年提出的深度模型提出了使用多層隱變量學習高層表示的方法。這一方法使用斯摩棱斯基于1986年提出的[受限玻爾茲曼機](https://zh.wikipedia.org/wiki/%E5%8F%97%E9%99%90%E7%8E%BB%E5%B0%94%E5%85%B9%E6%9B%BC%E6%9C%BA "受限玻爾茲曼機")[[34]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-smolensky1986-34)對每一個包含高層特征的層進行建模。模型保證了數據的對數似然下界隨著層數的提升而遞增。當足夠多的層數被學習完畢，這一深層結構成為一個生成模型，可以通過自上而下的采樣重構整個數據集[[35]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-hinton2006-35)。辛頓聲稱這一模型在高維結構化數據上能夠有效地提取特征[[36]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-36)。 [吳恩達](https://zh.wikipedia.org/wiki/%E5%90%B4%E6%81%A9%E8%BE%BE "吳恩達")和[杰夫·迪恩](https://zh.wikipedia.org/wiki/%E5%82%91%E5%A4%AB%C2%B7%E8%BF%AA%E6%81%A9 "杰夫·迪恩")領導的[谷歌大腦](https://zh.wikipedia.org/wiki/%E8%B0%B7%E6%AD%8C%E5%A4%A7%E8%84%91 "谷歌大腦")團隊創建了一個僅通過[YouTube](https://zh.wikipedia.org/wiki/YouTube "YouTube")視頻學習高層概念（例如貓）的神經網絡[[37]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-markoff2012-37)?[[38]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-ng2012-38)。其他方法依賴了現代電子計算機的強大計算能力，尤其是[GPU](https://zh.wikipedia.org/wiki/GPU "GPU")。2010年，在于爾根·施密德胡伯位于瑞士人工智能實驗室[IDSIA](https://zh.wikipedia.org/w/index.php?title=IDSIA&action=edit&redlink=1 "IDSIA（頁面不存在）")的研究組中，丹·奇雷尚（Dan Ciresan）和他的同事展示了利用GPU直接執行反向傳播算法而忽視梯度消失問題的存在。這一方法在燕樂存等人給出的手寫識別MNIST數據集上戰勝了已有的其他方法[[22]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-CIRESAN2010-22)。截止2011年，前饋神經網絡深度學習中最新的方法是交替使用卷積層（convolutional layers）和最大值池化層（max-pooling layers）并加入單純的分類層作為頂端。訓練過程也無需引入無監督的預訓練[[39]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-ciresan2011-39)[[40]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-martines2013-40)。從2011年起，這一方法的GPU實現[[39]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-ciresan2011-39)多次贏得了各類模式識別競賽的勝利，包括IJCNN 2011交通標志識別競賽[[41]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-ciresan2011NN-41)和其他比賽。這些深度學習算法也是最先在某些識別任務上達到和人類表現具備同等競爭力的算法[[42]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-ciresan2011CVPR-42)。 ## 深度學習結構[[編輯](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=4 "編輯小節：深度學習結構")] 深度神經網絡是一種具備至少一個隱層的神經網絡。與淺層神經網絡類似，深度神經網絡也能夠為復雜非線性系統提供建模，但多出的層次為模型提供了更高的抽象層次，因而提高了模型的能力。深度神經網絡通常都是前饋神經網絡，但也有語言建模等方面的研究將其拓展到遞歸神經網絡[[43]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-MIKO2010-43)。[卷積深度神經網絡](https://zh.wikipedia.org/wiki/%E5%8D%B7%E7%A7%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C "卷積神經網絡")（Convolutional Neuron Networks, CNN）在計算機視覺領域得到了成功的應用[[44]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-LECUN86-44)。此后，卷積神經網絡也作為聽覺模型被使用在自動語音識別領域，較以往的方法獲得了更優的結果[[45]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-SAIN2013-45)。 ### 深度神經網絡[[編輯](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=5 "編輯小節：深度神經網絡")] 深度神經網絡（Deep Neural Networks, DNN）是一種[判別模型](https://zh.wikipedia.org/wiki/%E5%88%A4%E5%88%AB%E6%A8%A1%E5%9E%8B "判別模型")，可以使用[反向傳播算法](https://zh.wikipedia.org/wiki/%E5%8F%8D%E5%90%91%E4%BC%A0%E6%92%AD%E7%AE%97%E6%B3%95 "反向傳播算法")進行訓練。權重更新可以使用下式進行[隨機梯度下降法](https://zh.wikipedia.org/w/index.php?title=%E9%9A%8F%E6%9C%BA%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B3%95&action=edit&redlink=1)求解： {\displaystyle \Delta w_{ij}(t+1)=\Delta w_{ij}(t)+\eta {\frac {\partial C}{\partial w_{ij}}}}![ \Delta w_{ij}(t + 1) = \Delta w_{ij}(t) + \eta\frac{\partial C}{\partial w_{ij}} ](https://wikimedia.org/api/rest_v1/media/math/render/svg/b30cfc8b49b236c664c13a71d764822e8ee2726d) 其中，{\displaystyle \eta }![ \eta ](https://wikimedia.org/api/rest_v1/media/math/render/svg/e4d701857cf5fbec133eebaf94deadf722537f64)為學習率，{\displaystyle C}![ C ](https://wikimedia.org/api/rest_v1/media/math/render/svg/4fc55753007cd3c18576f7933f6f089196732029)為[代價函數](https://zh.wikipedia.org/w/index.php?title=%E4%BB%A3%E4%BB%B7%E5%87%BD%E6%95%B0&action=edit&redlink=1 "代價函數（頁面不存在）")。這一函數的選擇與學習的類型（例如監督學習、無監督學習、增強學習）以及[激活函數](https://zh.wikipedia.org/wiki/%E6%BF%80%E6%B4%BB%E5%87%BD%E6%95%B0 "激活函數")相關。例如，為了在一個多分類問題上進行監督學習，通常的選擇是使用ReLU作為激活函數，而使用[交叉熵](https://zh.wikipedia.org/w/index.php?title=%E4%BA%A4%E5%8F%89%E7%86%B5&action=edit&redlink=1 "交叉熵（頁面不存在）")作為代價函數。Softmax函數定義為{\displaystyle p_{j}={\frac {\exp(x_{j})}{\sum _{k}\exp(x_{k})}}}![ p_j = \frac{\exp(x_j)}{\sum_k \exp(x_k)} ](https://wikimedia.org/api/rest_v1/media/math/render/svg/aadedb36b78fb70af90980cdb73f00339640b5c3)，其中{\displaystyle p_{j}}![ p_j ](https://wikimedia.org/api/rest_v1/media/math/render/svg/499e0821b28c43e9bc2a6360b937de535057bc62)代表類別{\displaystyle j}![j](https://wikimedia.org/api/rest_v1/media/math/render/svg/2f461e54f5c093e92a55547b9764291390f0b5d0)的概率，而{\displaystyle x_{j}}![ x_j ](https://wikimedia.org/api/rest_v1/media/math/render/svg/5db47cb3d2f9496205a17a6856c91c1d3d363ccd)和{\displaystyle x_{k}}![ x_k ](https://wikimedia.org/api/rest_v1/media/math/render/svg/6d2b88c64c76a03611549fb9b4cf4ed060b56002)分別代表對單元{\displaystyle j}![ j ](https://wikimedia.org/api/rest_v1/media/math/render/svg/2f461e54f5c093e92a55547b9764291390f0b5d0)和{\displaystyle k}![ k ](https://wikimedia.org/api/rest_v1/media/math/render/svg/c3c9a2c7b599b37105512c5d570edc034056dd40)的輸入。交叉熵定義為{\displaystyle C=-\sum _{j}d_{j}\log(p_{j})}![ C = -\sum_j d_j \log(p_j) ](https://wikimedia.org/api/rest_v1/media/math/render/svg/73d37f6493702d7ac38f348ae40be1510bcac40e)，其中{\displaystyle d_{j}}![ d_j ](https://wikimedia.org/api/rest_v1/media/math/render/svg/3fa3426b07cfa37c76382ddbecfb4c880889657f)代表輸出單元{\displaystyle j}![ j ](https://wikimedia.org/api/rest_v1/media/math/render/svg/2f461e54f5c093e92a55547b9764291390f0b5d0)的目標概率，{\displaystyle p_{j}}![ p_j ](https://wikimedia.org/api/rest_v1/media/math/render/svg/499e0821b28c43e9bc2a6360b937de535057bc62)代表應用了激活函數后對單元{\displaystyle j}![ j ](https://wikimedia.org/api/rest_v1/media/math/render/svg/2f461e54f5c093e92a55547b9764291390f0b5d0)的概率輸出[[46]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-HINTON2012-46)。 ### 深度神經網絡的問題[[編輯](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=6 "編輯小節：深度神經網絡的問題")] 與其他神經網絡模型類似，如果僅僅是簡單地訓練，深度神經網絡可能會存在很多問題。常見的兩類問題是[過擬合](https://zh.wikipedia.org/wiki/%E8%BF%87%E6%8B%9F%E5%90%88 "過擬合")和過長的運算時間。深度神經網絡很容易產生過擬合現象，因為增加的抽象層使得模型能夠對訓練數據中較為罕見的依賴關系進行建模。對此，權重遞減（{\displaystyle \ell _{2}}![ \ell_2 ](https://wikimedia.org/api/rest_v1/media/math/render/svg/85a4571ee9be10bd3c9df2480ab3d280f99e801a)正規化）或者稀疏（{\displaystyle \ell _{1}}![ \ell_1 ](https://wikimedia.org/api/rest_v1/media/math/render/svg/361ddd720474aa41cb05453e03424fb7999d3b02)-正規化）等方法可以利用在訓練過程中以減小過擬合現象[[47]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-BENGIO2013-47)。另一種較晚用于深度神經網絡訓練的正規化方法是丟棄法（"dropout" regularization），即在訓練中隨機丟棄一部分隱層單元來避免對較為罕見的依賴進行建模[[48]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-DAHL2013-48)。反向傳播算法和梯度下降法由于其實現簡單，與其他方法相比能夠收斂到更好的局部最優值而成為神經網絡訓練的通行方法。但是，這些方法的計算代價很高，尤其是在訓練深度神經網絡時，因為深度神經網絡的規模（即層數和每層的節點數）、學習率、初始權重等眾多參數都需要考慮。掃描所有參數由于時間代價的原因并不可行，因而小批量訓練（mini-batching），即將多個訓練樣本組合進行訓練而不是每次只使用一個樣本進行訓練，被用于加速模型訓練[[49]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-RBMTRAIN-49)。而最顯著地速度提升來自GPU，因為矩陣和向量計算非常適合使用GPU實現。但使用大規模集群進行深度神經網絡訓練仍然存在困難，因而深度神經網絡在訓練并行化方面仍有提升的空間。 ### 深度置信網絡[[編輯](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=7 "編輯小節：深度置信網絡")] [![](https://upload.wikimedia.org/wikipedia/commons/thumb/e/e8/Restricted_Boltzmann_machine.svg/220px-Restricted_Boltzmann_machine.svg.png)](https://zh.wikipedia.org/wiki/File:Restricted_Boltzmann_machine.svg) [](https://zh.wikipedia.org/wiki/File:Restricted_Boltzmann_machine.svg "放大") 一個包含完全連接可見層和隱層的[受限玻爾茲曼機](https://zh.wikipedia.org/wiki/%E5%8F%97%E9%99%90%E7%8E%BB%E5%B0%94%E5%85%B9%E6%9B%BC%E6%9C%BA "受限玻爾茲曼機")（RBM）。注意到可見層單元和隱層單元內部彼此不相連。深度置信網絡（deep belief networks，DBN）是一種包含多層隱單元的概率[生成模型](https://zh.wikipedia.org/wiki/%E7%94%9F%E6%88%90%E6%A8%A1%E5%9E%8B "生成模型")，可被視為多層簡單學習模型組合而成的復合模型[[50]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-SCHOLARDBNS-50)。深度致信網絡可以作為深度神經網絡的預訓練部分，并為網絡提供初始權重，再使用反向傳播或者其他判定算法作為調優的手段。這在訓練數據較為缺乏時很有價值，因為不恰當的初始化權重會顯著影響最終模型的性能，而預訓練獲得的權重在權值空間中比隨機權重更接近最優的權重。這不僅提升了模型的性能，也加快了調優階段的收斂速度[[51]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-LAROCH2007-51)。深度置信網絡中的每一層都是典型的[受限玻爾茲曼機](https://zh.wikipedia.org/wiki/%E5%8F%97%E9%99%90%E7%8E%BB%E5%B0%94%E5%85%B9%E6%9B%BC%E6%9C%BA "受限玻爾茲曼機")（restricted Boltzmann machine，RBM），可以使用高效的無監督逐層訓練方法進行訓練。受限玻爾茲曼機是一種[無向](https://zh.wikipedia.org/wiki/%E7%84%A1%E5%90%91%E5%9C%96 "無向圖")的基于能量的生成模型，包含一個輸入層和一個隱層。圖中對的邊僅在輸入層和隱層之間存在，而輸入層節點內部和隱層節點內部則不存在邊。單層RBM的訓練方法最初由杰弗里·辛頓在訓練“專家乘積”中提出，被稱為對比分歧（contrast divergence, CD）。對比分歧提供了一種對[最大似然](https://zh.wikipedia.org/wiki/%E6%9C%80%E5%A4%A7%E4%BC%BC%E7%84%B6 "最大似然")的近似，被理想地用于學習受限玻爾茲曼機的權重[[49]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-RBMTRAIN-49)。當單層RBM被訓練完畢后，另一層RBM可被堆疊在已經訓練完成的RBM上，形成一個多層模型。每次堆疊時，原有的多層網絡輸入層被初始化為訓練樣本，權重為先前訓練得到的權重，該網絡的輸出作為新增RBM的輸入，新的RBM重復先前的單層訓練過程，整個過程可以持續進行，直到達到某個期望中的終止條件[[2]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-BENGIODEEP-2)。盡管對比分歧對最大似然的近似十分粗略（對比分歧并不在任何函數的梯度方向上），但經驗結果證實該方法是訓練深度結構的一種有效的方法[[49]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-RBMTRAIN-49)。 ### 卷積神經網絡[[編輯](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=8 "編輯小節：卷積神經網絡")] 主條目：[卷積神經網絡](https://zh.wikipedia.org/wiki/%E5%8D%B7%E7%A7%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C "卷積神經網絡") 卷積神經網絡（convolutional neuron networks，CNN）由一個或多個卷積層和頂端的全連通層（對應經典的神經網絡）組成，同時也包括關聯權重和池化層（pooling layer）。這一結構使得卷積神經網絡能夠利用輸入數據的二維結構。與其他深度學習結構相比，卷積神經網絡在圖像和語音識別方面能夠給出更優的結果。這一模型也可以使用反向傳播算法進行訓練。相比較其他深度、前饋神經網絡，卷積神經網絡需要估計的參數更少，使之成為一種頗具吸引力的深度學習結構[[52]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-.22.22STANCNN.22-52)。 ### 卷積深度置信網絡[[編輯](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=9 "編輯小節：卷積深度置信網絡")] 卷積深度置信網絡（convolutional deep belief networks，CDBN）是深度學習領域較新的分支。在結構上，卷積深度置信網絡與[卷積神經網絡](https://zh.wikipedia.org/wiki/%E5%8D%B7%E7%A7%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C "卷積神經網絡")在結構上相似。因此，與卷積神經網絡類似，卷積深度置信網絡也具備利用圖像二維結構的能力，與此同時，卷積深度信念網絡也擁有深度置信網絡的預訓練優勢。卷積深度置信網絡提供了一種能被用于信號和圖像處理任務的通用結構，也能夠使用類似深度置信網絡的訓練方法進行訓練[[53]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-.22.22CDBN.22-53)。 ### 結果[[編輯](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=10 "編輯小節：結果")] #### 語音識別[[編輯](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=11 "編輯小節：語音識別")] 下表中的結果展示了深度學習在通行的[TIMIT](https://zh.wikipedia.org/wiki/TIMIT "TIMIT")數據集上的結果。TIMIT包含630人的語音數據，這些人持八種常見的[美式英語](https://zh.wikipedia.org/wiki/%E7%BE%8E%E5%BC%8F%E8%8B%B1%E8%AF%AD "美式英語")口音，每人閱讀10句話。這一數據在深度學習發展之初常被用于驗證深度學習結構[[54]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-LDCTIMIT-54)。TIMIT數據集較小，使得研究者可以在其上實驗不同的模型配置。 | 方法 | 聲音誤差率 (PER,?%) | | 隨機初始化RNN | 26.1 | | 貝葉斯三音子GMM-HMM | 25.6 | | 單音子重復初始化DNN | 23.4 | | 單音子DBN-DNN | 22.4 | | 帶BMMI訓練的三音子GMM-HMM | 21.7 | | 共享池上的單音子DBN-DNN | 20.7 | | 卷積DNN | 20.0 | #### 圖像分類[[編輯](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=12 "編輯小節：圖像分類")] 圖像分類領域中一個公認的評判數據集是[MNIST](https://zh.wikipedia.org/w/index.php?title=MNIST&action=edit&redlink=1 "MNIST（頁面不存在）")數據集。MNIST由手寫阿拉伯數字組成，包含60,000個訓練樣本和10,000個測試樣本。與TIMIT類似，它的數據規模較小，因而能夠很容易地在不同的模型配置下測試。Yann LeCun的網站給出了多種方法得到的實驗結果[[55]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-YANNMNIST-55)。截至2012年，最好的判別結果由Ciresan等人在當年給出，這一結果的錯誤率達到了0.23%[[56]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-CIRESAN2012-56)。 ## 深度學習與神經科學[[編輯](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=13 "編輯小節：深度學習與神經科學")] 計算機領域中的深度學習與20世紀90年代由認知神經科學研究者提出的大腦發育理論（尤其是皮層發育理論）密切相關[[57]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-UTGOFF-57)。對這一理論最容易理解的是[杰弗里·艾爾曼](https://zh.wikipedia.org/w/index.php?title=%E6%9D%B0%E5%BC%97%E9%87%8C%C2%B7%E8%89%BE%E5%B0%94%E6%9B%BC&action=edit&redlink=1)于1996年出版的專著《對天賦的再思考》（[Rethinking Innateness](https://zh.wikipedia.org/w/index.php?title=Rethinking_Innateness&action=edit&redlink=1)）[[58]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-ELMAN-58)（參見斯拉格和約翰遜[[59]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-SHRAGER-59)以及奎茲和賽杰諾維斯基[[60]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-QUARTZ-60)的表述）。由于這些理論給出了實際的神經計算模型，因而它們是純計算驅動的深度學習模型的技術先驅。這些理論指出，大腦中的神經元組成了不同的層次，這些層次相互連接，形成一個過濾體系。在這些層次中，每層神經元在其所處的環境中獲取一部分信息，經過處理后向更深的層級傳遞。這與后來的單純與計算相關的深度神經網絡模型相似。這一過程的結果是一個與環境相協調的自組織的堆棧式的轉換器。正如1995年在《紐約時報》上刊登的那樣，“……嬰兒的大腦似乎受到所謂‘營養因素’的影響而進行著自我組織……大腦的不同區域依次相連，不同層次的腦組織依照一定的先后順序發育成熟，直至整個大腦發育成熟。”[[61]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-BLAKESLEE-61) 深度結構在人類認知演化和發展中的重要性也在認知神經學家的關注之中。發育時間的改變被認為是人類和其他靈長類動物之間智力發展差異的一個方面[[62]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-BUFILL-62)。在靈長類中，人類的大腦在出生后的很長時間都具備可塑性，但其他靈長類動物的大腦則在出生時就幾乎完全定型。因而，人類在大腦發育最具可塑性的階段能夠接觸到更加復雜的外部場景，這可能幫助人類的大腦進行調節以適應快速變化的環境，而不是像其他動物的大腦那樣更多地受到遺傳結構的限制。這樣的發育時間差異也在大腦皮層的發育時間和大腦早期自組織中從刺激環境中獲取信息的改變得到體現。當然，伴隨著這一可塑性的是更長的兒童期，在此期間人需要依靠撫養者和社會群體的支持和訓練。因而這一理論也揭示了人類演化漢化和意識共同進化的現象[[63]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-SHRAGER2-63)。 ## 公眾視野中的深度學習[[編輯](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=14 "編輯小節：公眾視野中的深度學習")] 深度學習常常被看作是通向真正人工智能的重要一步[[64]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-HERN2013-64)，因而許多機構對深度學習的實際應用抱有濃厚的興趣。2013年12月，[Facebook](https://zh.wikipedia.org/wiki/Facebook "Facebook")宣布雇用[燕樂存](https://zh.wikipedia.org/wiki/%E7%87%95%E4%B9%90%E5%AD%98 "燕樂存")為其新建的人工智能實驗室的主管，這一實驗室將在加州、倫敦和紐約設立分支機構，幫助Facebook研究利用深度學習算法進行類似自動標記照片中用戶姓名這樣的任務[[65]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-METZ2013-65)。 2013年3月，杰弗里·辛頓和他的兩位研究生亞歷克斯·克里澤夫斯基和伊利婭·蘇特斯科娃被谷歌公司雇用，以提升現有的機器學習產品并協助處理谷歌日益增長的數據。谷歌同時并購了辛頓創辦的公司DNNresearch[[66]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-66)。 2016年3月，以深度學習開發的圍棋程序[AlphaGo](https://zh.wikipedia.org/wiki/AlphaGo "AlphaGo")首度在[比賽](https://zh.wikipedia.org/wiki/AlphaGo%E6%9D%8E%E4%B8%96%E4%B9%AD%E4%BA%94%E7%95%AA%E6%A3%8B "AlphaGo李世乭五番棋")中擊敗人類頂尖對手，造成廣泛的討論。 ## 批評[[編輯](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=15 "編輯小節：批評")] 對深度學習的主要批評是許多方法缺乏理論支撐。大多數深度結構僅僅是梯度下降的某些變式。盡管梯度下降已經被充分地研究，但理論涉及的其他算法，例如對比分歧算法，并沒有獲得充分的研究，其收斂性等問題仍不明確。深度學習方法常常被視為黑盒，大多數的結論確認都由經驗而非理論來確定。也有學者認為，深度學習應當被視為通向真正人工智能的一條途徑，而不是一種包羅萬象的解決方案。盡管深度學習的能力很強，但和真正的人工智能相比，仍然缺乏諸多重要的能力。理論心理學家[加里·馬庫斯](https://zh.wikipedia.org/w/index.php?title=%E5%8A%A0%E9%87%8C%C2%B7%E9%A9%AC%E5%BA%93%E6%96%AF&action=edit&redlink=1)指出： > 就現實而言，深度學習只是建造智能機器這一更大挑戰中的一部分。這些技術缺乏表達[因果關系](https://zh.wikipedia.org/wiki/%E5%9B%A0%E6%9E%9C%E5%85%B3%E7%B3%BB "因果關系")的手段……缺乏進行[邏輯推理](https://zh.wikipedia.org/wiki/%E9%80%BB%E8%BE%91%E6%8E%A8%E7%90%86 "邏輯推理")的方法，而且遠沒有具備集成抽象知識，例如物品屬性、代表和典型用途的信息。最為強大的人工智能系統，例如[IBM](https://zh.wikipedia.org/wiki/IBM "IBM")的人工智能系統[沃森](https://zh.wikipedia.org/wiki/%E6%B2%83%E6%A3%AE_(%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E7%A8%8B%E5%BA%8F) "沃森 (人工智能程序)")，僅僅把深度學習作為一個包含從[貝葉斯推理](https://zh.wikipedia.org/wiki/%E8%B4%9D%E5%8F%B6%E6%96%AF%E6%8E%A8%E7%90%86 "貝葉斯推理")和[演繹推理](https://zh.wikipedia.org/wiki/%E6%BC%94%E7%BB%8E%E6%8E%A8%E7%90%86 "演繹推理")等技術的復雜技術集合中的組成部分[[67]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-MARCUS-67)。 ## 參見[[編輯](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=16 "編輯小節：參見")] * [圖模型](https://zh.wikipedia.org/w/index.php?title=%E5%9B%BE%E6%A8%A1%E5%9E%8B&action=edit&redlink=1 "圖模型（頁面不存在）") * [人工智能的應用](https://zh.wikipedia.org/w/index.php?title=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E7%9A%84%E5%BA%94%E7%94%A8&action=edit&redlink=1 "人工智能的應用（頁面不存在）") * [吳恩達](https://zh.wikipedia.org/wiki/%E5%90%B4%E6%81%A9%E8%BE%BE "吳恩達") * [人工智能項目列表](https://zh.wikipedia.org/w/index.php?title=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E9%A1%B9%E7%9B%AE%E5%88%97%E8%A1%A8&action=edit&redlink=1 "人工智能項目列表（頁面不存在）") 深度學習庫 * [Torch](https://zh.wikipedia.org/w/index.php?title=Torch_(machine_learning)&action=edit&redlink=1) * [Theano](https://zh.wikipedia.org/w/index.php?title=Theano_(software)&action=edit&redlink=1) * [Deeplearning4j](https://zh.wikipedia.org/wiki/Deeplearning4j "Deeplearning4j") * [tensorflow](https://zh.wikipedia.org/wiki/TensorFlow "TensorFlow") * [Caffe](http://caffe.berkeleyvision.org/) * [Keras](https://zh.wikipedia.org/w/index.php?title=Keras&action=edit&redlink=1) * [Mxnet](http://mxnet.io/) ## 參考資料[[編輯](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=17 "編輯小節：參考資料")] 1. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-BOOK2014_1-0)**?Deng, L.; Yu, D.?[Deep Learning: Methods and Applications](http://research.microsoft.com/pubs/209355/DeepLearning-NowPublishing-Vol7-SIG-039.pdf)?(PDF). Foundations and Trends in Signal Processing. 2014,?**7**: 3–4. 2. ^?[跳轉至：**2.0**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-BENGIODEEP_2-0)?[**2.1**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-BENGIODEEP_2-1)?Bengio, Yoshua.?[Learning Deep Architectures for AI](http://sanghv.com/download/soft/machine%20learning,%20artificial%20intelligence,%20mathematics%20ebooks/ML/learning%20deep%20architectures%20for%20AI%20%282009%29.pdf)?(PDF). Foundations and Trends in Machine Learning. 2009,?**2**?(1): 1–127. 3. ^?[跳轉至：**3.0**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-BENGIO2012_3-0)?[**3.1**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-BENGIO2012_3-1)?[**3.2**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-BENGIO2012_3-2)?[**3.3**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-BENGIO2012_3-3)?Bengio, Y.; Courville, A.; Vincent, P. Representation Learning: A Review and New Perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2013,?**35**?(8): 1798–1828.?[arXiv:1206.5538](https://arxiv.org/abs/1206.5538). 4. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-SCHIDHUB_4-0)**?Schmidhuber, J. Deep Learning in Neural Networks: An Overview. Neural Networks. 2015,?**61**: 85–117.?[arXiv:1404.7828](https://arxiv.org/abs/1404.7828).?[doi:10.1016/j.neunet.2014.09.003](https://dx.doi.org/10.1016%2Fj.neunet.2014.09.003). 5. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-NatureBengio_5-0)**?Bengio, Yoshua; LeCun, Yann; Hinton, Geoffrey.?[Deep Learning](http://www.nature.com/nature/journal/v521/n7553/full/nature14539.html). Nature. 2015,?**521**: 436–444. 6. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-6)**?Glauner, P. Deep Convolutional Neural Networks for Smile Recognition (MSc Thesis).?[Imperial College London](https://zh.wikipedia.org/wiki/Imperial_College_London "Imperial College London"), Department of Computing. 2015.?[arXiv:1508.06535](https://arxiv.org/abs/1508.06535). 7. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-7)**?Song, H.A.; Lee, S. Y. Hierarchical Representation Using NMF. Neural Information Processing. Lectures Notes in Computer Sciences?**8226**.?[Springer Berlin Heidelberg](https://zh.wikipedia.org/w/index.php?title=Springer_Berlin_Heidelberg&action=edit&redlink=1 "Springer Berlin Heidelberg（頁面不存在）"). 2013: 466–473.?[ISBN?978-3-642-42053-5](https://zh.wikipedia.org/wiki/Special:%E7%BD%91%E7%BB%9C%E4%B9%A6%E6%BA%90/978-3-642-42053-5 "Special:網絡書源/978-3-642-42053-5").?[doi:10.1007/978-3-642-42054-2_58](https://dx.doi.org/10.1007%2F978-3-642-42054-2_58). 8. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-8)**?Olshausen, B. A. Emergence of simple-cell receptive field properties by learning a sparse code for natural images. Nature. 1996,?**381**?(6583): 607–609. 9. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-9)**?Collobert, R.?[Deep Learning for Efficient Discriminative Parsing](http://videolectures.net/aistats2011_collobert_deep/). VideoLectures.net. April 2011\. 事件發生在 7min 45s. 10. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-10)**?Gomes, L.?[Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Efforts](http://spectrum.ieee.org/robotics/artificial-intelligence/machinelearning-maestro-michael-jordan-on-the-delusions-of-big-data-and-other-huge-engineering-efforts).?[IEEE Spectrum](https://zh.wikipedia.org/w/index.php?title=IEEE_Spectrum&action=edit&redlink=1 "IEEE Spectrum（頁面不存在）"). 20 October 2014. 11. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-FUKU1980_11-0)**?K. Fukushima., "Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position,"?*Biol. Cybern.*, 36, 193–202, 1980 12. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-WERBOS1974_12-0)**?P. Werbos., "Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences,"?*PhD thesis, Harvard University*, 1974. 13. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-LECUN1989_13-0)**?LeCun?*et al*., "Backpropagation Applied to Handwritten Zip Code Recognition,"?*Neural Computation*, 1, pp. 541–551, 1989. 14. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-HOCH1991_14-0)**?S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen,"?*Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber*, 1991. 15. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-HOCH2001_15-0)**?S. Hochreiter?*et al*., "Gradient flow in recurrent nets: the difficulty of learning long-term dependencies,"?*In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press*, 2001. 16. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-Weng1992_16-0)**?J. Weng, N. Ahuja and T. S. Huang, "[Cresceptron: a self-organizing neural network which grows adaptively](http://www.cse.msu.edu/~weng/research/CresceptronIJCNN1992.pdf),"?*Proc. International Joint Conference on Neural Networks*, Baltimore, Maryland, vol I, pp. 576-581, June, 1992. 17. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-Weng1993_17-0)**?J. Weng, N. Ahuja and T. S. Huang, "[Learning recognition and segmentation of 3-D objects from 2-D images](http://www.cse.msu.edu/~weng/research/CresceptronICCV1993.pdf),"?*Proc. 4th International Conf. Computer Vision*, Berlin, Germany, pp. 121-128, May, 1993. 18. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-Weng1997_18-0)**?J. Weng, N. Ahuja and T. S. Huang, "[Learning recognition and segmentation using the Cresceptron](http://www.cse.msu.edu/~weng/research/CresceptronIJCV.pdf),"?*International Journal of Computer Vision*, vol. 25, no. 2, pp. 105-139, Nov. 1997. 19. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-HINTON2007_19-0)**?G. E. Hinton., "Learning multiple layers of representation,"?*Trends in Cognitive Sciences*, 11, pp. 428–434, 2007. 20. ^?[跳轉至：**20.0**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-SCHMID1992_20-0)?[**20.1**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-SCHMID1992_20-1)?J. Schmidhuber., "Learning complex, extended sequences using the principle of history compression,"?*Neural Computation*, 4, pp. 234–242, 1992. 21. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-SCHMID1991_21-0)**?J. Schmidhuber., "My First Deep Learning System of 1991 + Deep Learning Timeline 1962–2013." 22. ^?[跳轉至：**22.0**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-CIRESAN2010_22-0)?[**22.1**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-CIRESAN2010_22-1)?D. C. Ciresan?*et al*., "Deep Big Simple Neural Nets for Handwritten Digit Recognition,"?*Neural Computation*, 22, pp. 3207–3220, 2010. 23. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-RAINA2009_23-0)**?R. Raina, A. Madhavan, A. Ng., "Large-scale Deep Unsupervised Learning using Graphics Processors,"?*Proc. 26th Int. Conf. on Machine Learning*, 2009. 24. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-WengScience2001_24-0)**?J. Weng, J. McClelland, A. Pentland, O. Sporns, I. Stockman, M. Sur and E. Thelen, "[Autonomous Mental Development by Robots and Animals](http://www.cse.msu.edu/dl/SciencePaper.pdf)," Science, vol. 291, no. 5504, pp. 599 - 600, Jan. 26, 2001. 25. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-WengIJCNN5_25-0)**?J. Weng, "[Brains as Naturally Emerging Turing Machines](http://www.cse.msu.edu/~weng/research/IJCNN15-807.pdf)," in Proc. International Joint Conference on Neural Networks, Killarney, Ireland, 8 pages, July 12-17\. 2015. 26. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-26)**?M Riesenhuber, T Poggio. Hierarchical models of object recognition in cortex. Nature neuroscience, 1999(11) 1019–1025. 27. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-LeCun1989_27-0)**?Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel.?*Backpropagation Applied to Handwritten Zip Code Recognition.*?Neural Computation, 1(4):541–551, 1989. 28. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-28)**?[S. Hochreiter](https://zh.wikipedia.org/w/index.php?title=Sepp_Hochreiter&action=edit&redlink=1 "Sepp Hochreiter（頁面不存在）"). Untersuchungen zu dynamischen neuronalen Netzen. Diploma thesis, Institut f. Informatik, Technische Univ. Munich, 1991\. Advisor:?[J. Schmidhuber](https://zh.wikipedia.org/w/index.php?title=J%C3%BCrgen_Schmidhuber&action=edit&redlink=1 "Jürgen Schmidhuber（頁面不存在）") 29. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-29)**?[S. Hochreiter](https://zh.wikipedia.org/w/index.php?title=Sepp_Hochreiter&action=edit&redlink=1 "Sepp Hochreiter（頁面不存在）"), Y. Bengio, P. Frasconi, and?[J. Schmidhuber](https://zh.wikipedia.org/w/index.php?title=J%C3%BCrgen_Schmidhuber&action=edit&redlink=1 "Jürgen Schmidhuber（頁面不存在）"). Gradient flow in recurrent nets: the difficulty of learning long-term dependencies. In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, 2001. 30. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-lstm_30-0)**?[Hochreiter, Sepp](https://zh.wikipedia.org/w/index.php?title=Sepp_Hochreiter&action=edit&redlink=1 "Sepp Hochreiter（頁面不存在）"); and?[Schmidhuber, Jürgen](https://zh.wikipedia.org/w/index.php?title=J%C3%BCrgen_Schmidhuber&action=edit&redlink=1 "Jürgen Schmidhuber（頁面不存在）");?*Long Short-Term Memory*, Neural Computation, 9(8):1735–1780, 1997 31. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-31)**?Graves, Alex; and Schmidhuber, Jürgen;?*Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks*, in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.),?*Advances in Neural Information Processing Systems 22 (NIPS'22), December 7th–10th, 2009, Vancouver, BC*, Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545–552 32. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-32)**?A. Graves, M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke, J. Schmidhuber. A Novel Connectionist System for Improved Unconstrained Handwriting Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 31, no. 5, 2009. 33. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-33)**?Sven Behnke.?[Hierarchical Neural Networks for Image Interpretation.](http://www.ais.uni-bonn.de/books/LNCS2766.pdf)?(PDF). Lecture Notes in Computer Science?**2766**. Springer. 2003. 34. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-smolensky1986_34-0)**?[Smolensky, P.](https://zh.wikipedia.org/w/index.php?title=Paul_Smolensky&action=edit&redlink=1 "Paul Smolensky（頁面不存在）")?[Information processing in dynamical systems: Foundations of harmony theory.](http://portal.acm.org/citation.cfm?id=104290). In D. E. Rumelhart, J. L. McClelland, & the PDP Research Group, Parallel Distributed Processing: Explorations in the Microstructure of Cognition.?**1**. 1986: 194–281. 35. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-hinton2006_35-0)**?[Hinton, G. E.](https://zh.wikipedia.org/w/index.php?title=Geoffrey_Hinton&action=edit&redlink=1 "Geoffrey Hinton（頁面不存在）"); Osindero, S.; Teh, Y.?[A fast learning algorithm for deep belief nets](http://www.cs.toronto.edu/~hinton/absps/fastnc.pdf)?(PDF).?[Neural Computation](https://zh.wikipedia.org/w/index.php?title=Neural_Computation&action=edit&redlink=1 "Neural Computation（頁面不存在）"). 2006,?**18**?(7): 1527–1554.?[PMID?16764513](https://www.ncbi.nlm.nih.gov/pubmed/16764513).?[doi:10.1162/neco.2006.18.7.1527](https://dx.doi.org/10.1162%2Fneco.2006.18.7.1527). 36. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-36)**?Hinton, G.?[Deep belief networks](http://www.scholarpedia.org/article/Deep_belief_networks). Scholarpedia. 2009,?**4**?(5): 5947.?[doi:10.4249/scholarpedia.5947](https://dx.doi.org/10.4249%2Fscholarpedia.5947).?[編輯](https://zh.wikipedia.org/w/index.php?title=Template:Cite_doi/10.4249.2Fscholarpedia.5947&action=edit&editintro=Template:Cite_doi/editintro2) 37. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-markoff2012_37-0)**?John Markoff.?[How Many Computers to Identify a Cat? 16,000.](http://www.nytimes.com/2012/06/26/technology/in-a-big-network-of-computers-evidence-of-machine-learning.html). New York Times. 25 June 2012. 38. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-ng2012_38-0)**?Ng, Andrew; Dean, Jeff.?[Building High-level Features Using Large Scale Unsupervised Learning](http://arxiv.org/pdf/1112.6209.pdf)?(PDF). 2012. 39. ^?[跳轉至：**39.0**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-ciresan2011_39-0)?[**39.1**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-ciresan2011_39-1)?D. C. Ciresan, U. Meier, J. Masci, L. M. Gambardella, J. Schmidhuber. Flexible, High Performance Convolutional Neural Networks for Image Classification. International Joint Conference on Artificial Intelligence (IJCAI-2011, Barcelona), 2011. 40. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-martines2013_40-0)**?Martines, H., Bengio, Y., & Yannakakis, G. N. (2013). Learning Deep Physiological Models of Affect. I EEE Computational Intelligence, 8(2), 20. 41. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-ciresan2011NN_41-0)**?D. C. Ciresan, U. Meier, J. Masci, J. Schmidhuber. Multi-Column Deep Neural Network for Traffic Sign Classification. Neural Networks, 2012. 42. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-ciresan2011CVPR_42-0)**?D. C. Ciresan, U. Meier, J. Schmidhuber. Multi-column Deep Neural Networks for Image Classification. IEEE Conf. on Computer Vision and Pattern Recognition CVPR 2012. 43. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-MIKO2010_43-0)**?T. Mikolov?*et al*., "Recurrent neural network based language model,"?*Interspeech*, 2010. 44. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-LECUN86_44-0)**?Y. LeCun?*et al*., "Gradient-based learning applied to document recognition,"?*Proceedings of the IEEE*, 86 (11), pp. 2278–2324. 45. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-SAIN2013_45-0)**?T. Sainath?*et al*., "Convolutional neural networks for LVCSR,"?*ICASSP*, 2013. 46. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-HINTON2012_46-0)**?G. E. Hinton?*et al*., "Deep Neural Networks for Acoustic Modeling in Speech Recognition: The shared views of four research groups,"?*IEEE Signal Processing Magazine*, pp. 82–97, November 2012. 47. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-BENGIO2013_47-0)**?Y. Bengio?*et al*., "Advances in optimizing recurrent networks,"?*ICASSP', 2013.* 48. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-DAHL2013_48-0)**?G. Dahl?*et al*., "Improving DNNs for LVCSR using rectified linear units and dropout,"?*ICASSP', 2013.* 49. ^?[跳轉至：**49.0**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-RBMTRAIN_49-0)?[**49.1**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-RBMTRAIN_49-1)?[**49.2**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-RBMTRAIN_49-2)?G. E. Hinton., "A Practical Guide to Training Restricted Boltzmann Machines,"?*Tech. Rep. UTML TR 2010-003, Dept. CS., Univ. of Toronto*, 2010. 50. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-SCHOLARDBNS_50-0)**?G.E. Hinton., "Deep belief networks,"?*Scholarpedia*, 4(5):5947. 51. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-LAROCH2007_51-0)**?H. Larochelle?*et al*., "An empirical evaluation of deep architectures on problems with many factors of variation,"?*in Proc. 24th Int. Conf. Machine Learning*, pp. 473–480, 2007. 52. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-.22.22STANCNN.22_52-0)**?[Convolutional Neural Network](http://ufldl.stanford.edu/tutorial/supervised/ConvolutionalNeuralNetwork/).?[2014-09-16]. 53. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-.22.22CDBN.22_53-0)**?Honglak Lee; Roger Grosse; Rajesh Ranganath; Andrew Y. Ng. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. ICML '09\. 2009: 609–616. 54. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-LDCTIMIT_54-0)**?*TIMIT Acoustic-Phonetic Continuous Speech Corpus*?Linguistic Data Consortium, Philadelphia. 55. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-YANNMNIST_55-0)**?[http://yann.lecun.com/exdb/mnist/](http://yann.lecun.com/exdb/mnist/). 56. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-CIRESAN2012_56-0)**?D. Ciresan, U. Meier, J. Schmidhuber., "Multi-column Deep Neural Networks for Image Classification,"?*Technical Report No. IDSIA-04-12', 2012.* 57. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-UTGOFF_57-0)**?P. E. Utgoff and D. J. Stracuzzi., "Many-layered learning,"?*Neural Computation*, 14, pp. 2497–2529, 2002. 58. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-ELMAN_58-0)**?J. Elman,?*et al*., "Rethinking Innateness," 1996. 59. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-SHRAGER_59-0)**?J. Shrager, MH Johnson., "Dynamic plasticity influences the emergence of function in a simple cortical array,"?*Neural Networks*, 9 (7), pp. 1119–1129, 1996 60. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-QUARTZ_60-0)**?SR Quartz and TJ Sejnowski., "The neural basis of cognitive development: A constructivist manifesto,"?*Behavioral and Brain Sciences*, 20 (4), pp. 537–556, 1997. 61. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-BLAKESLEE_61-0)**?S. Blakeslee., "In brain's early growth, timetable may be critical,"?*The New York Times, Science Section*, pp. B5–B6, 1995. 62. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-BUFILL_62-0)**?{BUFILL} E. Bufill, J. Agusti, R. Blesa., "Human neoteny revisited: The case of synaptic plasticity,"?*American Journal of Human Biology*, 23 (6), pp. 729–739, 2011. 63. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-SHRAGER2_63-0)**?J. Shrager and M. H. Johnson., "Timing in the development of cortical function: A computational approach,"?*In B. Julesz and I. Kovacs (Eds.), Maturational windows and adult cortical plasticity*, 1995. 64. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-HERN2013_64-0)**?D. Hernandez., "[The Man Behind the Google Brain: Andrew Ng and the Quest for the New AI](http://www.wired.com/wiredenterprise/2013/05/neuro-artificial-intelligence/all/),"?*Wired*, 10 May 2013. 65. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-METZ2013_65-0)**?C. Metz., "[Facebook's 'Deep Learning' Guru Reveals the Future of AI](http://www.wired.com/wiredenterprise/2013/12/facebook-yann-lecun-qa/),"?*Wired*, 12 December 2013. 66. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-66)**?[谷歌收購DNNresearch，下一個帝國呼之欲出](http://www.csdn.net/article/2013-03-13/2814469-google-acquires-canadian-neural-networks-startup). CSDN. 2013-03-13?[2014-07-20]. 67. **[跳轉^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-MARCUS_67-0)**?G. Marcus., "Is "Deep Learning" a Revolution in Artificial Intelligence?"?*The New Yorker*, 25 November 2012. ## 外部鏈接[[編輯](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=18 "編輯小節：外部鏈接")] * 來自[蒙特利爾大學](https://zh.wikipedia.org/wiki/%E8%92%99%E7%89%B9%E5%88%A9%E5%B0%94%E5%A4%A7%E5%AD%A6 "蒙特利爾大學")的深度學習信息?[[1]](http://deeplearning.net/) * 杰弗里·辛頓的主頁?[[2]](http://www.cs.toronto.edu/~hinton/) * 深度學習視頻教程?[[3]](http://videolectures.net/jul09_hinton_deeplearn/) * 燕樂存的主頁?[[4]](http://yann.lecun.com/) * 麻省理工大學生物和計算學習中心 (CBCL)?[[5]](http://cbcl.mit.edu/) * 斯坦福大學提供的無監督特征學習和深度學習教程?[[6]](http://deeplearning.stanford.edu/wiki/index.php/UFLDL_Tutorial) * 谷歌DistBelief框架?[[7]](http://research.google.com/archive/large_deep_networks_nips2012.html) * Theano深度學習工具包（使用[Python](https://zh.wikipedia.org/wiki/Python "Python")）?[[8]](http://deeplearning.net/software/theano/) * Deeplearning4j開源深度學習工具包（使用[Java](https://zh.wikipedia.org/wiki/Java "Java")）?[[9]](http://deeplearning4j.org/) * NIPS 2013會議（介紹深度學習相關資料）?[[10]](https://nips.cc/Conferences/2013/)