專家對長短期記憶網絡的簡要介紹 · Machine Learning Mastery 博客文章翻譯

# 專家對長短期記憶網絡的簡要介紹 > 原文： [https://machinelearningmastery.com/gentle-introduction-long-short-term-memory-networks-experts/](https://machinelearningmastery.com/gentle-introduction-long-short-term-memory-networks-experts/) 長短期記憶（LSTM）網絡是一種循環神經網絡，能夠學習序列預測問題中的順序依賴性。這是復雜問題域中所需的行為，如機器翻譯，語音識別等。 LSTM是一個復雜的深度學習領域。很難掌握LSTM是什么，以及雙向和序列到序列等術語如何與場相關。在這篇文章中，您將使用開發方法并將其應用于新的重要問題的研究科學家的話來深入了解LSTM。很少有人比制定它們的專家更清楚，更準確地闡明LSTM的承諾及其工作方式。我們將使用專家的報價來探索LSTM領域的關鍵問題，如果您有興趣，您將能夠深入研究報價的原始論文。 ![A Gentle Introduction to Long Short-Term Memory Networks by the Experts](img/81d37f2edd0a376b23e71681ab8f3080.jpg) 專家對長期短期記憶網絡的簡要介紹 [Oran Viriyincy](https://www.flickr.com/photos/viriyincy/7004881064/) 的照片，保留一些權利。 ## 循環神經網絡的承諾循環神經網絡不同于傳統的前饋神經網絡。增加復雜性的這種差異伴隨著傳統方法無法實現的新行為的承諾。 > 循環網絡......具有可以表示上下文信息的內部狀態。 ...... [他們]保留過去輸入的信息一段時間不是先驗固定的，而是取決于其權重和輸入數據。 > > ... > > 其輸入不固定但構成輸入序列的循環網絡可用于將輸入序列變換為輸出序列，同時以靈活的方式考慮上下文信息。 - Yoshua Bengio等，[學習長期依賴與梯度下降是困難的](http://www-dsi.ing.unifi.it/~paolo/ps/tnn-94-gradient.pdf)，1994。本文定義了循環神經網絡的3個基本要求： * 系統能夠存儲任意持續時間的信息。 * 系統抵抗噪聲（即輸入的波動是隨機的或與預測正確輸出無關）。 * 系統參數可以訓練（在合理的時間內）。本文還描述了用于演示循環神經網絡的“最小任務”。語境是關鍵。循環神經網絡在進行預測時必須使用上下文，但在這種程度上，還必須學習所需的上下文。 > ...循環神經網絡包含循環，這些循環將來自前一時間步的網絡激活作為網絡的輸入，以影響當前時間步的預測。這些激活存儲在網絡的內部狀態中，其原則上可以保存長期時間上下文信息。該機制允許RNN在輸入序列歷史上利用動態變化的上下文窗口 - Hassim Sak等，用于大規模聲學建模的[長短期記憶循環神經網絡架構](https://arxiv.org/abs/1402.1128)，2014 ## LSTM兌現承諾 LSTM的成功在于它們聲稱是首批克服技術問題并實現循環神經網絡承諾的工具之一。 > 因此，在相關輸入事件和目標信號之間存在大于5-10個離散時間步長的情況下，標準RNN無法學習。消失的錯誤問題使人們懷疑標準RNN是否確實能夠在基于時間窗口的前饋網絡上表現出顯著的實際優勢。最近的模型“長期短期記憶”（LSTM）不受此問題的影響。 LSTM可以通過在特殊單元（稱為單元格）內通過“恒定誤差轉盤”（CEC）強制執行恒定誤差來學習跨越超過1000個離散時間步長的最小時間滯后 - Felix A. Gers等，[學會忘記：用LSTM持續預測](http://www.mitpressjournals.org/doi/abs/10.1162/089976600300015015)，2000 LSTM克服的兩個技術問題是消失的梯度和爆炸的梯度，這兩者都與網絡的訓練方式有關。 > 不幸的是，標準RNN可以訪問的上下文信息的范圍在實踐中非常有限。問題在于，給定輸入對隱藏層的影響，以及因此對網絡輸出的影響，當它圍繞網絡的循環連接循環時，會以指數方式衰減或爆炸。這個缺點......在文獻中被稱為消失梯度問題......長短期記憶（LSTM）是一種RNN架構，專門用于解決消失的梯度問題。 - Alex Graves等，[一種用于無約束手寫識別的新型連接系統](http://ieeexplore.ieee.org/document/4531750/)，2009 LSTM解決技術問題的關鍵是模型中使用的單元的特定內部結構。 > ......受其處理消失和爆炸梯度的能力的支配，這是設計和訓練RNN的最常見挑戰。為了應對這一挑戰，引入了一種特殊形式的經常性網絡，稱為LSTM，并在翻譯和序列生成方面取得了巨大成功。 - Alex Graves等， [Framewise Phoneme Classification with Bidirectional LSTM and other Neural Network Architectures](http://ieeexplore.ieee.org/document/1556215/?reload=true&arnumber=1556215) ，2005。 ## LSTM如何工作？類比是一個有用的工具，可以快速掌握它們的工作方式，而不是進入控制LSTM如何擬合的方程式。 > 我們使用具有一個輸入層，一個隱藏層和一個輸出層的網絡......（完全）自連接隱藏層包含存儲器單元和相應的門單元...... > > … > > 每個存儲器單元的內部架構保證在其恒定誤差轉盤CEC內的恒定誤差...這代表了彌合很長時間滯后的基礎。兩個門單元學習在每個存儲器單元的CEC內打開和關閉對錯誤的訪問。乘法輸入門保護CEC免受無關輸入的擾動。同樣，乘法輸出門保護其他單元免受當前不相關的存儲器內容的擾動。 - Sepp Hochreiter和Jurgen Schmidhuber，[長期短期記憶](http://www.mitpressjournals.org/doi/abs/10.1162/neco.1997.9.8.1735)，1997年。多個類比可以幫助購買LSTM與簡單神經元組成的傳統神經網絡的區別。 > 長短期記憶體系結構的動機是對現有RNN中的錯誤流進行分析，發現現有體系結構無法獲得長時間滯后，因為反向傳播的錯誤會以指數方式爆炸或衰減。 > > LSTM層由一組循環連接的塊組成，稱為內存塊。這些塊可以被認為是數字計算機中存儲芯片的可區分版本。每個包含一個或多個循環連接的存儲器單元和三個乘法單元 - 輸入，輸出和忘記門 - 為單元提供連續的寫，讀和復位操作模擬。 ......網只能通過門與細胞相互作用。 — Alex Graves, et al., [Framewise Phoneme Classification with Bidirectional LSTM and Other Neural Network Architectures](http://ieeexplore.ieee.org/document/1556215/?reload=true&arnumber=1556215), 2005. 有趣的是，即使經過20多年，簡單（或香草）LSTM仍然是應用該技術時最好的起點。 > 最常用的LSTM架構（vanilla LSTM）在各種數據集上表現相當不錯...... > > 學習率和網絡規模是最關鍵的可調LSTM超參數... > > ...這意味著超參數可以獨立調整。特別是，可以使用相當小的網絡首先校準學習率，從而節省大量的實驗時間。 - Klaus Greff等， [LSTM：A Search Space Odyssey](https://arxiv.org/abs/1503.04069) ，2015 ## 什么是LSTM應用程序？掌握LSTM適合解決的確切類型的序列學習問題非常重要。 > 長期短期記憶（LSTM）可以解決以前的循環神經網絡（RNN）學習算法無法解決的大量任務。 > > … > > ... LSTM承諾任何順序處理任務，我們懷疑可能存在層次分解，但事先并不知道這種分解是什么。 — Felix A. Gers, et al., [Learning to Forget: Continual Prediction with LSTM](http://www.mitpressjournals.org/doi/abs/10.1162/089976600300015015), 2000 > 循環神經網絡（RNN）是神經序列模型，其在包括語言建模，語音識別和機器翻譯的重要任務上實現最先進的表現。 - Wojciech Zaremba，[循環神經網絡正則化](https://arxiv.org/abs/1409.2329)，2014年。 > 由于LSTM在捕獲長期時間依賴性方面是有效的，而不會遇到困擾簡單復發網絡（SRN）的優化障礙，因此它們已被用于推進許多難題的現有技術水平。這包括手寫識別和生成，語言建模和翻譯，語音聲學建模，語音合成，蛋白質二級結構預測，音頻分析和視頻數據等。 — Klaus Greff, et al., [LSTM: A Search Space Odyssey](https://arxiv.org/abs/1503.04069), 2015 ## 什么是雙向LSTM？ LSTM的一個常見改進是雙向LSTM。 > 雙向循環神經網絡的基本思想是將每個訓練序列向前和向后呈現給兩個單獨的循環網絡，這兩個網絡都連接到相同的輸出層。 ......這意味著對于給定序列中的每個點，BRNN都有關于它之前和之后所有點的完整，順序信息。此外，由于網絡可根據需要自由使用此上下文，因此無需查找（任務相關的）時間窗口或目標延遲大小。 > > ......對于像語音識別這樣的時間問題，依賴于對未來的了解似乎乍看之下就是違反因果關系...我們如何能夠根據我們對尚未說過的內容所聽到的內容進行理解？然而，人類聽眾正是這樣做的。根據未來的背景，聽起來，單詞甚至整個句子最初都意味著沒有任何意義。 — Alex Graves, et al., [Framewise Phoneme Classification with Bidirectional LSTM and Other Neural Network Architectures](http://ieeexplore.ieee.org/document/1556215/?reload=true&arnumber=1556215), 2005. > 傳統RNN的一個缺點是它們只能利用先前的上下文。 ...雙向RNN（BRNN）通過使用兩個單獨的隱藏層處理兩個方向上的數據來完成此操作，然后將這些隱藏層轉發到同一輸出層。 ...將BRNN與LSTM相結合，可以提供雙向LSTM，可以在兩個輸入方向上訪問遠程上下文 - Alex Graves等，[語音識別與深度復發神經網絡](http://ieeexplore.ieee.org/abstract/document/6638947/)，2013 > 與傳統的RNN不同，雙向RNN通過使用兩個單獨的隱藏層處理來自兩個方向的數據來利用先前和未來的上下文。一層處理正向輸入序列，而另一層處理反向輸入。然后通過組合兩個層的隱藏向量來生成當前時間步長的輸出... - Di Wang和Eric Nyberg，[](http://www.aclweb.org/anthology/P15-2116) [問題回答](http://www.aclweb.org/anthology/P15-2116)，2015年答案句選擇的長短期記憶模型 ## 什么是seq2seq LSTM或RNN編碼器解碼器？序列到序列LSTM，也稱為編碼器 - 解碼器LSTM，是LSTM的應用，由于其令人印象深刻的能力而受到很多關注。 > ......長期短期記憶（LSTM）架構的直接應用可以解決序列問題的一般順序。 > > … > > 想法是使用一個LSTM來讀取輸入序列，一次一個步驟，以獲得大的固定維向量表示，然后使用另一個LSTM從該向量中提取輸出序列。第二個LSTM本質上是一個循環神經網絡語言模型，除了它以輸入序列為條件。 > > LSTM成功學習具有長距離時間依賴性的數據的能力使其成為該應用的自然選擇，因為輸入與其相應輸出之間存在相當大的時間滯后。 > > 我們能夠在長句子上做得好，因為我們顛倒了源句中的單詞順序，而不是訓練和測試集中的目標句子。通過這樣做，我們引入了許多短期依賴關系，使優化問題更加簡單。 ......扭轉源句中單詞的簡單技巧是這項工作的關鍵技術貢獻之一 - Ilya Sutskever等，[序列學習與神經網絡](https://arxiv.org/abs/1409.3215)，2014 > “編碼器”RNN讀取源句子并將其轉換為富的固定長度向量表示，其又用作生成目標句子的“解碼器”RNN的初始隱藏狀態。在這里，我們建議遵循這個優雅的秘籍，用深度卷積神經網絡（CNN）代替編碼器RNN。 ...使用CNN作為圖像“編碼器”是很自然的，首先將其預訓練用于圖像分類任務，并使用最后隱藏層作為生成句子的RNN解碼器的輸入。 - Oriol Vinyals等， [Show and Tell：神經圖像字幕生成器](https://arxiv.org/abs/1411.4555)，2014 > ... RNN編碼器 - 解碼器，由兩個循環神經網絡（RNN）組成，它們充當編碼器和解碼器對。編碼器將可變長度源序列映射到固定長度向量，并且解碼器將向量表示映射回可變長度目標序列。 - Kyunghyun Cho，et al。，[學習短語表示使用RNN編碼器 - 解碼器進行統計機器翻譯](https://arxiv.org/abs/1406.1078)，2014 ## 摘要在這篇文章中，您通過開發和應用這些技術的研究科學家的話來溫和地介紹了LSTM。這為您提供了關于LSTM是什么以及它們如何工作的清晰而準確的概念，以及關于LSTM在循環神經網絡領域的承諾的重要闡述。引用是否有助于您理解或激勵您？請在下面的評論中告訴我。