逆向神經網絡中的深度學習速成課程 · Machine Learning Mastery 博客文章翻譯

# 逆向神經網絡中的深度學習速成課程 > 原文： [https://machinelearningmastery.com/crash-course-recurrent-neural-networks-deep-learning/](https://machinelearningmastery.com/crash-course-recurrent-neural-networks-deep-learning/) 另一種類型的神經網絡主導著困難的機器學習問題，涉及稱為循環神經網絡的輸入序列。循環神經網絡具有連接，其具有循環，隨時間向網絡添加反饋和存儲器。該存儲器允許這種類型的網絡學習和概括輸入序列而不是單個模式。一種稱為長短期記憶網絡的強大類型的循環神經網絡在堆疊成深層配置時顯示出特別有效，從語言翻譯到自動字幕等各種各樣的問題上實現了最先進的結果的圖像和視頻。在這篇文章中，您將獲得用于深度學習的循環神經網絡的速成課程，獲得足夠的理解以開始在使用Keras的Python中使用LSTM網絡。閱讀這篇文章后，你會知道： * 通過循環神經網絡解決的多層感知器的局限性。 * 必須解決的問題是使循環神經網絡有用。 * 應用深度學習中使用的長短期記憶網絡的細節。讓我們開始吧。 ![Crash Course in Recurrent Neural Networks for Deep Learning](img/cb7e803171bb1038cadda93cdcb46ecd.jpg) 用于深度學習的循環神經網絡的速成課程 [Martin Fisch](https://www.flickr.com/photos/marfis75/6718796119/) 的照片，保留一些權利。 ### 支持神經網絡中的序列有一些問題類型是最好的框架，涉及序列作為輸入或輸出。例如，考慮一個單變量的時間序列問題，例如股票隨時間的價格。通過定義窗口大小（例如5）并訓練網絡學習從固定大小的輸入窗口進行短期預測，可以將該數據集構建為經典前饋多層感知器網絡的預測問題。這可行，但非常有限。輸入窗口為問題增加了記憶，但僅限于固定數量的點，必須在充分了解問題的情況下進行選擇。一個樸素的窗口無法捕捉可能與預測相關的分鐘，小時和天的更廣泛趨勢。從一個預測到下一個預測，網絡僅知道它所提供的特定輸入。單變量時間序列預測很重要，但還有更多有趣的問題涉及序列。考慮以下需要將輸入映射到輸出的序列問題分類（取自Andrej Karpathy）。 * **一對多**：序列輸出，用于圖像字幕。 * **多對一**：序列輸入，用于情感分類。 * **多對多**：序列輸入和輸出，用于機器翻譯。 * **同步多對多**：同步序列輸入和輸出，用于視頻分類。我們還可以看到輸入到輸出的一對一示例將是用于諸如圖像分類的預測任務的經典前饋神經網絡的示例。對神經網絡中的序列的支持是一類重要的問題，并且深度學習最近顯示出令人印象深刻的結果。最先進的結果是使用一種專門為序列問題設計的網絡，稱為循環神經網絡。 ## 循環神經網絡循環神經網絡或RNN是一種特殊類型的神經網絡，專為序列問題而設計。給定標準的前饋多層Perceptron網絡，可以將循環神經網絡視為向架構添加循環。例如，在給定層中，除了前進到下一層之外，每個神經元可以隨后（側向）傳遞其信號。網絡的輸出可以作為具有下一輸入向量的網絡的輸入反饋。等等。循環連接為網絡添加狀態或內存，并允許它從輸入序列中學習更廣泛的抽象。利用流行的方法很好地建立了循環神經網絡領域。為了使技術在實際問題上有效，需要解決兩個主要問題，使網絡變得有用。 1. 如何使用反向傳播訓練網絡。 2. 如何在訓練期間停止梯度消失和爆炸。 ### 1.如何訓練循環神經網絡用于訓練前饋神經網絡的主要技術是反向傳播錯誤并更新網絡權重。由于循環或循環連接，反向傳播在循環神經網絡中發生故障。這通過對后傳播技術的改進來解決，該技術稱為[反向傳播時間](https://en.wikipedia.org/wiki/Backpropagation_through_time)或BPTT。如上所述，不是在循環網絡上執行反向傳播，而是展開網絡的結構，其中創建具有循環連接的神經元的副本。例如，具有與其自身連接的單個神經元（A-> A）可以表示為具有相同權重值的兩個神經元（A-> B）。這允許將循環神經網絡的循環圖轉換為類似經典前饋神經網絡的非循環圖，并且可以應用反向傳播。 ### 2.如何在訓練期間保持穩定的梯度當反向傳播用于非常深的神經網絡和展開的循環神經網絡時，為更新權重而計算的梯度可能變得不穩定。它們可以變成非常大的數字，稱為爆炸梯度或非常小的數字，稱為[消失梯度問題](https://en.wikipedia.org/wiki/Vanishing_gradient_problem)。反過來，這些大數字用于更新網絡中的權重，使訓練不穩定，網絡不可靠。通過使用整流器傳遞函數，這種問題在深層多層感知器網絡中得到了緩解，甚至更加奇特但現在不那么流行的使用無監督預層訓練的方法。在循環神經網絡架構中，使用稱為長短期存儲器網絡的新型架構可以緩解這個問題，該架構允許訓練深度復現網絡。 ## 長期短期記憶網絡長期短期記憶或LSTM網絡是一種循環神經網絡，使用反向傳播時間訓練并克服消失的梯度問題。因此，它可以用于創建大型（堆疊）循環網絡，這反過來可以用于解決機器學習中的困難序列問題并實現最先進的結果。 LSTM網絡具有連接到層中的存儲塊，而不是神經元。塊具有使其比經典神經元更聰明的組件和用于最近序列的存儲器。塊包含管理塊狀態和輸出的門。單元對輸入序列進行操作，并且單元內的每個門使用S形激活功能來控制它們是否被觸發，使狀態的改變和流過該單元的信息的添加成為條件。存儲器單元中有三種類型的門： * **忘記門**：有條件地決定從本機丟棄哪些信息。 * **輸入門**：有條件地決定輸入中的哪些值來更新存儲器狀態。 * **輸出門**：根據輸入和設備的內存有條件地決定輸出內容。每個單元就像一個小型狀態機，其中單元的門具有在訓練過程中學習的權重。您可以看到如何從一層LSTM中獲得復雜的學習和記憶，并且不難想象高階抽象如何與多個這樣的層分層。 ## 資源我們在這篇文章中介紹了很多內容。下面是一些資源，您可以使用這些資源深入了解用于深度學習的循環神經網絡的主題。有關了解Recurrent Neural Networks和LSTM的更多信息的資源。 * [維基百科上的循環神經網絡](https://en.wikipedia.org/wiki/Recurrent_neural_network) * [維基百科上的長短期記憶](https://en.wikipedia.org/wiki/Long_short-term_memory) * [反復神經網絡的不合理效力](http://karpathy.github.io/2015/05/21/rnn-effectiveness/)作者：Andrej Karpathy * [了解LSTM網絡](http://colah.github.io/posts/2015-08-Understanding-LSTMs/) * [深入研究循環神經網絡](http://nikhilbuduma.com/2015/01/11/a-deep-dive-into-recurrent-neural-networks/) * [經常性網絡和LSTM初學者指南](http://deeplearning4j.org/lstm.html) 實施LSTM的熱門教程。 * [使用TensorFlow進行語言建模的LSTM](https://www.tensorflow.org/versions/r0.9/tutorials/recurrent/index.html) * [在Theano中進行口語理解的RNN](http://deeplearning.net/tutorial/rnnslu.html) * [LSTM用于Theano](http://deeplearning.net/tutorial/lstm.html) 的情感分析 LSTM的主要來源。 * [長期記憶](http://deeplearning.cs.cmu.edu/pdfs/Hochreiter97_lstm.pdf) [pdf]，1997年Hochreiter和Schmidhuber的論文 * [學會忘記：使用LSTM](http://www.mitpressjournals.org/doi/abs/10.1162/089976600300015015) 進行持續預測，2000年Schmidhuber和Cummins加上遺忘門 * [關于訓練循環神經網絡的難度](http://arxiv.org/pdf/1211.5063v2.pdf) [pdf]，2013 人們跟隨LSTM做了很多工作。 * [Alex Graves](http://www.cs.toronto.edu/~graves/) * [JürgenSchmidhuber](http://people.idsia.ch/~juergen/) * [Ilya Sutskever](http://www.cs.toronto.edu/~ilya/) * [Tomas Mikolov](http://www.rnnlm.org/) ## 摘要在這篇文章中，您發現了序列問題和可用于解決它們的循環神經網絡。具體來說，你學到了： * 經典前饋神經網絡的局限性以及循環神經網絡如何克服這些問題。 * 訓練復現神經網絡的實際問題及其克服方法。 * 用于創建深度循環神經網絡的長短期記憶網絡。您對深度循環神經網絡，LSTM或關于這篇文章有任何疑問嗎？在評論中提出您的問題，我會盡力回答。