長短時記憶循環神經網絡的注意事項 · Machine Learning Mastery 博客文章翻譯

# 長短時記憶循環神經網絡的注意事項 > 原文： [https://machinelearningmastery.com/attention-long-short-term-memory-recurrent-neural-networks/](https://machinelearningmastery.com/attention-long-short-term-memory-recurrent-neural-networks/) 編碼器 - 解碼器架構很受歡迎，因為它已經在一系列領域中展示了最先進的結果。該體系結構的局限性在于它將輸入序列編碼為固定長度的內部表示。這對可以合理學習的輸入序列的長度施加了限制，并且導致非常長的輸入序列的表現更差。在這篇文章中，您將發現尋求克服此限制的循環神經網絡的注意機制。閱讀這篇文章后，你會知道： * 編碼 - 解碼器架構和固定長度內部表示的限制。 * 克服限制的注意機制允許網絡在輸出序列中的每個項目的輸入序列中學習在哪里注意。 * 在諸如文本翻譯，語音識別等領域中具有循環神經網絡的注意機制的5種應用。讓我們開始吧。 ![Attention in Long Short-Term Memory Recurrent Neural Networks](img/6b7f73a63acc1b55c3051386e3319d80.jpg) 長期記憶循環神經網絡的注意事項 [Jonas Schleske](https://www.flickr.com/photos/jonasschleske/11457906754/) 的照片，保留一些權利。 ## 長序列的問題編碼器 - 解碼器循環神經網絡是這樣的架構，其中一組LSTM學習將輸入序列編碼成固定長度的內部表示，第二組LSTM讀取內部表示并將其解碼成輸出序列。這種架構已經在諸如文本翻譯等困難的序列預測問題上展示了最先進的結果，并迅速成為主導方法。例如，請參閱： * [用神經網絡進行序列學習的序列](https://arxiv.org/abs/1409.3215)，2014 * [使用RNN編碼器 - 解碼器進行統計機器翻譯的學習短語表示](https://arxiv.org/abs/1406.1078)，2014 編碼器 - 解碼器架構仍然在廣泛的問題上實現了出色的結果。然而，它受到所有輸入序列被強制編碼為固定長度內部向量的約束。這被認為限制了這些網絡的表現，特別是在考慮長輸入序列時，例如文本翻譯問題中的非常長的句子。 > 這種編碼器 - 解碼器方法的潛在問題是神經網絡需要能夠將源句子的所有必要信息壓縮成固定長度的向量。這可能使神經網絡難以處理長句，特別是那些比訓練語料庫中的句子長的句子。 - Dzmitry Bahdanau等，[神經機器翻譯通過聯合學習調整和翻譯](https://arxiv.org/abs/1409.0473)，2015 ## 序列中的注意事項注意是將編碼器 - 解碼器架構從固定長度內部表示中釋放出來的想法。這是通過保持來自編碼器LSTM的中間輸出來自輸入序列的每個步驟并訓練模型以學習選擇性地關注這些輸入并將它們與輸出序列中的項目相關聯來實現的。換句話說，輸出序列中的每個項都取決于輸入序列中的選擇項。 > 每次所提出的模型在翻譯中生成單詞時，它（軟）搜索源語句中的一組位置，其中最相關的信息被集中。然后，模型基于與這些源位置和所有先前生成的目標詞相關聯的上下文向量來預測目標詞。 > > ...它將輸入句子編碼成一系列向量，并在解碼翻譯時自適應地選擇這些向量的子集。這使得神經翻譯模型不必將源句的所有信息（無論其長度）壓縮成固定長度的向量。 — Dzmitry Bahdanau, et al., [Neural machine translation by jointly learning to align and translate](https://arxiv.org/abs/1409.0473), 2015 這增加了模型的計算負擔，但產生了更有針對性和更好表現的模型。此外，該模型還能夠顯示在預測輸出序列時如何關注輸入序列。這有助于理解和診斷模型正在考慮的具體內容以及特定輸入 - 輸出對的程度。 > 所提出的方法提供了一種直觀的方式來檢查生成的翻譯中的單詞與源句中的單詞之間的（軟）對齊。這是通過可視化注釋權重來完成的......每個圖中矩陣的每一行都表示與注釋相關的權重。由此我們看到源句中哪些位置在生成目標詞時被認為更重要。 — Dzmitry Bahdanau, et al., [Neural machine translation by jointly learning to align and translate](https://arxiv.org/abs/1409.0473), 2015 ## 大圖像問題應用于計算機視覺問題的卷積神經網絡也受到類似的限制，其中在非常大的圖像上學習模型可能是困難的。結果，可以對大圖像進行一系列的瞥見，以在進行預測之前形成圖像的近似印象。 > 人類感知的一個重要特性是人們不會傾向于一次完整地處理整個場景。相反，人們將注意力有選擇地集中在視覺空間的某些部分上以在需要的時間和地點獲取信息，并且隨著時間的推移組合來自不同注視的信息以建立場景的內部表示，指導未來的眼睛運動和決策。 - [視覺注意的復發模型](https://arxiv.org/abs/1406.6247)，2014 這些基于瞥見的修改也可能被視為關注，但在本文中未予考慮。看文件。 * [視覺注意的復發模型](https://arxiv.org/abs/1406.6247)，2014 * [DRAW：用于圖像生成的循環神經網絡](https://arxiv.org/abs/1502.04623)，2014 * [具有視覺注意力的多目標識別](https://arxiv.org/abs/1412.7755)，2014 ## 5序列預測中的注意事項本節提供了一些具體示例，說明如何將注意力用于具有循環神經網絡的序列預測。 ### 1.文本翻譯中的注意力上面提到的激勵例子是文本翻譯。給定法語句子的輸入序列，翻譯并輸出英語句子。注意用于注意輸出序列中每個單詞的輸入序列中的特定單詞。 > 我們通過在生成每個目標字時對模型（軟）搜索一組輸入字或由編碼器計算的注釋來擴展基本編碼器 - 解碼器。這使得模型不必將整個源句子編碼成固定長度的向量，并且還使模型僅關注與下一個目標詞的生成相關的信息。 — Dzmitry Bahdanau, et al., [Neural machine translation by jointly learning to align and translate](https://arxiv.org/abs/1409.0473), 2015 ![Attentional Interpretation of French to English Translation](img/84a928d27c8fcd69c6a233f2311b42f5.jpg) 法語與英語翻譯的注意解釋摘自Dzmitry Bahdanau等人，通過聯合學習對齊和翻譯的神經機器翻譯，2015 ### 2.圖像描述中的注意事項與瞥見方法不同，基于序列的注意機制可以應用于計算機視覺問題，以幫助了解如何在輸出序列（例如標題）時最好地使用卷積神經網絡來關注圖像。給定圖像的輸入，輸出圖像的英文描述。注意用于將焦點集中在輸出序列中每個單詞的圖像的不同部分。 > 我們提出了一種基于注意力的方法，它可以在三個基準數據集上提供最先進的表現...我們還展示了如何利用學習的注意力來為模型生成過程提供更多的可解釋性，并證明學習的對齊與人類的直覺非常吻合。。 ![Attentional Interpretation of Output Words to Specific Regions on the Input Images](img/7c9d7379afcea5a9304506757b644b73.jpg) 輸入圖像輸出圖像的注意解釋取自顯示，參與和告訴：神經圖像標題生成與視覺注意，2016 - [顯示，參與和講述：視覺注意的神經圖像標題生成](https://arxiv.org/abs/1502.03044)，2016 ### 3.蘊涵中的注意力給出一個前提情景和關于英語情景的假設，輸出前提是否矛盾，是否相關，或是否有假設。例如： * 前提：“_婚禮派對拍照_” * 假設：“_有人結婚_” 注意用于將假設中的每個單詞與前提中的單詞相關聯，反之亦然。 > 我們提出了一個基于LSTM的神經模型，它一次讀取兩個句子來確定蘊涵，而不是將每個句子獨立地映射到語義空間。我們用神經逐字注意機制來擴展這個模型，以鼓勵對詞語和短語對的蘊涵進行推理。 ......具有逐字神經注意力的擴展超越了這一強大的基準LSTM結果2.6個百分點，創造了一種新的最先進的準確性...... - [關于神經注意蘊涵的推理](https://arxiv.org/abs/1509.06664)，2016年 ![Attentional Interpretation of Premise Words to Hypothesis Words](img/92842ce7592dd8bdcbdb7a935a63e77e.jpg) 關于假設詞的前提詞的注意解釋摘自2016年神經注意蘊涵的推理 ### 4.語音識別中的注意力給定英語語音片段的輸入序列，輸出一系列音素。注意用于將輸出序列中的每個音素與輸入序列中的特定音頻幀相關聯。 > ...基于混合注意機制的新穎的端到端可訓練語音識別架構，其結合內容和位置信息以便選擇輸入序列中的下一個位置用于解碼。所提出的模型的一個理想特性是它能夠比它訓練的那些更長時間地識別話語。 - [基于注意力的語音識別模型](https://arxiv.org/abs/1506.07503)，2015。 ![Attentional Interpretation of Output Phoneme Location to Input Frames of Audio](img/4c55d3fee574b2e75acb9de41fef52c6.jpg) 從基于注意力的語音識別模型中獲取音頻輸入幀的輸出音素位置的注意解釋，2015 ### 5.文本摘要中的注意事項給定英文文章的輸入序列，輸出一系列總結輸入的英語單詞。注意用于將輸出摘要中的每個單詞與輸入文檔中的特定單詞相關聯。 > 基于神經機器翻譯的最新發展，基于神經注意的抽象概括模型。我們將此概率模型與生成算法相結合，生成算法可生成準確的抽象摘要。 - [抽象句概括的神經注意模型](https://arxiv.org/abs/1509.00685)，2015 ![Attentional Interpretation of Words in the Input Document to the Output Summary](img/3288c0f09f830affad8c2f41fcd42676.jpg) 輸入文件中輸入文字中詞匯的注意解釋摘自抽象句概括的神經注意模型，2015。 ## 進一步閱讀如果您想了解有關增加對LSTM的關注的更多信息，本節將提供其他資源。 * [深度學習和NLP中的注意力和記憶](http://www.wildml.com/2016/01/attention-and-memory-in-deep-learning-and-nlp/) * [注意機制](https://blog.heuritech.com/2016/01/20/attention-mechanism/) * [應用于NLP的基于注意力模型的調查](http://yanran.li/peppypapers/2015/10/07/survey-attention-model-1.html) * [RNN引入的注意機制究竟是什么？ Quora上的](https://www.quora.com/What-is-exactly-the-attention-mechanism-introduced-to-RNN-recurrent-neural-network-It-would-be-nice-if-you-could-make-it-easy-to-understand)。 * [什么是神經網絡中的注意機制？](https://www.quora.com/What-is-Attention-Mechanism-in-Neural-Networks) 在撰寫本文時，Keras并未提供開箱即用的注意事項，但很少有第三方實施。看到： * [使用Keras進行問答的深度語言建模](http://ben.bolte.cc/blog/2016/language.html) * [注意模型可用！](https://github.com/fchollet/keras/issues/2067) * [Keras注意機制](https://github.com/philipperemy/keras-attention-mechanism) * [注意和增強循環神經網絡](http://distill.pub/2016/augmented-rnns/) * [如何在循環層（文本分類）](https://github.com/fchollet/keras/issues/4962)之上添加注意 * [注意機制實施問題](https://github.com/fchollet/keras/issues/1472) * [實施簡單的神經注意模型（用于填充輸入）](https://github.com/fchollet/keras/issues/2612) * [注意層需要另一個PR](https://github.com/fchollet/keras/issues/1094) * [seq2seq庫](https://github.com/farizrahman4u/seq2seq) 你知道在循環神經網絡中有一些關注的好資源嗎？請在評論中告訴我。 ## 摘要在這篇文章中，您發現了LSTM循環神經網絡的序列預測問題的注意機制。具體來說，你學到了： * 用于循環神經網絡的編碼器 - 解碼器架構使用固定長度的內部表示，其施加限制學習非常長的序列的約束。 * 該注意力通過允許網絡學習在哪里注意輸出序列中的每個項目的輸入來克服編碼 - 解碼器架構中的限制。 * 該方法已用于不同類型的序列預測問題，包括文本翻譯，語音識別等。您對復發神經網絡中的注意力有任何疑問嗎？在下面的評論中提出您的問題，我會盡力回答。