編輯器 - 解碼器循環神經網絡全局注意的溫和介紹 · Machine Learning Mastery 博客文章翻譯

# 編輯器 - 解碼器循環神經網絡全局注意的溫和介紹 > 原文： [https://machinelearningmastery.com/global-attention-for-encoder-decoder-recurrent-neural-networks/](https://machinelearningmastery.com/global-attention-for-encoder-decoder-recurrent-neural-networks/) 編碼器 - 解碼器模型提供了使用循環神經網絡來解決具有挑戰性的序列到序列預測問題（例如機器翻譯）的模式。注意力是編碼器 - 解碼器模型的擴展，其改進了較長序列的方法的表現。全球關注是一種簡化的注意力，可能更容易在像Keras這樣的聲明式深度學習庫中實現，并且可能比傳統的注意機制獲得更好的結果。在這篇文章中，您將發現編碼器 - 解碼器循環神經網絡模型的全局關注機制。閱讀這篇文章后，你會知道： * 用于序列到序列預測問題的編碼器 - 解碼器模型，例如機器翻譯。 * 提高編碼器 - 解碼器模型在長序列上的表現的注意機制。 * 全球關注機制簡化了注意機制，可以取得更好的效果。讓我們開始吧。 ![Gentle Introduction to Global Attention for Encoder-Decoder Recurrent Neural Networks](img/a51f19d286d832f38884cd76cd955d38.jpg) 編輯器 - 解碼器循環神經網絡全球注意力的溫和介紹 [Kathleen Tyler Conklin](https://www.flickr.com/photos/ktylerconk/2400630645/) 的照片，保留一些權利。 ## 概觀本教程分為4個部分;他們是： 1. 編碼器 - 解碼器模型 2. 注意 3. 全球關注 4. 全球關注更多細節 ## 編碼器 - 解碼器模型編碼器 - 解碼器模型是組織循環神經網絡以解決序列到序列預測問題的一種方式，其中輸入和輸出時間步驟的數量不同。該模型是針對機器翻譯問題而開發的，例如將法語翻譯成英語。該模型涉及兩個子模型，如下： * **編碼器**：一種RNN模型，它將整個源序列讀取為固定長度編碼。 * **解碼器**：使用編碼輸入序列并對其進行解碼以輸出目標序列的RNN模型。下圖顯示了編碼器和解碼器模型之間的關系。 ![Example of an Encoder-Decode Network](img/b9d15d13323f81dd76b47ccf6e486d9d.jpg) 編碼器 - 解碼網絡的示例，取自“使用神經網絡的序列到序列學習”，2014。長短期記憶復現神經網絡通常用于編碼器和解碼器。描述源序列的編碼器輸出用于開始解碼過程，以到目前為止已經作為輸出生成的字為條件。具體地，用于輸入的最后時間步長的編碼器的隱藏狀態用于初始化解碼器的狀態。 > LSTM通過首先獲得由LSTM的最后隱藏狀態給出的輸入序列（x1，...，xT）的固定維度表示v，然后計算y1，...，yT'的概率來計算該條件概率。標準LSTM-LM公式，其初始隱藏狀態設置為x1，...，xT的表示v - [用神經網絡進行序列學習的序列](https://arxiv.org/abs/1409.3215)，2014。下圖顯示了源序列對上下文向量c的顯式編碼，該上下文向量c與目前生成的字一起使用以輸出目標序列中的下一個字。 ![Encoding of Source Sequence to a Context Vector Which is Then Decoded](img/eb11475e173e408cb8336ac787ebe54b.jpg) 將源序列編碼到隨后被解碼的上下文向量取自“使用RNN編碼器 - 解碼器進行統計機器翻譯的學習短語表示”，2014。 > 但是，yt和h（t）也都以yt-1和輸入序列的匯總c為條件。 - [使用RNN編碼器 - 解碼器進行統計機器翻譯的學習短語表示](https://arxiv.org/abs/1406.1078)，2014。 ## 注意編碼器 - 解碼器模型被證明是端到端模型，其在有挑戰性的序列到序列預測問題（例如機器翻譯）上表現良好。該模型似乎限于很長的序列。其原因被認為是源序列的固定長度編碼。 > 這種編碼器 - 解碼器方法的潛在問題是神經網絡需要能夠將源句子的所有必要信息壓縮成固定長度的向量。這可能使神經網絡難以處理長句，特別是那些比訓練語料庫中的句子長的句子。 - [通過聯合學習對齊和翻譯的神經機器翻譯](https://arxiv.org/abs/1409.0473)，2015。在2015年題為“_神經機器翻譯通過聯合學習對齊和翻譯_”的論文中，“Bahdanau，et al。描述了解決這個問題的注意機制。注意力是一種機制，其提供源序列的更豐富的編碼，從該源序列構造可由解碼器使用的上下文向量。注意允許模型了解源序列中的哪些編碼單詞要注意以及在預測目標序列中的每個單詞期間的程度。 ![Example of the Encoder-Decoder model with Attention](img/4bbb112f4950d22b53298dae19c3188c.jpg) 具有注意力的編碼器 - 解碼器模型示例取自“通過聯合學習對齊和翻譯的神經機器翻譯”，2015。從編碼器收集每個輸入時間步的隱藏狀態，而不是源序列的最后時間步的隱藏狀態。為目標序列中的每個輸出字專門構建上下文向量。首先，使用神經網絡對來自編碼器的每個隱藏狀態進行評分，然后歸一化為編碼器隱藏狀態的概率。最后，概率用于計算編碼器隱藏狀態的加權和，以提供要在解碼器中使用的上下文向量。有關Bahdanau注意力如何與工作示例一起使用的更全面解釋，請參閱帖子： * [編碼器 - 解碼器循環神經網絡中的注意事項如何工作](https://machinelearningmastery.com/how-does-attention-work-in-encoder-decoder-recurrent-neural-networks/) ## 全球關注在他們的論文“[基于注意力的神經機器翻譯的有效途徑](https://arxiv.org/abs/1508.04025)”，“斯坦福NLP研究人員 [Minh-Thang Luong](https://nlp.stanford.edu/~lmthang/) ，等。提出了一種用于機器翻譯的編碼器 - 解碼器模型的注意機制，稱為“全球關注”。它被提議作為Bahdanau等人提出的注意機制的簡化。在他們的論文“[通過聯合學習對齊和翻譯神經機器翻譯](https://arxiv.org/abs/1409.0473)。”在Bahdanau注意，注意力計算需要從前一時間步驟輸出解碼器。另一方面，全局注意力僅使用編碼器和解碼器的輸出用于當前時間步長。這使得在諸如Keras的向量化庫中實現它具有吸引力。 > ......我們的計算路徑更簡單;我們從ht - ＆gt; at - ＆gt; ct - ＆gt; ?然后做出預測[...]另一方面，在任何時間t，Bahdanau等人。（2015）從先前的隱藏狀態構建ht-1 - ＆gt; at - ＆gt; ct - ＆gt; ht，反過來，在進行預測之前，會經歷深度輸出和最大值。 - [基于注意力的神經機器翻譯的有效方法](https://arxiv.org/abs/1508.04025)，2015。該模型在Luong等人的評估中進行了評估。論文與Bahdanau等人提出的論文不同。（例如，反向輸入序列而不是雙向輸入，LSTM而不是GRU元素和使用丟失），然而，具有全局關注的模型的結果在標準機器翻譯任務上獲得了更好的結果。 > ......全球關注方法顯著提升了+2.8 BLEU，使我們的模型略好于Bahdanau等人的基礎注意系統。 — [Effective Approaches to Attention-based Neural Machine Translation](https://arxiv.org/abs/1508.04025), 2015. 接下來，讓我們仔細看看如何計算全球關注度。 ## 全球關注更多細節全球關注是循環神經網絡的注意編碼器 - 解碼器模型的擴展。雖然是為機器翻譯而開發的，但它與其他語言生成任務相關，例如字幕生成和文本摘要，甚至是序列預測任務。我們可以將全局關注的計算劃分為以下計算步驟，用于編碼器 - 解碼器網絡，其預測給定輸入序列的一個時間步長。請參閱論文了解相關方程式。 * **問題**。輸入序列作為編碼器（X）的輸入提供。 * **編碼**。編碼器RNN對輸入序列進行編碼并輸出相同長度（hs）的序列。 * **解碼**。解碼器解釋編碼并輸出目標解碼（ht）。 * **對齊**。使用目標解碼對每個編碼的時間步進行評分，然后使用softmax函數對得分進行歸一化。提出了四種不同的評分函數： * **dot** ：目標解碼和源編碼之間的點積。 * **general** ：目標解碼和加權源編碼之間的點積。 * **concat** ：一種神經網絡處理的級聯源編碼和目標解碼。 * **位置**：加權目標解碼的softmax。 * **上下文向量**。通過計算加權和來將對齊權重應用于源編碼，以得到上下文向量。 * **最終解碼**。使用tanh函數連接，加權和傳送上下文向量和目標解碼。最終解碼通過softmax傳遞，以預測輸出詞匯表中序列中下一個詞的概率。下圖提供了計算全局關注時數據流的高級概念。 ![Depiction of Global Attention in an Encoder-Decoder Recurrent Neural Network](img/cc69ae8ee9a0823d012d7ac1480ce2f5.jpg) 編碼器 - 解碼器循環神經網絡中全局關注的描述。取自“基于注意力的神經機器翻譯的有效方法”。作者評估了所有評分函數，并發現簡單的點評分函數似乎表現良好。 > 值得注意的是，dot對全球的關注效果很好...... — [Effective Approaches to Attention-based Neural Machine Translation](https://arxiv.org/abs/1508.04025), 2015. 由于更簡單和更多的數據流，全局關注可能是在聲明性深度學習庫中實現的良好候選者，例如TensorFlow，Theano和像Keras這樣的包裝器。 ## 進一步閱讀如果您希望深入了解，本節將提供有關該主題的更多資源。 ### 編碼器 - 解碼器 * [用神經網絡進行序列學習的序列](https://arxiv.org/abs/1409.3215)，2014。 * [使用RNN編碼器 - 解碼器進行統計機器翻譯的學習短語表示](https://arxiv.org/abs/1406.1078)，2014。 * [編碼器 - 解碼器長短期存儲器網絡](https://machinelearningmastery.com/encoder-decoder-long-short-term-memory-networks/) ### 注意 * [通過聯合學習對齊和翻譯的神經機器翻譯](https://arxiv.org/abs/1409.0473)，2014。 * [編碼器 - 解碼器循環神經網絡中的注意事項如何工作](https://machinelearningmastery.com/how-does-attention-work-in-encoder-decoder-recurrent-neural-networks/) ### 全球關注 * [基于注意力的神經機器翻譯的有效方法](https://arxiv.org/abs/1508.04025)，2015。 ## 摘要在這篇文章中，您發現了編碼器 - 解碼器循環神經網絡模型的全局關注機制。具體來說，你學到了： * 用于序列到序列預測問題的編碼器 - 解碼器模型，例如機器翻譯。 * 提高編碼器 - 解碼器模型在長序列上的表現的注意機制。 * 全球關注機制簡化了注意機制，可以取得更好的效果。你有任何問題嗎？在下面的評論中提出您的問題，我會盡力回答。