RNN 變種 · 精通 TensorFlow 1.x

# RNN 變種 RNN 架構已經以多種方式擴展，以適應某些問題中的額外需求，并克服簡單 RNN 模型的缺點。我們列出了下面的 RNN 架構的一些主要擴展。 * **雙向** **RNN** （ **BRNN** ）用于輸出依賴于序列的前一個和后一個元素的情況。 BRNN 通過堆疊兩個 RNN（稱為前向和后向層）來實現，輸出是前向和后向層 RNN 的隱藏狀態的結果。在前向層中，存儲器狀態 h 從時間步長`t`流向時間步長`t + 1`，并且在后向層中，存儲器狀態從時間步長`t`流出。到時間步`t-1`。兩個層在時間步`t`時采用相同的輸入`x[t]`，但它們在時間步`t`共同產生輸出。 * **深雙向 RNN** （ **DBRNN** ）通過添加多個層進一步擴展 BRNN。 BRNN 在時間維度上隱藏了層或單元。但是，通過堆疊 BRNN，我們可以在 DBRNN 中獲得分層表示。其中一個顯著差異是，在 BRNN 中，我們對同一層中的每個單元使用相同的參數，但在 DBRNN 中，我們對每個堆疊層使用不同的參數。 * **長短期記憶** （ **LSTM** ）網絡通過使用涉及多個非線性函數而不是一個簡單非線性函數的架構來擴展 RNN 隱藏狀態。 LSTM 由稱為 **單元** 的黑盒組成，取三個輸入：時間`t-1`的工作記憶（`h[t-1]`），當前輸入（`x[t]`）和時間`t-1`的長期記憶（`c[t-1]`），并產生兩個輸出：更新的工作記憶（`h[t]`）和長期記憶（`c[t]`）。單元使用稱為門的功能來決定從內存中選擇性地保存和擦除的內容。我們在下面的部分中詳細描述了 LSTM。閱讀以下關于 LSTM 的研究論文，以獲得有關 LSTM 起源的更多信息： ``` S. Hochreiter and J. Schmidhuber, Long Short-Term Memory, Neural Comput., vol. 9, no. 8, pp. 1735–1780, 1997.http://www.bioinf.jku.at/publications/older/2604.pdf ``` * **門控遞歸單元** （ **GRU** ）網絡是 LSTM 的簡化變體。結合遺忘和輸入的功能，在更簡單的更新門中進行門控。它還將隱藏狀態和單元狀態組合成一個單一狀態。因此，與 LSTM 相比，GRU 在計算上更便宜。我們在下面的部分中詳細描述了 GRU。閱讀以下研究論文以探索 GRU 的更多細節： ``` K. Cho, B. van Merrienboer, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwenk, and Y. Bengio, Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation, 2014.https://arxiv.org/abs/1406.1078 J. Chung, C. Gulcehre, K. Cho, and Y. Bengio, Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling, pp. 1–9, 2014.?https://arxiv.org/abs/1412.3555 ``` * **seq2seq** 模型將編碼器 - 解碼器架構與 RNN 架構相結合。在 seq2seq 架構中，模型訓練數據序列，例如文本數據或時間序列數據，然后該模型用于生成輸出序列。例如，在英文文本上訓練模型，然后從模型生成西班牙文本。 seq2seq 模型由編碼器和解碼器模型組成，它們都使用 RNN 架構構建。可以堆疊 seq2seq 模型以構建分層多層模型。