LSTM 網絡 · 精通 TensorFlow 1.x

# LSTM 網絡當 RNN 在很長的數據序列上進行訓練時，梯度往往變得非常大或非常小，它們會消失到幾乎為零。 **長短期記憶**（ **LSTM** ）網絡通過添加用于控制對過去信息的訪問的門來解決消失/爆炸梯度問題。 LSTM 概念最初由 Hochreiter 和 Schmidhuber 在 1997 年引入。閱讀以下關于LSTM的研究論文，以獲得有關LSTM起源的更多信息： ``` S. Hochreiter and J. Schmidhuber, Long Short-Term Memory, Neural Comput., vol. 9, no. 8, pp. 1735–1780, 1997.?http://www.bioinf.jku.at/publications/older/2604.pdf ``` 在 RNN 中，使用重復使用的學習函數`φ`的單個神經網絡層，而在 LSTM 中，使用由四個主要函數組成的重復模塊。構建 LSTM 網絡的模塊稱為**單元**。 LSTM 單元通過選擇性地學習或擦除信息，有助于在長序列通過時更有效地訓練模型。組成單元的功能也稱為門，因為它們充當傳入和傳出單元的信息的網守。 LSTM 模型有兩種內存： * 用 _**h**_（隱藏狀態）表示的工作記憶 * 用 _**c**_（單元狀態）表示的長期記憶。單元狀態或長期記憶僅在兩個線性相互作用下從一個單元流向另一個單元。 LSTM 將信息添加到長期記憶中，或通過門從長期記憶中刪除信息。下圖描繪了 LSTM 單元： ![](https://img.kancloud.cn/bb/13/bb13365db9fef1090fb56aff3cedcfd2_585x294.png)The LSTM Cell 通過 LSTM 單元中的門的內部流動如下： 1. **遺忘門（或記憶門）`f()`**：`h[t-1]`和`x[t]`按照以下等式作為輸入流向`f()`門： ![](https://img.kancloud.cn/8a/65/8a655dbd361fb199051c2b4e738cc25b_3110x250.png) 遺忘門的功能是決定忘記哪些信息以及要記住哪些信息。這里使用`sigmoid`激活函數，因此輸出 1 表示信息被轉移到單元內的下一步驟，輸出 0 表示信息被選擇性地丟棄。 2. **輸入門（或保存門）`i()`**：`h[t-1]`和`x[t]`按照以下等式作為輸入流向`i()`門： ![](https://img.kancloud.cn/a7/be/a7be20576686a8cfa6101f3b4605dbc3_2990x250.png) 輸入門的功能是決定是保存還是丟棄輸入。輸入功能還允許單元了解要保留或丟棄的候選存儲器的哪個部分。 3. **候選長期記憶**：候選長期記憶由`h[t-1]`和`x[t]`使用激活函數計算，主要是`tanh`，按照下式： ![](https://img.kancloud.cn/8f/aa/8faa3cba23f7a8e89a9644ec2aa19506_3400x250.png) 4. 接下來，組合前面的三個計算以得到更新長期記憶，由`c[t]`表示，如下式所示： ![](https://img.kancloud.cn/3c/b4/3cb432ab4024ee2294430dfbdb87610d_2250x210.png) 5. **輸出門（或聚焦/關注門）`o()`**：`h[t-1]`和`x[t]`按照以下等式作為輸入流向`o()`門： ![](https://img.kancloud.cn/b1/7b/b17ba5e7e9d25622887b6725664ee1ca_3070x250.png) 輸出門的功能是決定多少信息可用于更新工作內存。 6. 接下來，工作記憶`h[t]`從長期記憶`c[t]`和焦點/注意力向量更新，如下式所示： ![](https://img.kancloud.cn/ae/54/ae54ee2485b5b339b7268acf6ac25f3b_1350x210.png) 其中`φ(·)`是激活函數，通常是`tanh`。