在序列預測問題上充分利用LSTM · Machine Learning Mastery 博客文章翻譯

# 在序列預測問題上充分利用LSTM > 原文： [https://machinelearningmastery.com/get-the-most-out-of-lstms/](https://machinelearningmastery.com/get-the-most-out-of-lstms/) 長短期記憶（LSTM）循環神經網絡是一種強大的深度學習類型，適用于序列預測問題。使用LSTM時可能存在的一個問題是，模型增加的復雜性是否會提高模型的技能，或者實際上導致技能低于簡單模型。在這篇文章中，您將發現可以運行的簡單實驗，以確保您在序列預測問題上充分利用LSTM。閱讀這篇文章后，你會知道： * 如何測試模型是否在輸入數據中利用順序依賴性。 * 如何測試您的模型是否在LSTM模型中利用內存。 * 如何在擬合模型時測試模型是否正在利用BPTT。讓我們潛入。 ![Get the Most out of LSTMs on Your Sequence Prediction Problem](img/50e9ced216375d2605f191db0c0d19b5.jpg) 在你的序列預測問題上充分利用LSTM [DoD News](https://www.flickr.com/photos/dodnewsfeatures/25683075330/) 的照片，保留一些權利。 ## 3 LSTMS的能力 LSTM循環神經網絡具有一些關鍵功能，使該方法在廣泛的序列預測問題上具有令人印象深刻的能力。在不深入研究LSTM理論的情況下，我們可以總結一下我們可以在模型中配置的LSTM的一些離散行為： * **順序依賴**。序列預測問題需要觀察之間的排序，而較簡單的監督學習問題則不需要，并且該順序可以在訓練和預測之前隨機化。通過隨機化觀察的順序，可以將序列預測問題轉換為更簡單的形式。 * **記憶**。 LSTM在輸入序列中具有跨觀察的內部存儲器，而諸如多層感知器之類的簡單神經網絡則沒有。通過在每次輸入觀察后重置內部狀態，LSTM可能會丟失此內存。 * **BPTT** 。循環神經網絡使用訓練算法來估計輸入序列的所有時間步長上的權重更新的方向，而其他類型的網絡僅限于單個樣本（在兩種情況下不包括跨批次輸入的平均）。 LSTM可以通過處理一個長度的觀察序列來忽略梯度估計中先前時間步的誤差貢獻。這三種功能及其對更簡單形式的可配置性為您可以執行的3個實驗提供了基礎，可以準確了解LSTM的哪些屬性，并且可以利用序列預測問題。 ## 你在利用秩序依賴嗎？序列預測問題的一個關鍵特征是觀察之間存在順序依賴性。也就是說，觀察的順序很重要。 **假設**：預計觀察順序對于預測序列預測問題很重要。您可以通過使用僅將先前觀察作為輸入并對訓練和測試數據集進行混洗的模型來開發表現基線來檢查該假設是否成立。這可以通過多種方式實現。兩個示例實現包括： * 具有改組訓練和測試裝置的多層感知器（MLP）。 * LSTM具有改組訓練和測試集，每個樣本后更新和狀態重置（批量大小為1）。 **測試**：如果順序依賴對預測問題很重要，那么利用每個輸入序列中的觀察與輸入序列之間的順序的模型應該比沒有預測問題的模型實現更好的表現。 ## 你在利用LSTM內存嗎？ LSTM的一個關鍵功能是它們可以記住長輸入序列。也就是說，每個存儲器單元保持內部狀態，該內部狀態可以被認為是在進行預測時使用的局部變量。 **假設**：模型的內部狀態預計對模型技能很重要。您可以通過使用從一個樣本到下一個樣本沒有內存的模型開發表現基線來檢查這種假設是否成立。這可以通過在每次觀察之后重置LSTM的內部狀態來實現。 **測試**：如果內部存儲器對預測問題很重要，那么在輸入序列中具有跨越觀察結果的存儲器的模型應該比不存在的模型具有更好的表現。 ## 你是否正在利用反向傳播？訓練循環神經網絡的關鍵是反向傳播時間（BPTT）算法。該算法允許從序列中的所有觀察（或截斷的BPTT的情況下的子集）估計權重更新的梯度。 **假設**：預計BPTT權重更新算法對于序列預測問題的模型技能很重要。您可以通過開發表現基線來檢查此假設是否成立，其中梯度估計基于單個時間步長。這可以通過分割輸入序列來實現，使得每個觀察表示單個輸入序列。這與調度重量更新和重置內部狀態的時間無關。 **測試**：如果BPTT對預測問題很重要，那么估算多個時間步長的權重更新梯度的模型應該比使用單個時間步長的模型獲得更好的表現。 ## 摘要在這篇文章中，您發現了LSTM的三個關鍵功能，這些功能為該技術提供了強大的功能，以及如何根據您自己的序列預測問題測試這些屬性。特別： * 如何測試模型是否在輸入數據中利用順序依賴性。 * 如何測試您的模型是否在LSTM模型中利用內存。 * 如何在擬合模型時測試模型是否正在利用BPTT。你有任何問題嗎？將您的問題發布到下面的評論中，我會盡力回答。