用于罕見事件時間序列預測的 LSTM 模型體系結構 · Machine Learning Mastery 博客文章翻譯

# 用于罕見事件時間序列預測的 LSTM 模型體系結構 > 原文： [https://machinelearningmastery.com/lstm-model-architecture-for-rare-event-time-series-forecasting/](https://machinelearningmastery.com/lstm-model-architecture-for-rare-event-time-series-forecasting/) 使用 LSTM 直接進行時間序列預測幾乎沒有成功。這是令人驚訝的，因為已知神經網絡能夠學習復雜的非線性關系，并且 LSTM 可能是能夠直接支持多變量序列預測問題的最成功的循環神經網絡類型。最近在 [Uber AI Labs](http://uber.ai/) 上進行的一項研究表明，LSTM 的自動特征學習功能及其處理輸入序列的能力如何在端到端模型中得到利用，可用于驅動需求預測適用于公眾假期等罕見事件。在本文中，您將發現一種為時間序列預測開發可擴展的端到端 LSTM 模型的方法。閱讀這篇文章后，你會知道： * 跨多個站點的多變量，多步驟預測的挑戰，在這種情況下是城市。 * 用于時間序列預測的 LSTM 模型架構，包括單獨的自動編碼器和預測子模型。 * 所提出的 LSTM 架構在罕見事件中的技能需求預測以及在不相關的預測問題上重用訓練模型的能力。讓我們開始吧。 ## 概觀在這篇文章中，我們將通過 [Nikolay Laptev](http://roseyu.com/time-series-workshop/) 等人回顧 2017 年題為“Uber 神經網絡的[時間序列極端事件預測”的論文。在 ICML 2017 時間序列研討會上發表。](http://roseyu.com/time-series-workshop/submissions/TSW2017_paper_3.pdf) 這篇文章分為四個部分;他們是： 1. 動機 2. 數據集 3. 模型 4. 發現 ## 動機該工作的目標是為多步驟時間序列預測開發端到端預測模型，該模型可以處理多變量輸入（例如，多輸入時間序列）。該模型的目的是預測優步駕駛員對乘車共享的需求，特別是預測具有挑戰性日子的需求，例如假期，其中經典模型的不確定性很高。通常，這種類型的假期需求預測屬于稱為極端事件預測的研究領域。 > 極端事件預測已成為估算乘車共享和其他應用的峰值電力需求，交通擁堵嚴重性和激增定價的熱門話題。事實上，有一個稱為極值理論（EVT）的統計分支直接處理這一挑戰。 - [優步神經網絡的時間序列極端事件預測](http://roseyu.com/time-series-workshop/submissions/TSW2017_paper_3.pdf)，2017。描述了兩種現有方法： * **經典預測方法**：每個時間序列開發模型時，可能根據需要擬合。 * **兩步法**：經典模型與機器學習模型結合使用。這些現有模型的難度激發了對單個端到端模型的需求。此外，還需要一個可以跨區域推廣的模型，特別是針對每個城市收集的數據。這意味著在一些或所有城市訓練的模型可用數據并用于在一些或所有城市進行預測。我們可以將此概括為一個模型的一般需求，該模型支持多變量輸入，進行多步預測，并在多個站點（在這種情況下為城市）中進行概括。 ## 數據集該模型適用于 Uber 數據集，該數據集包括美國頂級城市五年的匿名乘車共享數據。 > 在人口方面，美國各大城市完成旅行的五年歷史記錄用于提供美國所有主要假期的預測。 - [優步神經網絡的時間序列極端事件預測](http://roseyu.com/time-series-workshop/submissions/TSW2017_paper_3.pdf)，2017。每個預測的輸入包括每個騎行的信息，以及天氣，城市和假日變量。 > 為了避免缺乏數據，我們使用其他功能，包括天氣信息（例如降水，風速，溫度）和城市級信息（例如，當前旅行，當前用戶，當地假期）。 - [優步神經網絡的時間序列極端事件預測](http://roseyu.com/time-series-workshop/submissions/TSW2017_paper_3.pdf)，2017。下面的圖表提供了一年六個變量的樣本。 ![Scaled Multivariate Input for Model](https://img.kancloud.cn/cc/64/cc642da936bf77d619a5ce95e3a36cab_936x424.jpg) 模型的縮放多變量輸入來自“優步神經網絡的時間序列極端事件預測”。通過將歷史數據拆分為輸入和輸出變量的滑動窗口來創建訓練數據集。本文未指定實驗中使用的回顧和預測范圍的具體大小。 ![Sliding Window Approach to Modeling Time Series](https://img.kancloud.cn/bc/c4/bcc457f916ac333d4a7457cc577db6f2_974x402.jpg) 時間序列建模的滑動窗口方法取自“優步神經網絡的時間序列極端事件預測”。通過對每批樣品的觀察值進行標準化來縮放時間序列數據，并且每個輸入序列被去除趨勢，但是沒有去季節化。 > 神經網絡對未縮放的數據很敏感，因此我們將每個小批量標準化。此外，我們發現，與去調味相反，降低數據的趨勢可以產生更好的結果。 - [優步神經網絡的時間序列極端事件預測](http://roseyu.com/time-series-workshop/submissions/TSW2017_paper_3.pdf)，2017。 ## 模型 LSTM，例如 Vanilla LSTMs 在問題上進行了評估并表現出相對較差的表現。這并不奇怪，因為它反映了其他地方的發現。 > 我們最初的 LSTM 實施相對于最先進的方法沒有表現出優越的表現。 - [優步神經網絡的時間序列極端事件預測](http://roseyu.com/time-series-workshop/submissions/TSW2017_paper_3.pdf)，2017。使用了更精細的架構，包括兩個 LSTM 模型： * **特征提取器**：用于將輸入序列提取到特征向量的模型，該特征向量可以用作進行預測的輸入。 * **Forecaster** ：使用提取的特征和其他輸入進行預測的模型。開發了 LSTM 自動編碼器模型用作特征提取模型，并使用 [Stacked LSTM](https://machinelearningmastery.com/stacked-long-short-term-memory-networks/) 作為預測模型。 > 我們發現香草 LSTM 模型的表現比我們的基線差。因此，我們提出了一種新架構，它利用自動編碼器進行特征提取，與基線相比實現了卓越的表現。 - [優步神經網絡的時間序列極端事件預測](http://roseyu.com/time-series-workshop/submissions/TSW2017_paper_3.pdf)，2017。在進行預測時，首先將時間序列數據提供給自動編碼器，自動編碼器被壓縮為平均和連接的多個特征向量。然后將特征向量作為輸入提供給預測模型以進行預測。 > ...該模型首先通過自動特征提取對網絡進行填充，這對于在大規模特殊事件期間捕獲復雜的時間序列動態至關重要。 [...]然后通過集合技術（例如，平均或其他方法）聚合特征向量。然后將最終向量與新輸入連接并饋送到 LSTM 預測器進行預測。 - [優步神經網絡的時間序列極端事件預測](http://roseyu.com/time-series-workshop/submissions/TSW2017_paper_3.pdf)，2017。目前尚不清楚在進行預測時究竟是什么給自動編碼器提供了什么，盡管我們可能猜測這是一個多變量時間序列，用于預測在預測時間間隔之前觀察的城市。作為自動編碼器輸入的多變量時間序列將導致可以連接的多個編碼向量（每個系列一個）。目前尚不清楚平均在這一點上可能采取什么角色，盡管我們可能猜測它是執行自動編碼過程的多個模型的平均值。 ![Overview of Feature Extraction Model and Forecast Model](https://img.kancloud.cn/c0/17/c0170d12982f085830c07d7651f2b48a_1072x730.jpg) 特征提取模型和預測模型概述取自“優步神經網絡的時間序列極端事件預測”。作者評論說，可以將自動編碼器作為預測模型的一部分，并對此進行評估，但單獨的模型可以提高表現。 > 但是，擁有一個單獨的自動編碼器模塊可以在我們的經驗中產生更好的結果。 - [優步神經網絡的時間序列極端事件預測](http://roseyu.com/time-series-workshop/submissions/TSW2017_paper_3.pdf)，2017。在展示紙張時使用的幻燈片中提供了所開發模型的更多細節。自動編碼器的輸入是 512 LSTM 單位，自動編碼器中的瓶頸用于創建 32 或 64 LSTM 單位的編碼特征向量。 ![Details of LSTM Autoencoder for Feature Extraction](https://img.kancloud.cn/c1/7a/c17ac2527aacad524f4a6f4c647b7d6d_1972x1038.jpg) 用于特征提取的 LSTM 自動編碼器的詳細信息取自“優步神經網絡的時間序列極端事件預測”。使用'_ 新輸入 _'將編碼的特征向量提供給預測模型，盡管未指定此新輸入是什么;我們可以猜測這是一個時間序列，也許是預測區間之前的觀測預測的城市的多變量時間序列。或者，從這個系列中提取的特征[論文中的博客文章暗示](https://eng.uber.com/neural-networks/)（盡管我對這篇文章和幻燈片與此相矛盾時持懷疑態度）。該模型接受了大量數據的訓練，這是堆疊 LSTM 或一般 LSTM 的一般要求。 > 所描述的生產神經網絡模型在數千個時間序列上進行訓練，每個時間序列具有數千個數據點。 - [優步神經網絡的時間序列極端事件預測](http://roseyu.com/time-series-workshop/submissions/TSW2017_paper_3.pdf)，2017。在進行新的預測時，不會對該模型進行再訓練。還使用引導程序實現了估算預測不確定性的有趣方法。它分別使用自動編碼器和預測模型分別估計模型不確定性和預測不確定性。輸入被提供給給定模型并且使用了激活的丟失（如幻燈片中所評論的）。該過程重復 100 次，模型和預測誤差項用于預測不確定性的估計。 ![Overview of Forecast Uncertainty Estimation](https://img.kancloud.cn/fe/c4/fec4cc9cd32dab5bb141a474fe44e465_1006x396.jpg) 預測不確定性估計概述取自“優步神經網絡的時間序列極端事件預測”。這種預測不確定性的方法可能更好地描述于 2017 年論文“[優步時間序列的深度和自信預測](https://arxiv.org/abs/1709.01907)”。 ## 發現對該模型進行了評估，特別關注美國城市對美國假期的需求預測。沒有具體說明模型評估的具體情況。新的廣義 LSTM 預測模型被發現優于優步使用的現有模型，如果我們假設現有模型得到了很好的調整，這可能會令人印象深刻。 > 結果顯示，與包含單變量時間序列和機器學習模型的當前專有方法相比，預測精度提高了 2％-18％。 - [優步神經網絡的時間序列極端事件預測](http://roseyu.com/time-series-workshop/submissions/TSW2017_paper_3.pdf)，2017。然后將在 Uber 數據集上訓練的模型直接應用于由[約 1,500 個月的單變量時間序列預測數據集]組成的 [M3-競賽數據集](https://www.sciencedirect.com/science/article/pii/S0169207000000571)的子集。這是一種轉移學習，一種非常理想的目標，允許跨問題域重用深度學習模型。令人驚訝的是，該模型表現良好，與表現最佳的方法相比并不是很好，但比許多復雜模型更好。結果表明，可能通過微調（例如在其他轉移學習案例研究中完成），該模型可以重復使用并且技巧嫻熟。 ![Performance of LSTM Model Trained on Uber Data and Evaluated on the M3 Datasets Taken from "Time-series Extreme Event Forecasting with Neural Networks at Uber."](https://img.kancloud.cn/f2/f4/f2f4ff08b83b9f1053f5be85dc59729f_962x424.jpg) LSTM 模型在優步數據上的表現和對 M3 數據集的評估取自“優步神經網絡的時間序列極端事件預測”。重要的是，作者提出，深度 LSTM 模型對時間序列預測的最有益應用可能是： * 有大量的時間序列。 * 每個系列都有大量的觀察結果。 * 時間序列之間存在很強的相關性。 > 根據我們的經驗，選擇時間序列的神經網絡模型有三個標準：（a）時間序列的數量（b）時間序列的長度和（c）時間序列之間的相關性。如果（a），（b）和（c）高，則神經網絡可能是正確的選擇，否則經典的時間序列方法可能效果最好。 - [優步神經網絡的時間序列極端事件預測](http://roseyu.com/time-series-workshop/submissions/TSW2017_paper_3.pdf)，2017。通過本文介紹中使用的幻燈片很好地總結了這一點。 ![Lessons Learned Applying LSTMs for Time Series Forecasting](https://img.kancloud.cn/f1/c8/f1c89cb1fa455e39ac8c51bf6e77b80d_1908x1048.jpg) 應用 LSTM 進行時間序列預測的經驗教訓取自“優步神經網絡的時間序列極端事件預測”幻燈片。 ## 進一步閱讀如果您希望深入了解，本節將提供有關該主題的更多資源。 * [優步神經網絡的時間序列極端事件預測](http://roseyu.com/time-series-workshop/submissions/TSW2017_paper_3.pdf)，2017。 * [優步工程極端事件預測與循環神經網絡](https://eng.uber.com/neural-networks/)，2017 年。 * [優步神經網絡的時間序列建模](https://forecasters.org/wp-content/uploads/gravity_forms/7-c6dd08fee7f0065037affb5b74fec20a/2017/07/Laptev_Nikolay_ISF2017.pdf)，Slides，2017。 * [時間序列極端事件預測案例研究](https://prezi.com/l16la1_bmfii/time-series-extreme-event-forecasting-case-study/)，幻燈片 2018。 * [時間序列研討會，ICML 2017](http://roseyu.com/time-series-workshop/) * [優步時間序列的深度和自信預測](https://arxiv.org/abs/1709.01907)，2017。 ## 摘要在這篇文章中，您發現了一個可擴展的端到端 LSTM 模型，用于時間序列預測。具體來說，你學到了： * 跨多個站點的多變量，多步驟預測的挑戰，在這種情況下是城市。 * 用于時間序列預測的 LSTM 模型架構，包括單獨的自動編碼器和預測子模型。 * 所提出的 LSTM 架構在罕見事件中的技能需求預測以及在不相關的預測問題上重用訓練模型的能力。你有任何問題嗎？在下面的評論中提出您的問題，我會盡力回答。