標準多變量，多步驟和多站點時間序列預測問題 · Machine Learning Mastery 博客文章翻譯

# 標準多變量，多步驟和多站點時間序列預測問題 > 原文： [https://machinelearningmastery.com/standard-multivariate-multi-step-multi-site-time-series-forecasting-problem/](https://machinelearningmastery.com/standard-multivariate-multi-step-multi-site-time-series-forecasting-problem/) 實時世界時間序列預測具有挑戰性，其原因不僅限于問題特征，例如具有多個輸入變量，需要預測多個時間步驟，以及需要對多個物理站點執行相同類型的預測。在這篇文章中，您將發現具有這些屬性的標準化但復雜的時間序列預測問題，但是它很小且充分理解，可用于探索和更好地理解在具有挑戰性的數據集上開發預測模型的方法。閱讀這篇文章后，你會知道： * 解決空氣質量數據集的競爭和動機。 * 概述定義的預測問題及其涵蓋的數據挑戰。 * 可以下載并立即開始使用的免費數據文件的說明。讓我們開始吧。 ![A Standard Multivariate, Multi-Step, and Multi-Site Time Series Forecasting Problem](https://img.kancloud.cn/fc/85/fc85f0d6473fdef3157937e7f30c26b2_640x426.jpg) 標準多變量，多步驟和多站點時間序列預測問題照[某人](https://www.flickr.com/photos/136665246@N05/32844473304/)，保留一些權利。 ## EMC 數據科學全球黑客馬拉松該數據集被用作 Kaggle 比賽的中心。具體而言，由數據科學倫敦和數據科學全球主辦的 24 小時黑客馬拉松作為大數據周活動的一部分，兩個組織現在似乎不存在，6 年后。比賽涉及數千美元的現金獎勵，數據集由伊利諾伊州庫克縣當地政府提供，建議數據集中提到的所有位置都在該地區。挑戰的動機是開發一個更好的預測空氣質量的模型，取自[競賽描述](https://www.kaggle.com/c/dsg-hackathon)： > EPA 的空氣質量指數每天被患有哮喘和其他呼吸系統疾病的人使用，以避免可能引發攻擊的危險水平的室外空氣污染物。據世界衛生組織統計，目前估計有 2.35 億人患有哮喘。在全球范圍內，它現在是兒童中最常見的慢性疾病，自 1980 年以來美國的發病率翻了一番。競賽描述表明，獲勝模型可以作為新的空氣質量預測系統的基礎，盡管尚不清楚是否為此目的轉換了任何模型。比賽是由一名 Kaggle 員工 [Ben Hamner](https://www.linkedin.com/in/ben-hamner-98759712/) 贏得的，根據利益沖突，他可能沒有收到獎金。 Ben 在博客文章中描述了他的獲勝方法，題為“[將所有東西放入隨機森林：Ben Hamner 贏得空氣質量預測黑客馬拉松](http://blog.kaggle.com/2012/05/01/chucking-everything-into-a-random-forest-ben-hamner-on-winning-the-air-quality-prediction-hackathon/)”并在 GitHub 上提供了他的[代碼。](https://github.com/benhamner/Air-Quality-Prediction-Hackathon-Winning-Model) 在這個論壇帖子中有一個很好的討論解決方案和相關代碼，標題為“[分區模型的一般方法？](https://www.kaggle.com/c/dsg-hackathon/discussion/1821) “。 ## 預測建模問題該數據描述了跨多個站點或物理位置的多變量時間序列的多步預測問題。隨著時間的推移進行多次天氣測量，預測在多個物理位置的特定未來時間間隔內的一系列空氣質量測量。這是一個具有挑戰性的時間序列預測問題，具有很多現實世界預測的質量： * **數據不完整**。并非所有天氣和空氣質量措施都適用于所有地點。 * **缺少數據**。并非所有可用的措施都有完整的歷史。 * **多變量輸入**：每個預測的模型輸入由多個天氣觀測組成。 * **多步輸出**：模型輸出是一系列不連續的預測空氣質量測量。 * **多站點輸出**：該模式必須為多個物理站點輸出多步預測。 ## 下載數據集文件該數據集可從 Kaggle 網站免費獲得。您必須先創建一個帳戶并使用 Kaggle 登錄，然后才能獲得下載數據集的權限。數據集可以從這里下載： * [競賽數據](https://www.kaggle.com/c/dsg-hackathon/data) ## 數據集文件的說明您必須單獨下載 4 個感興趣的文件;他們是： ### 文件：SiteLocations.csv 此文件包含由唯一標識符標記的站點位置列表，以及它們在地球上按經度和緯度測量的精確位置。所有坐標在西北半球似乎相對較近，例如美國。以下是該文件的示例。 ```py "SITE_ID","LATITUDE","LONGITUDE" 1,41.6709918952829,-87.7324568962847 32,41.755832412403,-87.545349670582 50,41.7075695897648,-87.5685738570845 57,41.9128621248178,-87.7227234452095 64,41.7907868783739,-87.6016464917605 ... ``` ### 文件：SiteLocations_with_more_sites.csv 此文件具有與 _SiteLocations.csv_ 相同的格式，并且似乎列出與該文件相同的所有位置以及一些其他位置。正如文件名所示，它只是網站列表的更新版本。以下是該文件的示例。 ```py "SITE_ID","LATITUDE","LONGITUDE" 1,41.6709918952829,-87.7324568962847 14,41.834243,-87.6238 22,41.6871654376343,-87.5393154841479 32,41.755832412403,-87.545349670582 50,41.7075695897648,-87.5685738570845 ... ``` ### 文件：TrainingData.csv 該文件包含用于建模的訓練數據。數據以非標準化的方式呈現。每行數據包含一組跨越多個位置的一小時的氣象測量值以及該小時的每個位置的目標或結果。措施包括： * 時間信息，包括時間塊，連續時間塊內的索引，平均月份，星期幾和一天中的小時。 * 風測量，如方向和速度。 * 溫度測量，例如最小和最大環境溫度。 * 壓力測量，如最小和最大氣壓。目標變量是不同物理位置的不同空氣質量或污染測量的集合。并非所有地點都有全天候測量，并非所有地點都與所有目標措施有關。此外，對于那些記錄的變量，存在標記為 NA 的缺失值。以下是該文件的示例。 ```py "rowID","chunkID","position_within_chunk","month_most_common","weekday","hour","Solar.radiation_64","WindDirection..Resultant_1","WindDirection..Resultant_1018","WindSpeed..Resultant_1","WindSpeed..Resultant_1018","Ambient.Max.Temperature_14","Ambient.Max.Temperature_22","Ambient.Max.Temperature_50","Ambient.Max.Temperature_52","Ambient.Max.Temperature_57","Ambient.Max.Temperature_76","Ambient.Max.Temperature_2001","Ambient.Max.Temperature_3301","Ambient.Max.Temperature_6005","Ambient.Min.Temperature_14","Ambient.Min.Temperature_22","Ambient.Min.Temperature_50","Ambient.Min.Temperature_52","Ambient.Min.Temperature_57","Ambient.Min.Temperature_76","Ambient.Min.Temperature_2001","Ambient.Min.Temperature_3301","Ambient.Min.Temperature_6005","Sample.Baro.Pressure_14","Sample.Baro.Pressure_22","Sample.Baro.Pressure_50","Sample.Baro.Pressure_52","Sample.Baro.Pressure_57","Sample.Baro.Pressure_76","Sample.Baro.Pressure_2001","Sample.Baro.Pressure_3301","Sample.Baro.Pressure_6005","Sample.Max.Baro.Pressure_14","Sample.Max.Baro.Pressure_22","Sample.Max.Baro.Pressure_50","Sample.Max.Baro.Pressure_52","Sample.Max.Baro.Pressure_57","Sample.Max.Baro.Pressure_76","Sample.Max.Baro.Pressure_2001","Sample.Max.Baro.Pressure_3301","Sample.Max.Baro.Pressure_6005","Sample.Min.Baro.Pressure_14","Sample.Min.Baro.Pressure_22","Sample.Min.Baro.Pressure_50","Sample.Min.Baro.Pressure_52","Sample.Min.Baro.Pressure_57","Sample.Min.Baro.Pressure_76","Sample.Min.Baro.Pressure_2001","Sample.Min.Baro.Pressure_3301","Sample.Min.Baro.Pressure_6005","target_1_57","target_10_4002","target_10_8003","target_11_1","target_11_32","target_11_50","target_11_64","target_11_1003","target_11_1601","target_11_4002","target_11_8003","target_14_4002","target_14_8003","target_15_57","target_2_57","target_3_1","target_3_50","target_3_57","target_3_1601","target_3_4002","target_3_6006","target_4_1","target_4_50","target_4_57","target_4_1018","target_4_1601","target_4_2001","target_4_4002","target_4_4101","target_4_6006","target_4_8003","target_5_6006","target_7_57","target_8_57","target_8_4002","target_8_6004","target_8_8003","target_9_4002","target_9_8003" 1,1,1,10,"Saturday",21,0.01,117,187,0.3,0.3,NA,NA,NA,14.9,NA,NA,NA,NA,NA,NA,NA,NA,5.8,NA,NA,NA,NA,NA,NA,NA,NA,747,NA,NA,NA,NA,NA,NA,NA,NA,750,NA,NA,NA,NA,NA,NA,NA,NA,743,NA,NA,NA,NA,NA,2.67923294292042,6.1816228132982,NA,0.114975168664303,0.114975168664303,0.114975168664303,0.114975168664303,0.114975168664303,0.114975168664303,0.114975168664303,NA,2.38965627997991,NA,5.56815355612325,0.690015329704154,NA,NA,NA,NA,NA,NA,2.84349016287551,0.0920223353681394,1.69321097077376,0.368089341472558,0.184044670736279,0.368089341472558,0.276067006104418,0.892616653070952,1.74842437199465,NA,NA,5.1306307034019,1.34160578423204,2.13879182993514,3.01375212399952,NA,5.67928016629218,NA 2,1,2,10,"Saturday",22,0.01,231,202,0.5,0.6,NA,NA,NA,14.9,NA,NA,NA,NA,NA,NA,NA,NA,5.8,NA,NA,NA,NA,NA,NA,NA,NA,747,NA,NA,NA,NA,NA,NA,NA,NA,750,NA,NA,NA,NA,NA,NA,NA,NA,743,NA,NA,NA,NA,NA,2.67923294292042,8.47583334194495,NA,0.114975168664303,0.114975168664303,0.114975168664303,0.114975168664303,0.114975168664303,0.114975168664303,0.114975168664303,NA,1.99138023331659,NA,5.56815355612325,0.923259948195698,NA,NA,NA,NA,NA,NA,3.1011527019063,0.0920223353681394,1.94167127626774,0.368089341472558,0.184044670736279,0.368089341472558,0.368089341472558,1.73922213845783,2.14412041407765,NA,NA,5.1306307034019,1.19577906855465,2.72209869264472,3.88871241806389,NA,7.42675098668978,NA 3,1,3,10,"Saturday",23,0.01,247,227,0.5,1.5,NA,NA,NA,14.9,NA,NA,NA,NA,NA,NA,NA,NA,5.8,NA,NA,NA,NA,NA,NA,NA,NA,747,NA,NA,NA,NA,NA,NA,NA,NA,750,NA,NA,NA,NA,NA,NA,NA,NA,743,NA,NA,NA,NA,NA,2.67923294292042,8.92192983362627,NA,0.114975168664303,0.114975168664303,0.114975168664303,0.114975168664303,0.114975168664303,0.114975168664303,0.114975168664303,NA,1.7524146053186,NA,5.56815355612325,0.680296803933673,NA,NA,NA,NA,NA,NA,3.06434376775904,0.0920223353681394,2.52141198908702,0.460111676840697,0.184044670736279,0.368089341472558,0.368089341472558,1.7852333061419,1.93246904273093,NA,NA,5.13639545700122,1.40965825154816,3.11096993445111,3.88871241806389,NA,7.68373198968942,NA 4,1,4,10,"Sunday",0,0.01,219,218,0.2,1.2,NA,NA,NA,14,NA,NA,NA,NA,NA,NA,NA,NA,4.8,NA,NA,NA,NA,NA,NA,NA,NA,751,NA,NA,NA,NA,NA,NA,NA,NA,754,NA,NA,NA,NA,NA,NA,NA,NA,748,NA,NA,NA,NA,NA,2.67923294292042,5.09824561921501,NA,0.114975168664303,0.114975168664303,0.114975168664303,0.114975168664303,0.114975168664303,0.114975168664303,0.114975168664303,NA,2.38965627997991,NA,5.6776192223642,0.612267123540305,NA,NA,NA,NA,NA,NA,3.21157950434806,0.184044670736279,2.374176252498,0.460111676840697,0.184044670736279,0.368089341472558,0.276067006104418,1.86805340797323,2.08890701285676,NA,NA,5.21710200739181,1.47771071886428,2.04157401948354,3.20818774490271,NA,4.83124285639335,NA 5,1,5,10,"Sunday",1,0.01,2,216,0.2,0.3,NA,NA,NA,14,NA,NA,NA,NA,NA,NA,NA,NA,4.8,NA,NA,NA,NA,NA,NA,NA,NA,751,NA,NA,NA,NA,NA,NA,NA,NA,754,NA,NA,NA,NA,NA,NA,NA,NA,748,NA,NA,NA,NA,NA,2.67923294292042,4.87519737337435,NA,0.114975168664303,0.114975168664303,0.114975168664303,0.114975168664303,0.114975168664303,0.114975168664303,0.114975168664303,NA,2.31000107064725,NA,5.6776192223642,0.694874592589394,NA,NA,NA,NA,NA,NA,3.67169118118876,0.184044670736279,2.46619858786614,0.460111676840697,0.184044670736279,0.368089341472558,0.276067006104418,1.70241320431058,2.60423209091834,NA,NA,5.21710200739181,1.45826715677396,2.13879182993514,3.4998411762575,NA,4.62565805399363,NA ... ``` ### 文件：SubmissionZerosExceptNAs.csv 此文件包含預測問題的提交樣本。每行指定在一段連續時間內針對給定小時的所有目標位置的每個目標度量的預測。以下是該文件的示例。 ```py "rowID","chunkID","position_within_chunk","hour","month_most_common","target_1_57","target_10_4002","target_10_8003","target_11_1","target_11_32","target_11_50","target_11_64","target_11_1003","target_11_1601","target_11_4002","target_11_8003","target_14_4002","target_14_8003","target_15_57","target_2_57","target_3_1","target_3_50","target_3_57","target_3_1601","target_3_4002","target_3_6006","target_4_1","target_4_50","target_4_57","target_4_1018","target_4_1601","target_4_2001","target_4_4002","target_4_4101","target_4_6006","target_4_8003","target_5_6006","target_7_57","target_8_57","target_8_4002","target_8_6004","target_8_8003","target_9_4002","target_9_8003" 193,1,193,21,10,0,0,-1e+06,0,0,0,0,0,0,0,-1e+06,0,-1e+06,0,0,-1e+06,-1e+06,-1e+06,-1e+06,-1e+06,-1e+06,0,0,0,0,0,0,0,0,0,-1e+06,-1e+06,0,0,0,0,-1e+06,0,-1e+06 194,1,194,22,10,0,0,-1e+06,0,0,0,0,0,0,0,-1e+06,0,-1e+06,0,0,-1e+06,-1e+06,-1e+06,-1e+06,-1e+06,-1e+06,0,0,0,0,0,0,0,0,0,-1e+06,-1e+06,0,0,0,0,-1e+06,0,-1e+06 195,1,195,23,10,0,0,-1e+06,0,0,0,0,0,0,0,-1e+06,0,-1e+06,0,0,-1e+06,-1e+06,-1e+06,-1e+06,-1e+06,-1e+06,0,0,0,0,0,0,0,0,0,-1e+06,-1e+06,0,0,0,0,-1e+06,0,-1e+06 196,1,196,0,10,0,0,-1e+06,0,0,0,0,0,0,0,-1e+06,0,-1e+06,0,0,-1e+06,-1e+06,-1e+06,-1e+06,-1e+06,-1e+06,0,0,0,0,0,0,0,0,0,-1e+06,-1e+06,0,0,0,0,-1e+06,0,-1e+06 197,1,197,1,10,0,0,-1e+06,0,0,0,0,0,0,0,-1e+06,0,-1e+06,0,0,-1e+06,-1e+06,-1e+06,-1e+06,-1e+06,-1e+06,0,0,0,0,0,0,0,0,0,-1e+06,-1e+06,0,0,0,0,-1e+06,0,-1e+06 ... ``` ## 構建預測問題這個預測問題的很大一部分挑戰是可以為建模設置問題的大量方法。這是具有挑戰性的，因為不清楚哪個框架可能是這個特定建模問題的最佳框架。例如，下面是一些問題，可以引發關于如何構建問題的思考。 * 是否更好地歸咎或忽略遺漏的觀察結果？ * 以時間序列的天氣觀測或僅觀察當前時間的觀測結果是否更好？ * 是否更好地使用來自一個或多個源位置的天氣觀測來進行預測？ * 為每個位置設置一個模型或為所有位置設置一個模式更好嗎？ * 每個預測時間有一個模型或者所有預測時間都有一個模型更好嗎？ ## 進一步閱讀如果您希望深入了解，本節將提供有關該主題的更多資源。 * [EMC 數據科學全球黑客馬拉松（空氣質量預測）](https://www.kaggle.com/c/dsg-hackathon) * [下載數據集](https://www.kaggle.com/c/dsg-hackathon/data) * [將所有東西放入隨機森林：Ben Hamner 贏得空氣質量預測黑客馬拉松](http://blog.kaggle.com/2012/05/01/chucking-everything-into-a-random-forest-ben-hamner-on-winning-the-air-quality-prediction-hackathon/) * [EMC 數據科學全球黑客馬拉松（空氣質量預測）的獲獎代碼](https://github.com/benhamner/Air-Quality-Prediction-Hackathon-Winning-Model) * [分區模型的一般方法？](https://www.kaggle.com/c/dsg-hackathon/discussion/1821) ## 摘要在這篇文章中，您發現了 Kaggle 空氣質量數據集，該數據集為復雜的時間序列預測提供了標準數據集。具體來說，你學到了： * 解決空氣質量數據集的競爭和動機。 * 概述定義的預測問題及其涵蓋的數據挑戰。 * 可以下載并立即開始使用的免費數據文件的說明。你有沒有研究過這個數據集，或者你打算做什么？在下面的評論中分享您的經歷。