如何加載和探索家庭用電數據 · Machine Learning Mastery 博客文章翻譯

# 如何加載和探索家庭用電數據 > 原文： [https://machinelearningmastery.com/how-to-load-and-explore-household-electricity-usage-data/](https://machinelearningmastery.com/how-to-load-and-explore-household-electricity-usage-data/) 鑒于智能電表的興起以及太陽能電池板等發電技術的廣泛采用，可提供大量的用電數據。該數據代表功率相關變量的多變量時間序列，而這些變量又可用于建模甚至預測未來的電力消耗。在本教程中，您將發現用于多步時間序列預測的家庭功耗數據集，以及如何使用探索性分析更好地理解原始數據。完成本教程后，您將了解： * 家庭用電量數據集，描述四年內單個房屋的用電量。 * 如何使用一系列線圖來探索和理解數據集，用于數據分布的系列數據和直方圖。 * 如何使用對問題的新理解來考慮預測問題的不同框架，可以準備數據的方式以及可以使用的建模方法。讓我們開始吧。 ![How to Load and Explore Household Electricity Usage Data](https://img.kancloud.cn/b7/bd/b7bd0dd9ffac28df17167c3bf7393fcc_640x383.jpg) 如何加載和探索家庭用電數據 [Sheila Sund](https://www.flickr.com/photos/sheila_sund/24762233519/) 的照片，保留一些權利。 ## 教程概述本教程分為五個部分;他們是： 1. 功耗數據集 2. 加載數據集 3. 隨著時間的推移觀察模式 4. 時間序列數據分布 5. 關于建模的想法 ## 家庭用電量數據集 [家庭用電量](https://archive.ics.uci.edu/ml/datasets/individual+household+electric+power+consumption)數據集是一個多變量時間序列數據集，描述了四年內單個家庭的用電量。該數據是在 2006 年 12 月至 2010 年 11 月之間收集的，并且每分鐘收集家庭內的能耗觀察結果。它是一個多變量系列，由七個變量組成（除日期和時間外）;他們是： * **global_active_power** ：家庭消耗的總有功功率（千瓦）。 * **global_reactive_power** ：家庭消耗的總無功功率（千瓦）。 * **電壓**：平均電壓（伏特）。 * **global_intensity** ：平均電流強度（安培）。 * **sub_metering_1** ：廚房的有功電能（瓦特小時的有功電能）。 * **sub_metering_2** ：用于洗衣的有功能量（瓦特小時的有功電能）。 * **sub_metering_3** ：氣候控制系統的有功電能（瓦特小時的有功電能）。有功和無功電能參考[交流電](https://en.wikipedia.org/wiki/AC_power)的技術細節。一般而言，有功能量是家庭消耗的實際功率，而無功能量是線路中未使用的功率。我們可以看到，數據集通過房屋中的主電路，特別是廚房，洗衣房和氣候控制，提供有功功率以及有功功率的某種劃分。這些不是家庭中的所有電路。通過首先將有功能量轉換為瓦特小時，然后以瓦時為單位減去其他亞計量有功能量，可以從有功能量計算剩余瓦特小時，如下所示： ```py sub_metering_remainder = (global_active_power * 1000 / 60) - (sub_metering_1 + sub_metering_2 + sub_metering_3) ``` 數據集似乎是在沒有開創性參考文件的情況下提供的。盡管如此，該數據集已成為評估多步預測的時間序列預測和機器學習方法的標準，特別是用于預測有功功率。此外，尚不清楚數據集中的其他特征是否可以使模型在預測有功功率方面受益。 ## 加載數據集數據集可以從 UCI 機器學習庫下載為單個 20 兆字節的.zip 文件： * [household_power_consumption.zip](https://archive.ics.uci.edu/ml/machine-learning-databases/00235/household_power_consumption.zip) 下載數據集并將其解壓縮到當前工作目錄中。您現在將擁有大約 127 兆字節的文件“ _household_power_consumption.txt_ ”并包含所有觀察結果檢查數據文件。以下是原始數據文件中的前五行數據（和標題）。 ```py Date;Time;Global_active_power;Global_reactive_power;Voltage;Global_intensity;Sub_metering_1;Sub_metering_2;Sub_metering_3 16/12/2006;17:24:00;4.216;0.418;234.840;18.400;0.000;1.000;17.000 16/12/2006;17:25:00;5.360;0.436;233.630;23.000;0.000;1.000;16.000 16/12/2006;17:26:00;5.374;0.498;233.290;23.000;0.000;2.000;17.000 16/12/2006;17:27:00;5.388;0.502;233.740;23.000;0.000;1.000;17.000 16/12/2006;17:28:00;3.666;0.528;235.680;15.800;0.000;1.000;17.000 ... ``` 我們可以看到數據列用分號分隔（'_;_ '）。據報道，該數據在該時間段內每天有一行。數據確實缺少值;例如，我們可以在 28/4/2007 左右看到 2-3 天的缺失數據。 ```py ... 28/4/2007;00:20:00;0.492;0.208;236.240;2.200;0.000;0.000;0.000 28/4/2007;00:21:00;?;?;?;?;?;?; 28/4/2007;00:22:00;?;?;?;?;?;?; 28/4/2007;00:23:00;?;?;?;?;?;?; 28/4/2007;00:24:00;?;?;?;?;?;?; ... ``` 我們可以通過將數據文件作為 Pandas DataFrame 加載并總結加載的數據來啟動。我們可以使用 [read_csv（）函數](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)來加載數據。使用此功能很容易加載數據，但正確加載它有點棘手。具體來說，我們需要做一些自定義的事情： * 將列之間的單獨值指定為分號（sep =';'） * 指定第 0 行具有列的名稱（header = 0） * 指定我們有大量的 RAM 來避免警告我們將數據作為對象數組而不是數組加載，因為缺少數據的'？'值（low_memory = False）。 * 指定 Pandas 在解析日期時嘗試推斷日期時間格式是可以的，這樣會更快（infer_datetime_format = True） * 指定我們要將日期和時間列一起解析為名為“datetime”的新列（parse_dates = {'datetime'：[0,1]}） * 指定我們希望新的“datetime”列成為 DataFrame 的索引（index_col = ['datetime']）。將所有這些放在一起，我們現在可以加載數據并匯總加載的形狀和前幾行。 ```py # load all data dataset = read_csv('household_power_consumption.txt', sep=';', header=0, low_memory=False, infer_datetime_format=True, parse_dates={'datetime':[0,1]}, index_col=['datetime']) # summarize print(dataset.shape) print(dataset.head()) ``` 接下來，我們可以使用帶有 NaN 值的“？”字符標記所有缺失值，這是一個浮點數。這將允許我們將數據作為一個浮點值數組而不是混合類型來處理，效率較低。 ```py # mark all missing values dataset.replace('?', nan, inplace=True) ``` 現在，我們可以使用上一節中的計算創建一個包含剩余子計量的新列。 ```py # add a column for for the remainder of sub metering values = dataset.values.astype('float32') dataset['sub_metering_4'] = (values[:,0] * 1000 / 60) - (values[:,4] + values[:,5] + values[:,6]) ``` 我們現在可以將清理后的數據集版本保存到新文件中;在這種情況下，我們只需將文件擴展名更改為.csv，并將數據集保存為“ _household_power_consumption.csv_ ”。 ```py # save updated dataset dataset.to_csv('household_power_consumption.csv') ``` 為了確認我們沒有弄亂，我們可以重新加載數據集并匯總前五行。 ```py # load the new file dataset = read_csv('household_power_consumption.csv', header=None) print(dataset.head()) ``` 將所有這些結合在一起，下面列出了加載，清理和保存數據集的完整示例。 ```py # load and clean-up data from numpy import nan from pandas import read_csv # load all data dataset = read_csv('household_power_consumption.txt', sep=';', header=0, low_memory=False, infer_datetime_format=True, parse_dates={'datetime':[0,1]}, index_col=['datetime']) # summarize print(dataset.shape) print(dataset.head()) # mark all missing values dataset.replace('?', nan, inplace=True) # add a column for for the remainder of sub metering values = dataset.values.astype('float32') dataset['sub_metering_4'] = (values[:,0] * 1000 / 60) - (values[:,4] + values[:,5] + values[:,6]) # save updated dataset dataset.to_csv('household_power_consumption.csv') # load the new dataset and summarize dataset = read_csv('household_power_consumption.csv', header=0, infer_datetime_format=True, parse_dates=['datetime'], index_col=['datetime']) print(dataset.head()) ``` 運行該示例首先加載原始數據并匯總加載數據的形狀和前五行。 ```py (2075259, 7) Global_active_power ... Sub_metering_3 datetime ... 2006-12-16 17:24:00 4.216 ... 17.0 2006-12-16 17:25:00 5.360 ... 16.0 2006-12-16 17:26:00 5.374 ... 17.0 2006-12-16 17:27:00 5.388 ... 17.0 2006-12-16 17:28:00 3.666 ... 17.0 ``` 然后清理數據集并將其保存到新文件中。我們加載這個新文件并再次打印前五行，顯示刪除日期和時間列以及添加新的子計量列。 ```py Global_active_power ... sub_metering_4 datetime ... 2006-12-16 17:24:00 4.216 ... 52.266670 2006-12-16 17:25:00 5.360 ... 72.333336 2006-12-16 17:26:00 5.374 ... 70.566666 2006-12-16 17:27:00 5.388 ... 71.800000 2006-12-16 17:28:00 3.666 ... 43.100000 ``` 我們可以查看新的' _household_power_consumption.csv_ '文件并檢查缺失的觀察結果是否用空列標記，大熊貓將正確讀作 NaN，例如第 190,499 行： ```py ... 2007-04-28 00:20:00,0.492,0.208,236.240,2.200,0.000,0.000,0.0,8.2 2007-04-28 00:21:00,,,,,,,, 2007-04-28 00:22:00,,,,,,,, 2007-04-28 00:23:00,,,,,,,, 2007-04-28 00:24:00,,,,,,,, 2007-04-28 00:25:00,,,,,,,, ... ``` 現在我們已經清理了數據集版本，我們可以使用可視化進一步調查它。 ## 隨著時間的推移觀察模式數據是多變量時間序列，理解時間序列的最佳方法是創建線圖。我們可以從為八個變量中的每一個創建單獨的線圖開始。下面列出了完整的示例。 ```py # line plots from pandas import read_csv from matplotlib import pyplot # load the new file dataset = read_csv('household_power_consumption.csv', header=0, infer_datetime_format=True, parse_dates=['datetime'], index_col=['datetime']) # line plot for each variable pyplot.figure() for i in range(len(dataset.columns)): pyplot.subplot(len(dataset.columns), 1, i+1) name = dataset.columns[i] pyplot.plot(dataset[name]) pyplot.title(name, y=0) pyplot.show() ``` 運行該示例將創建一個包含八個子圖的單個圖像，每個圖對應一個變量。這給了我們四分之一分鐘觀測的真正高水平。我們可以看到' _Sub_metering_3_ '（環境控制）中可能沒有直接映射到炎熱或寒冷年份的有趣事情。也許安裝了新系統。有趣的是，' _sub_metering_4_ '的貢獻似乎隨著時間的推移而減少，或呈現下降趨勢，可能與' _Sub_metering_3_ 系列末尾的穩固增長相匹配”。這些觀察確實強調了在擬合和評估任何模型時遵守該數據的子序列的時間順序的需要。我們或許可以在' _Global_active_power_ '和其他一些變量中看到季節性影響的波動。有一些尖刻的用法可能與特定時期相匹配，例如周末。 ![Line Plots of Each Variable in the Power Consumption Dataset](https://img.kancloud.cn/08/a1/08a155566d2893fd83d94ed34c5b7b5f_1280x960.jpg) 功耗數據集中每個變量的線圖讓我們放大并專注于' _Global_active_power_ '或'_ 有功功率 _'。我們可以為每年創建一個新的有效功率圖，以查看這些年來是否存在任何共同模式。 2006 年的第一年，有不到一個月的數據，所以將其從情節中刪除。下面列出了完整的示例。 ```py # yearly line plots from pandas import read_csv from matplotlib import pyplot # load the new file dataset = read_csv('household_power_consumption.csv', header=0, infer_datetime_format=True, parse_dates=['datetime'], index_col=['datetime']) # plot active power for each year years = ['2007', '2008', '2009', '2010'] pyplot.figure() for i in range(len(years)): # prepare subplot ax = pyplot.subplot(len(years), 1, i+1) # determine the year to plot year = years[i] # get all observations for the year result = dataset[str(year)] # plot the active power for the year pyplot.plot(result['Global_active_power']) # add a title to the subplot pyplot.title(str(year), y=0, loc='left') pyplot.show() ``` 運行該示例將創建一個包含四個線圖的單個圖像，一個數據集中的每年全年（或大部分為全年）數據。我們可以看到多年來的一些共同的總體模式，例如 2 月至 3 月左右和 8 月至 9 月左右，我們看到消費明顯減少。在夏季月份（北半球的年中），我們似乎也看到了下降的趨勢，并且可能在冬季月份向地塊的邊緣消耗更多。這些可能顯示出消費的年度季節性模式。我們還可以在至少第一，第三和第四個圖中看到一些缺失數據。 ![Line Plots of Active Power for Most Years](https://img.kancloud.cn/b0/c9/b0c9b3e871f6db7c8f69e89a27c2d4ed_1280x960.jpg) 大多數年份的有功功率線圖我們可以繼續放大消費量，并在 2007 年的 12 個月中查看有功功率。這可能有助于梳理整個月的總體結構，例如每日和每周模式。下面列出了完整的示例。 ```py # monthly line plots from pandas import read_csv from matplotlib import pyplot # load the new file dataset = read_csv('household_power_consumption.csv', header=0, infer_datetime_format=True, parse_dates=['datetime'], index_col=['datetime']) # plot active power for each year months = [x for x in range(1, 13)] pyplot.figure() for i in range(len(months)): # prepare subplot ax = pyplot.subplot(len(months), 1, i+1) # determine the month to plot month = '2007-' + str(months[i]) # get all observations for the month result = dataset[month] # plot the active power for the month pyplot.plot(result['Global_active_power']) # add a title to the subplot pyplot.title(month, y=0, loc='left') pyplot.show() ``` 運行該示例將創建一個包含 12 個線圖的單個圖像，2007 年每個月一個。我們可以看到每個月內的日耗電的符號波。這很好，因為我們期望在功耗方面有某種日常模式。我們可以看到，有很少的日子消費很少，例如 8 月和 4 月。這些可能代表住宅無人居住且耗電量最小的假期。 ![Line Plots for Active Power for All Months in One Year](https://img.kancloud.cn/28/d0/28d08a419148ef331d5040631414b8b5_1280x960.jpg) 一年內所有月的有功功率線圖最后，我們可以放大一個級別，并仔細查看每日級別的功耗。我們預計每天會有一些消費模式，也許一周內的天數差異。下面列出了完整的示例。 ```py # daily line plots from pandas import read_csv from matplotlib import pyplot # load the new file dataset = read_csv('household_power_consumption.csv', header=0, infer_datetime_format=True, parse_dates=['datetime'], index_col=['datetime']) # plot active power for each year days = [x for x in range(1, 20)] pyplot.figure() for i in range(len(days)): # prepare subplot ax = pyplot.subplot(len(days), 1, i+1) # determine the day to plot day = '2007-01-' + str(days[i]) # get all observations for the day result = dataset[day] # plot the active power for the day pyplot.plot(result['Global_active_power']) # add a title to the subplot pyplot.title(day, y=0, loc='left') pyplot.show() ``` 運行該示例將創建一個包含 20 個線圖的單個圖像，一個用于 2007 年 1 月的前 20 天。這些日子有共同之處;例如，很多天消費開始于凌晨 6 點到 7 點左右。有些日子顯示當天中午消費量下降，如果大多數人都不在家，這可能是有意義的。我們確實看到有些日子有一些強烈的隔夜消費，在北半球，1 月可能與使用的供暖系統相匹配。如預期的那樣，一年中的時間，特別是它帶來的季節和天氣，將是對這些數據進行建模的重要因素。 ![Line Plots for Active Power for 20 Days in One Month](https://img.kancloud.cn/37/25/3725e778a0e003208c688da745e45ec1_1280x960.jpg) 一個月內 20 天的有功功率線圖 ## 時間序列數據分布另一個需要考慮的重要領域是變量的分布。例如，知道觀測的分布是高斯分布還是其他分布可能是有趣的。我們可以通過查看直方圖來調查數據的分布。我們可以通過為時間序列中的每個變量創建直方圖來開始。下面列出了完整的示例。 ```py # histogram plots from pandas import read_csv from matplotlib import pyplot # load the new file dataset = read_csv('household_power_consumption.csv', header=0, infer_datetime_format=True, parse_dates=['datetime'], index_col=['datetime']) # histogram plot for each variable pyplot.figure() for i in range(len(dataset.columns)): pyplot.subplot(len(dataset.columns), 1, i+1) name = dataset.columns[i] dataset[name].hist(bins=100) pyplot.title(name, y=0) pyplot.show() ``` 運行該示例會為 8 個變量中的每個變量創建一個單獨的直方圖。我們可以看到，有功和無功功率，強度以及分計量功率都是偏向低瓦特小時或千瓦值的分布。我們還可以看到電壓數據的分布是強高斯分布的。 ![Histogram plots for Each Variable in the Power Consumption Dataset](https://img.kancloud.cn/2d/be/2dbed7dc14e1764b4bc5cded3e2489c7_1280x960.jpg) 功耗數據集中每個變量的直方圖有功功率的分布似乎是雙模態的，這意味著它看起來像有兩組平均觀察結果。我們可以通過查看四年全年數據的有功功耗分布來進一步研究。下面列出了完整的示例。 ```py # yearly histogram plots from pandas import read_csv from matplotlib import pyplot # load the new file dataset = read_csv('household_power_consumption.csv', header=0, infer_datetime_format=True, parse_dates=['datetime'], index_col=['datetime']) # plot active power for each year years = ['2007', '2008', '2009', '2010'] pyplot.figure() for i in range(len(years)): # prepare subplot ax = pyplot.subplot(len(years), 1, i+1) # determine the year to plot year = years[i] # get all observations for the year result = dataset[str(year)] # plot the active power for the year result['Global_active_power'].hist(bins=100) # zoom in on the distribution ax.set_xlim(0, 5) # add a title to the subplot pyplot.title(str(year), y=0, loc='right') pyplot.show() ``` 運行該示例將創建一個包含四個數字的單個圖，每個圖表在 2007 年到 2010 年之間的每一年。我們可以看到這些年來有功功率消耗的分布看起來非常相似。分布確實是雙峰的，一個峰值約為 0.3 千瓦，也許另一個峰值約為 1.3 千瓦。分配到更高的千瓦值有一個長尾。它可能為將數據離散化并將其分為峰 1，峰 2 或長尾的概念敞開大門。這些用于一天或一小時的組或群集可能有助于開發預測模型。 ![Histogram Plots of Active Power for Most Years](https://img.kancloud.cn/aa/4d/aa4dc1c012ecdd61fe08463ee8231623_1280x960.jpg) 大多數年份的有功功率直方圖所確定的群體可能在一年中的季節中變化。我們可以通過查看一年中每個月的有功功率分布來研究這一點。下面列出了完整的示例。 ```py # monthly histogram plots from pandas import read_csv from matplotlib import pyplot # load the new file dataset = read_csv('household_power_consumption.csv', header=0, infer_datetime_format=True, parse_dates=['datetime'], index_col=['datetime']) # plot active power for each year months = [x for x in range(1, 13)] pyplot.figure() for i in range(len(months)): # prepare subplot ax = pyplot.subplot(len(months), 1, i+1) # determine the month to plot month = '2007-' + str(months[i]) # get all observations for the month result = dataset[month] # plot the active power for the month result['Global_active_power'].hist(bins=100) # zoom in on the distribution ax.set_xlim(0, 5) # add a title to the subplot pyplot.title(month, y=0, loc='right') pyplot.show() ``` 運行該示例將創建一個包含 12 個圖的圖像，2007 年每個月一個。我們每個月可以看到相同的數據分布。圖中的軸似乎對齊（給定相似的比例），我們可以看到峰值在北半球溫暖的月份向下移動，并在較冷的月份向上移動。在 12 月至 3 月的較冷月份，我們還可以看到更大或更突出的尾部朝向更大的千瓦值。 ![Histogram Plots for Active Power for All Months in One Year](https://img.kancloud.cn/10/c8/10c866685c3ff5071cd75ec5af01267a_1280x960.jpg) 一年內所有月份的有功功率直方圖 ## 關于建模的想法現在我們知道了如何加載和探索數據集，我們可以提出一些關于如何建模數據集的想法。在本節中，我們將在處理數據時仔細研究三個主要方面;他們是： * 問題框架 * 數據準備 * 建模方法 ### 問題框架似乎沒有關于數據集的開創性出版物來演示在預測建模問題中構建數據的預期方法。因此，我們可能會猜測可能使用這些數據的有用方法。這些數據僅適用于單個家庭，但也許有效的建模方法可以推廣到類似的家庭。也許數據集最有用的框架是預測未來有效功耗的間隔。四個例子包括： * 預測第二天的每小時消耗量。 * 預測下周的每日消費量。 * 預測下個月的每日消費量。 * 預測下一年的月消費量。通常，這些類型的預測問題稱為多步預測。使用所有變量的模型可稱為多變量多步預測模型。這些模型中的每一個都不限于預測微小數據，而是可以將問題建模為所選預測分辨率或低于所選預測分辨率。按規模預測消費可以幫助公用事業公司預測需求，這是一個廣泛研究和重要的問題。 ### 數據準備在為建模準備這些數據時有很大的靈活性。具體的數據準備方法及其益處實際上取決于所選擇的問題框架和建模方法。不過，下面列出了可能有用的一般數據準備方法： * 每日差異可用于調整數據中的每日循環。 * 年度差異可用于調整數據中的任何年度周期。 * 歸一化可以幫助將具有不同單位的變量減少到相同的比例。有許多簡單的人為因素可能有助于數據的工程特征，反過來可能使特定的日子更容易預測。一些例子包括： * 指示一天中的時間，以說明人們回家的可能性。 * 指示一天是工作日還是周末。 * 指示某一天是否是北美公眾假期。這些因素對于預測月度數據可能要少得多，也許在每周數據的程度上要少得多。更一般的功能可能包括： * 指示季節，這可能導致使用的環境控制系統的類型或數量。 ### 建模方法對于這個問題，可能有四類方法可能很有趣;他們是： * 樸素的方法。 * 經典線性方法。 * 機器學習方法。 * 深度學習方法。 #### 樸素的方法樸素的方法將包括做出非常簡單但通常非常有效的假設的方法。一些例子包括： * 明天將和今天一樣。 * 明天將與去年的這一天相同。 * 明天將是過去幾天的平均值。 #### 經典線性方法經典線性方法包括對單變量時間序列預測非常有效的技術。兩個重要的例子包括： * SARIMA * ETS（三指數平滑）他們需要丟棄其他變量，并將模型的參數配置或調整到數據集的特定框架。還可以直接支持與調整日常和季節性結構數據相關的問題。 #### 機器學習方法機器學習方法要求將問題構成監督學習問題。這將要求將系列的滯后觀察框架化為輸入特征，從而丟棄數據中的時間關系。可以探索一套非線性和集合方法，包括： * k-最近鄰居。 * 支持向量機 * 決策樹 * 隨機森林 * 梯度增壓機需要特別注意確保這些模型的擬合和評估保留了數據中的時間結構。這很重要，因此該方法無法通過利用未來的觀測結果來“欺騙”。這些方法通常與大量變量無關，可能有助于弄清楚是否可以利用其他變量并為預測模型增加價值。 #### 深度學習方法通常，神經網絡在自回歸類型問題上未被證明非常有效。然而，諸如卷積神經網絡的技術能夠從原始數據（包括一維信號數據）自動學習復雜特征。并且諸如長短期存儲器網絡之類的循環神經網絡能夠直接學習輸入數據的多個并行序列。此外，這些方法的組合，例如 CNN LSTM 和 ConvLSTM，已經證明在時間序列分類任務上是有效的。這些方法可能能夠利用大量基于分鐘的數據和多個輸入變量。 ## 進一步閱讀如果您希望深入了解，本節將提供有關該主題的更多資源。 * [個人家庭用電量數據集，UCI 機器學習庫](https://archive.ics.uci.edu/ml/datasets/individual+household+electric+power+consumption)。 * [交流電源，維基百科。](https://en.wikipedia.org/wiki/AC_power#Active,_reactive,_and_apparent_power) * [pandas.read_csv API](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html) ## 摘要在本教程中，您發現了用于多步時間序列預測的家庭功耗數據集，以及如何使用探索性分析更好地理解原始數據。具體來說，你學到了： * 家庭用電量數據集，描述四年內單個房屋的用電量。 * 如何使用一系列線圖來探索和理解數據集，用于數據分布的系列數據和直方圖。 * 如何使用對問題的新理解來考慮預測問題的不同框架，可以準備數據的方式以及可以使用的建模方法。你有任何問題嗎？在下面的評論中提出您的問題，我會盡力回答。