<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                ??一站式輕松地調用各大LLM模型接口,支持GPT4、智譜、豆包、星火、月之暗面及文生圖、文生視頻 廣告
                # 數據清理:將凌亂的數據轉換為整潔的數據 > 原文: [https://machinelearningmastery.com/data-cleaning-turn-messy-data-into-tidy-data/](https://machinelearningmastery.com/data-cleaning-turn-messy-data-into-tidy-data/) 數據準備很困難,因為這個過程不客觀,或者至少它沒有這種感覺。諸如“_之類的問題,描述問題的最佳數據形式是什么?_ “不客觀。您必須從您想要解決的問題的角度思考,并通過您的管道嘗試一些不同的表示。 [Hadley Wickham](http://had.co.nz) 是萊斯大學的[兼職教授](http://www.linkedin.com/pub/hadley-wickham/13/9b6/31)和首席科學家以及 [RStudio](https://www.rstudio.com/) ,他對這個問題非常感興趣。他撰寫了一些最受歡迎的R軟件包,用于組織和呈現您的數據,例如reshape,plyr和ggplot2。在他的期刊文章 [Tidy Data](http://vita.had.co.nz/papers/tidy-data.pdf) 中,Wickham展示了他對數據清理的看法,并通過整潔的數據來定義他的意思。 [![tidy data](https://img.kancloud.cn/fd/bc/fdbc7295f2cac57e0663f78877c9d77e_232x300.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/05/tidy-data.jpg) Tidy Data,照片由 [Andrew King](https://www.flickr.com/photos/watt_dabney/5514730517) 拍攝 ## 數據清理 大量的數據分析時間用于[數據清理和準備數據](http://en.wikipedia.org/wiki/Data_cleansing),高達80%的時間。威克姆指出,這不是一次性的過程,它是迭代的,因為你在每次連續傳遞中更深入地理解問題。目標是構建數據以便于您計劃執行的數據分析。 ## 整潔的數據 Wickham的想法充分利用了關系數據庫的思想和計算機科學的數據庫規范化,盡管他的受眾是統計學家和數據分析師。他從定義術語開始,建議談論行和列不夠豐富: * 數據是給定類型的值的集合 * 每個值都屬于一個變量 * 每個變量都屬于一個觀察 * 觀察是單位的變量(如對象或事件)。 變量是列,觀察是行,觀察類型是表。傳統上,Wickham將此與關系數據庫理論中的第三范式相關聯。他還將變量的類型描述為固定和測量,并建議在表中測量之前組織固定。 * **固定變量**:一個變量,它是實驗設計的一部分,在實驗開始之前就已知(如人口統計學) * **測量變量**:在研究中測量的變量。 整潔數據的目標是將數據(語義)的含義映射到數據結構上。 ## 工作的例子 Wickham說真實數據集違反了整潔數據的原則。他描述了5個常見問題: * 列標題是值,而不是變量名 * 多個變量存儲在一列中 * 變量存儲在行和列中 * 多種類型的觀察單元存儲在同一個表中 * 單個觀察單元存儲在多個表中 然后他繼續提供每個問題的工作實例。他提供了每個問題的樣本真實世界數據,并演示了修復它的過程,使其整潔。 這些例子非常有啟發性,非常值得單獨閱讀這些工作示例的論文。他接著提供了一份更大的案例研究,其中包含墨西哥的死亡率數據。 [![tidy data](https://img.kancloud.cn/16/82/1682e3721c14bc2317df0b9ab293154f_211x300.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/05/tidy-data.png) Hadley Wickham提供的整潔數據 ## 整潔的數據工具 只有在數據整潔之后才對數據分析有用。整潔的數據使用專為整潔數據設計的工具輕松執行數據分析任務: * **操縱**:可變操作,如聚合,過濾,重新排序,轉換和排序。 * **可視化**:使用圖形和圖表匯總數據以進行探索和展示。 * **建模**:這是整潔數據的驅動靈感,建模就是我們要做的。 Wickham小心地指出,整潔的數據只是數據清理過程的一部分。整潔數據的其他區域包括解析變量類型(日期和數字),處理缺失值,字符編碼,拼寫錯誤和異常值。 他評論說,這項工作是基于他自己的咨詢和教學經驗,而且他的經驗是相當可觀的,因為他的R套餐是下載最多的。 ## 資源 Wickham似乎在2011年發布了這些想法。您可以在題為 [Timey Data on Vimeo](http://vimeo.com/33727555) 和[審查幻燈片](http://stat405.had.co.nz/lectures/18-tidy-data.pdf)(PDF)的演示文稿中觀看類似想法的演示。 &lt;iframe allowfullscreen="" frameborder="0" height="281" src="https://www.youtube.com/embed/TaxJwC_MP9Q?feature=oembed" width="500"&gt;&lt;/iframe&gt; Wickam還在2011年就#HTG0工程數據分析(使用R和ggplot2)提出了相同的想法。我也建議看這個演講。他強調了特定領域語言在這項工作中的重要性,如ggplot2(圖形語法)等。他還強調了使用編程語言進行這項工作(而不是excel)來獲得透明度,可重復性和自動化等屬性的重要性。使用相同的死亡率案例研究。 Wickam在他的論文中提到的一些你可能想要研究的好書包括: * [數據庫管理的關系模型:第2版](http://www.amazon.com/dp/0201141922?tag=inspiredalgor-20)關于關系數據庫理論和數據規范化。 * [探索性數據挖掘和數據清理](http://www.amazon.com/dp/0471268518?tag=inspiredalgor-20)關于數據清理和數據準備的最佳實踐。 * [圖形語法](http://www.amazon.com/dp/0387245448?tag=inspiredalgor-20)關于R和python圖表庫ggplot上使用的現在著名的圖形語法。 * [Lattice:R的多變量數據可視化(使用R!)](http://www.amazon.com/dp/0387759689?tag=inspiredalgor-20)在Lattice R軟件包上繪制數據圖表。
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看