<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                企業??AI智能體構建引擎,智能編排和調試,一鍵部署,支持知識庫和私有化部署方案 廣告
                # 使用探索性數據分析了解您的問題并獲得更好的結果 > 原文: [https://machinelearningmastery.com/understand-problem-get-better-results-using-exploratory-data-analysis/](https://machinelearningmastery.com/understand-problem-get-better-results-using-exploratory-data-analysis/) 您經常從應用機器學習中的問題跳到問題,并且需要快速掌握新數據集。 可以用來快速建立與新數據問題的關系的經典和未充分利用的方法是**探索性數據分析**。 在這篇文章中,您將發現探索性數據分析(EDA),您可以使用的技術和策略,以及為什么您應該在下一個問題上執行EDA。 [![Exploratory Data Analysis](https://img.kancloud.cn/87/6a/876a1e880de8875285f3475b460fe08e_634x640.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/11/Exploratory-Data-Analysis.jpg) 探索性數據分析 攝影: [Andy Lamb](https://www.flickr.com/photos/speedoflife/8273922515/) ,保留一些權利 ## 與數據建立關系 經典統計的過程是檢驗已經存在的關于該問題的假設。 這是通過擬合特定模型并演示數據中的特定關系來完成的。這是一種有效的方法,但它假設您已經對該問題有假設,您已經了解了數據。應用機器學習中很少出現這種情況。 在對數據建模并測試假設之前,您需要與數據建立關系。您可以通過花時間**總結**,**繪制**和**審查來自域的**實際真實數據來建立這種關系。 建模前的這種分析方法稱為探索性數據分析。 在預先花時間處理數據時,您可以建立對數據格式,值和關系的直覺,這有助于稍后解釋觀察和建模結果。 它被稱為探索性數據分析,因為您**正在探索您對數據**的理解,建立直覺,了解生成它的基礎過程如何工作,并激發您可以用作建模基礎的問題和想法。 該過程可用于對數據進行健全性檢查,識別異常值并提出處理它們的具體策略。花時間處理數據時,您可以發現可能表示數據記錄過程中出現故障的值中的損壞。 ## 探索性數據分析的起源 探索性數據分析由貝爾實驗室的 [John Tukey](http://en.wikipedia.org/wiki/John_Tukey) 開發,作為在開發關于數據的假設之前系統地使用統計工具的方法。它是“_驗證數據分析_”的替代或相反方法。 該過程的開創性描述在Tukey的1977年書[探索性數據分析](http://www.amazon.com/dp/0201076160?tag=inspiredalgor-20)中。 目的是了解問題以產生可測試的假設。因此,圖表和匯總統計數據等結果僅供您改善的理解,而不是為了向一般受眾展示數據中的關系。這為該過程提供了敏捷的味道。 [S語言](http://en.wikipedia.org/wiki/S_(programming_language))是在同一個實驗室開發的,并被用作EDA的工具。使用腳本生成數據摘要和視圖是該過程的自然和有意的契合。 維基百科提供了一個很好的 [EDA目標的簡短列表](http://en.wikipedia.org/wiki/Exploratory_data_analysis): * 建議關于觀察現象的原因的假設 * 評估統計推斷將基于的假設 * 支持選擇適當的統計工具和技術 * 為通過調查或實驗進一步收集數據提供依據 ## 探索性數據分析技術 探索性數據分析通常使用代表性的數據樣本進行。您不需要使用所有可用數據,也不需要使用大數據基礎架構。 花時間處理原始數據。 從眼球數字表開始是明智的。瀏覽表格可以快速突出顯示每個數據屬性的形式,明顯的變態和值中的大型大綱,并開始建議候選關系以探索屬性。做筆記。 可以使用簡單的單變量和多變量方法來提供數據視圖。 例如,我認為必須具備的五種方法是: * [五個數字摘要](http://en.wikipedia.org/wiki/Five-number_summary)(平均值/中位數,最小值,最大值,q1,q3) * [直方圖](http://en.wikipedia.org/wiki/Histogram)圖 * [折線圖](http://en.wikipedia.org/wiki/Line_chart) * [盒子和晶須圖](http://en.wikipedia.org/wiki/Box_plot) * 成對[散點圖](http://en.wikipedia.org/wiki/Scatter_plot)(散點圖矩陣) 除摘要外,還要查看數據的轉換和數據的重新縮放。清除可以描述的有趣結構。 做筆記。記下很多筆記。 詢問很多關于數據的問題,例如: * 你看到了什么價值觀? * 您看到了哪些發行版? * 你看到什么關系? * 您認為哪些關系可能有益于預測問題? * 關于域名的哪些想法會引發數據? * 并... ## 專注于理解 您沒有創建報告,而是試圖了解問題。 結果最終會被拋棄,所有你應該留下的是對數據的更多理解和直覺以及在建模時要探索的一長串假設。 代碼不需要漂亮(但它們需要是正確的)。使用可重現的腳本和標準包。 您無需深入了解高級統計方法或圖表。保持簡單并花時間處理數據。 像SQL這樣的查詢接口可以幫助您使用數據樣本快速播放大量的假設情景。 模型只會與您對數據和問題的問題和理解一樣好。 ## 資源 [![Amazon Image](https://img.kancloud.cn/7c/08/7c085ba7814a14d6bb34063254bc28cb_394x500.jpg)](http://www.amazon.com/dp/0961392142?tag=inspiredalgor-20) 書[做數據科學:從前線直接談話](http://www.amazon.com/dp/1449358659?tag=inspiredalgor-20)有一個關于EDA的簡短部分,并提供了一個很好的閱讀列表,以獲取更多信息: * [探索性數據分析](http://www.amazon.com/dp/0201076160?tag=inspiredalgor-20) * [定量信息的視覺顯示](http://www.amazon.com/dp/0961392142?tag=inspiredalgor-20)(強烈推薦) * [圖形數據元素](http://www.amazon.com/dp/0963488414?tag=inspiredalgor-20) * [用于可視化多變量數據的統計圖形](http://www.amazon.com/dp/0761908994?tag=inspiredalgor-20) 嘗試對您當前或下一個項目進行探索性數據分析。 如果您已經這樣做了,請嘗試一些您以前沒有使用過的方法或者嘗試系統化,甚至勾畫出要查看的事項清單,作為第一次傳遞數據的基礎。
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看