如何解決像數據科學家這樣的問題 · Machine Learning Mastery 博客文章翻譯

# 如何解決像數據科學家這樣的問題 > 原文： [https://machinelearningmastery.com/how-to-work-through-a-problem-like-a-data-scientist/](https://machinelearningmastery.com/how-to-work-through-a-problem-like-a-data-scientist/) 在2010年的一篇文章中，Hilary Mason和Chris Wiggins將OSEMN流程描述為數據科學家應該感到舒服的任務分類。該帖子的標題是“[數據科學分類](http://www.dataists.com/2010/09/a-taxonomy-of-data-science/)”，現已解散的數據庫博客。這個過程也被用作最近一本書的結構，特別是“命令行的[數據科學：面向未來的經過時間測試的工具](http://www.amazon.com/dp/1491947853?tag=inspiredalgor-20)”，作者是由O'Reilly出版的Jeroen Janssens。在這篇文章中，我們仔細研究了解決數據問題的OSEMN流程。 [![Work Through A Problem Like A Data Scientist](https://img.kancloud.cn/f2/fb/f2fb5445790298ab5a8bd1b5b45fbe80_640x426.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/12/Work-Through-A-Problem-Like-A-Data-Scientist.jpg) 像數據科學家一樣解決問題照片來自[美國陸軍RDECOM](http://www.flickr.com/photos/rdecom/7336886600) ，保留一些權利 ## OSEMN流程 OSEMN是與“負鼠”或“令人敬畏”押韻的縮寫，代表獲取，磨砂，探索，模型和iNterpret。這是數據科學家應該熟悉和熟悉的任務列表。盡管如此，作者指出，沒有數據科學家會成為所有這些人的專家。除了任務列表之外，OSEMN還可以用作使用機器學習工具處理數據問題的藍圖。從這個過程中，作者指出數據黑客符合“ _O_ ”和“ _S_ ”任務，機器學習符合“ _E_ ”和“ _M_ ”任務，而數據科學需要所有元素的組合。 ## 1.獲取數據作者指出，數據收集的手動過程不會擴展，您必須學習如何自動獲取給定問題所需的數據。他們指向手動過程，如使用鼠標指向和單擊，并從文檔中復制和粘貼數據。作者建議您采用一系列工具并使用最適合手頭工作的工具。他們指向unix命令行工具，數據庫中的SQL，使用Python和shell腳本進行Web抓取和腳本編寫。最后，作者指出了使用API??訪問數據的重要性，其中API可能是公共的，也可能是組織內部的。數據通常以JSON格式呈現，而像Python這樣的腳本語言可以使數據檢索變得更加容易。 ## 2.磨砂數據您獲得的數據將是混亂的。真實數據可能存在不一致，缺失值和各種其他形式的損壞。如果從困難的數據源中刪除它，可能需要跳閘和清理。即使是干凈的數據也可能需要進行后期處理才能使其統一和一致。數據清理或清理需要“命令行fu”和簡單的腳本。作者指出，數據清理是處理數據問題最不性感的部分，但良好的數據清理可以為您實現的結果提供最大的好處。 > 對干凈數據的簡單分析比對噪聲和不規則數據的復雜分析更有成效。作者指出了簡單的命令行工具，如sed，awk，grep和腳本語言，如Python和Perl。有關更多信息，請查看[數據準備過程](http://machinelearningmastery.com/how-to-prepare-data-for-machine-learning/ "How to Prepare Data For Machine Learning")。 ## 3.探索數據在這種情況下探索是指探索性數據分析。這是沒有正在測試的假設，也沒有正在評估的預測。數據探索對于了解您的數據，構建對其形式的直覺以及獲取數據轉換的想法以及甚至在此過程中使用的預測模型非常有用。作者列出了許多可能有助于此任務的方法： * 命令行工具，用于檢查更多，更少，頭部，尾部或其他任何數據。 * 直方圖總結了各個數據屬性的分布。 * 成對直方圖可以相互繪制屬性并突出顯示關系和異常值 * 維度減少方法，用于創建較低維度的圖和數據模型 * 聚類以暴露數據中的自然分組有關更多信息，請查看[探索性數據分析](http://machinelearningmastery.com/understand-problem-get-better-results-using-exploratory-data-analysis/ "Understand Your Problem and Get Better Results Using Exploratory Data Analysis")。 ## 4.模型數據模型精度通常是給定數據問題的最終目標。這意味著最具預測性的模型是選擇模型的過濾器。 > 通常，“最佳”模型是最具預測性的模型通常，目標是使用模型預測和解釋。可以定量地評估預測，而解釋更柔和和定性。模型的預測準確性可以通過它在看不見的數據上的表現來評估。可以使用諸如交叉驗證之類的方法來估計。您嘗試的算法以及您對可以為問題構建的可能模型的假設空間的偏差和減少。做出明智的選擇。有關更多信息，請查看[如何評估模型](http://machinelearningmastery.com/how-to-evaluate-machine-learning-algorithms/ "How to Evaluate Machine Learning Algorithms")和[如何進行抽樣檢查算法](http://machinelearningmastery.com/why-you-should-be-spot-checking-algorithms-on-your-machine-learning-problems/ "Why you should be Spot-Checking Algorithms on your Machine Learning Problems")。 ## 5.解釋結果 > 計算的目的是洞察力，而不是數字 - 理查德漢明作者使用手寫數字識別的例子。他們指出，這個問題的模型沒有每個數字的理論，而是一種區分數字的機制。此示例強調預測的關注點可能與模型解釋不同。事實上，他們可能會發生沖突。復雜模型可以是高度預測的，但是執行的術語或數據變換的數量可以使得理解為什么在域的上下文中進行特定預測幾乎是不可能的。模型的預測能力取決于其推廣的能力。作者認為，模型的解釋力是它能夠建議接下來要進行的最有趣的實驗。它提供了對問題和領域的見解。作者在選擇模型以平衡模型的預測性和可解釋性時指出了三個關鍵問題： * 選擇一個好的表示形式，您獲得的數據形式，大多數數據都是混亂的。 * 選擇好的功能，您選擇建模的數據的屬性 * 選擇一個良好的假設空間，受您選擇的模型和數據轉換的約束。有關更多信息，請查看[如何使用機器學習結果](http://machinelearningmastery.com/how-to-use-machine-learning-results/ "How to Use Machine Learning Results")。 ## 摘要在這篇文章中，你發現了Hilary Mason和Chris Wiggins提出的OSEMN。 OSEMN代表Obtain，Scrub，Explore，Model和iNterpret。與[數據庫中的知識發現](http://machinelearningmastery.com/what-is-data-mining-and-kdd/ "What is Data Mining and KDD")和[應用的機器學習過程](http://machinelearningmastery.com/process-for-working-through-machine-learning-problems/ "Process for working through Machine Learning Problems")類似，您可以使用此過程來解決機器學習問題。