實用機器學習問題 · Machine Learning Mastery 博客文章翻譯

# 實用機器學習問題 > 原文： [https://machinelearningmastery.com/practical-machine-learning-problems/](https://machinelearningmastery.com/practical-machine-learning-problems/) 什么是機器學習？我們可以閱讀[機器學習](http://machinelearningmastery.com/what-is-machine-learning/ "What is Machine Learning: A Tour of Authoritative Definitions and a Handy One-Liner You Can Use")的權威定義，但實際上，機器學習是由正在解決的問題定義的。因此，了解機器學習的最佳方法是查看一些示例問題。在這篇文章中，我們將首先看一些現實世界中機器學習問題的眾所周知和理解的例子。然后，我們將查看標準機器學習問題的分類法（命名系統），并學習如何將問題識別為這些標準案例之一。這很有價值，因為了解我們面臨的問題類型可以讓我們考慮我們需要的數據以及要嘗試的算法類型。 ## 10 機器學習問題的例子機器學習問題比比皆是。它們構成了您每天在網絡或桌面上使用的軟件的核心或難點部分。想想推特上的“你想跟隨”的建議以及 Apple 的 Siri 中的言語理解。下面是 10 個機器學習的例子，它們真正奠定了機器學習的全部意義。 * **垃圾郵件檢測**：根據收件箱中的電子郵件，識別那些垃圾郵件和非垃圾郵件。擁有此問題的模型將允許程序將非垃圾郵件留在收件箱中并將垃圾郵件移動到垃圾郵件文件夾。我們都應該熟悉這個例子。 * **信用卡欺詐檢測**：給定一個月內客戶的信用卡交易，確定客戶和非客戶進行的交易。具有此決定模型的程序可以退還那些欺詐性交易。 * **數字識別**：給定一個手寫在信封上的郵政編碼，識別每個手寫字符的數字。該問題的模型將允許計算機程序讀取和理解手寫郵政編碼并按地理區域對信封進行排序。 * **語音理解**：給定用戶的話語，識別用戶提出的具體請求。該問題的模型將允許程序理解并嘗試滿足該請求。帶 Siri 的 iPhone 具有這種功能。 * **人臉檢測**：鑒于數百張數碼照片的數碼相冊，請識別包含特定人物的照片。該決策過程的模型將允許程序按人員組織照片。一些相機和像 iPhoto 這樣的軟件具有這種功能。 ![Face Detection](img/6744d0447f044faf679c34427ac885d3.jpg) 照片中的人臉檢測示例。先生的照片。 'sto 根據署名 - ShareAlike 2.0 通用知識共享許可獲得許可。 * **產品推薦**：鑒于客戶的購買歷史記錄和大量產品庫存，請確定該客戶將感興趣并可能購買的產品。該決策過程的模型將允許程序向客戶提出建議并激勵產品購買。亞馬遜有這種能力。還要考慮 Facebook，GooglePlus 和 LinkedIn，建議用戶在注冊后與您聯系。 * **醫學診斷**：鑒于患者和匿名患者記錄數據庫中顯示的癥狀，預測患者是否可能患病。程序可以使用該決策問題的模型來為醫療專業人員提供決策支持。 * **股票交易**：鑒于股票當前和過去的價格變動，確定該股票是否應該被買入，持有或賣出。這個決策問題的模型可以為金融分析師提供決策支持。 * **客戶細分**：鑒于用戶在試用期間的行為模式以及所有用戶的過去行為，請確定將轉換為產品付費版本的用戶和不轉換為付費版本的用戶。該決策問題的模型將允許程序觸發客戶干預以說服客戶提前或更好地參與試驗。 * **形狀檢測**：給定用戶手在觸摸屏上繪制形狀和已知形狀的數據庫，確定用戶試圖繪制的形狀。該決定的模型將允許程序顯示用戶繪制的用于制作清晰圖表的那種形狀的柏拉圖版本。 [Instaviz](http://instaviz.com) iPhone 應用程序就是這樣做的。這 10 個例子很好地理解了機器學習問題。有一個歷史性的例子，有一個需要建模的決定，一個企業或領域的好處，使自己的決策建模和有效。其中一些問題是人工智能中最難的問題，例如自然語言處理和機器視覺（人類很容易做的事情）。其他人仍然很難，但卻是機器學習的經典例子，如垃圾郵件檢測和信用卡欺詐檢測。想想你上周在線和離線軟件的一些互動。我相信你可以很容易地猜到你直接或間接使用的另外十或二十個機器學習的例子。 ## 機器學習問題的類型通過閱讀上面的示例機器學習問題列表，我相信你可以開始看到相似之處。這是一項有價值的技能，因為善于提取問題的本質將使您能夠有效地思考您需要哪些數據以及您應該嘗試哪種類型的算法。機器學習中存在常見的問題類別。下面的問題類是我們 _ 做 _ 機器學習時我們提到的大多數問題的原型。 * **分類**：數據被標記為意味著它被分配了一個類，例如垃圾郵件/非垃圾郵件或欺詐/非欺詐。建模的決定是為新的未標記數據分配標簽。這可以被認為是歧視問題，模擬群體之間的差異或相似性。 * **回歸**：數據標有實數值（想想浮點數），而不是標簽。易于理解的示例是時間序列數據，如股票價格隨時間的變化，建模的決策是預測新的不可預測數據的值。 * **聚類**：數據沒有標記，但可以根據數據中自然結構的相似性和其他度量進行分組。上面列表中的一個示例是通過沒有名稱的面部組織圖片，其中人類用戶必須為組指定名稱，例如 Mac 上的 iPhoto。 * **規則提取**：數據被用作提取命題規則的基礎（先行/結果又名 _if-then_ ）。這樣的規則可以但通常不是針對性的，這意味著方法發現數據中的屬性之間的統計上可支持的關系，不一定涉及正被預測的事物。一個例子是發現購買[啤酒和尿布](https://www.google.com/search?q=data+mining+beer+and+diapers)之間的關系（這是數據挖掘民間法，無論是否真實，它是對欲望和機會的說明）。當您認為問題是機器學習問題（需要根據數據建模的決策問題）時，請考慮您可以輕松地將其置于何種類型的問題或客戶或要求要求和工作的結果類型向后。 ## 資源幾乎沒有資源提供真實世界機器學習問題的列表。他們可能在那里，但我找不到他們。我仍然為你找到了一些很酷的資源： * [年度“Humies”獎](http://www.genetic-programming.org/combined.php)：這些是通過算法獲得的獎品清單，這些算法與人類提出的結果相競爭。這令人興奮，因為這些算法只能從數據或成本函數中運作，并且能夠具有創造性和創造性，足以侵犯專利。驚人！ * [AI 效應](http://en.wikipedia.org/wiki/AI_effect)：一旦人工智能程序獲得足夠好的結果，它就不再被視為人工智能，而只是技術并且在日常事物中被使用。同樣適用于機器學習。 * [AI-Complete](http://en.wikipedia.org/wiki/AI-complete) ：指的是人工智能中非常困難的問題，如果解決這個問題就會成為強 AI（AI 在科幻小說中設想的，真正的 AI）的一個例子。計算機視覺和自然語言處理的問題都是 AI 完全問題的例子，也可能被認為是特定領域的機器學習問題類別。 * [2013 年機器學習的十大問題是什么？](http://www.quora.com/Machine-Learning/What-are-the-Top-10-problems-in-Machine-Learning-for-2013) 這個 Quora 問題有一些很好的答案，并列出了一些廣泛的實際機器學習問題。我們已經回顧了現實世界機器學習問題的一些常見例子以及機器學習問題類別的分類。我們現在有信心評論問題是否是機器學習問題，并從問題描述中挑選元素并確定它是分類，回歸，聚類還是規則提取類型的問題。你知道更多現實世界的機器學習問題嗎？發表評論并分享您的想法。