發現特征工程，如何設計特征以及如何獲得它 · Machine Learning Mastery 博客文章翻譯

# 發現特征工程，如何設計特征以及如何獲得它 > 譯文： [https://machinelearningmastery.com/discover-feature-engineering-how-to-engineer-features-and-how-to-get-good-at-it/](https://machinelearningmastery.com/discover-feature-engineering-how-to-engineer-features-and-how-to-get-good-at-it/) 特征工程是一個非正式的主題，但絕對眾所周知并且同意成為應用機器學習成功的關鍵。在創建本指南的過程中，我進行了廣泛深入的研究，并綜合了所有可能的材料。您將發現什么是特征工程，它解決了什么問題，重要的原因，如何設計功能，誰做得好以及您可以去哪里學習更多并擅長它。如果您閱讀一篇關于特征工程的文章，我希望它是這一篇。 > 特征工程是另一個主題，似乎不值得任何評論論文或書籍，甚至書籍章節，但它對ML的成功絕對至關重要。 [...]機器學習的大部分成功實際上是學習器可以理解的工程特征的成功。 - Scott Locklin，“[被忽視的機器學習思路](https://scottlocklin.wordpress.com/2014/07/22/neglected-machine-learning-ideas/)” ## 特征工程解決的問題 [![Feature engineering is hard. Photo by Vik Nanda, some rights reserved](https://img.kancloud.cn/a8/c3/a8c309c5bf059917618abd36c405f86b_640x480.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/09/feature-engineering-is-hard.jpg) 特征工程很難。攝影： [Vik Nanda](https://www.flickr.com/photos/viknanda/371160360) ，保留一些權利當您的目標是從預測模型中獲得最佳結果時，您需要從所擁有的內容中獲得最大收益。這包括從您使用的算法中獲得最佳結果。它還涉及充分利用您的算法使用的數據。 **如何充分利用數據進行預測建模？** 這是特征工程的過程和實踐解決的問題。 > 實際上，所有機器學習算法的成功取決于您呈現數據的方式。 - Mohammad Pezeshki，回答“[每個數據科學家應該知道的關于特征選擇和工程的一些一般技巧是什么？](http://www.quora.com/What-are-some-general-tips-on-feature-selection-and-engineering-that-every-data-scientist-should-know) “ ## 特征工程的重要性數據中的功能將直接影響您使用的預測模型以及您可以實現的結果。您可以這樣說：您準備和選擇的功能越多，您獲得的結果就越好。這是事實，但也有誤導性。您獲得的結果是您選擇的模型，您可用的數據和您準備的功能的一個因素。即使你對問題的框架和你用來估計準確性的客觀措施起了作用。您的結果取決于許多相互依賴的屬性。您需要很好的功能來描述數據中固有的結構。 **更好的功能意味著靈活性**。您可以選擇“錯誤的模型”（低于最佳模型）并仍然可以獲得良好的結果。大多數模型可以在數據中獲得良好的結構。良好功能的靈活性允許您使用運行速度更快，更易于理解且更易于維護的不太復雜的模型。這是非常理想的。 **更好的功能意味著更簡單的模型**。憑借精心設計的功能，您可以選擇“錯誤的參數”（低于最佳值）并仍然獲得良好的結果，原因大致相同。您不需要努力選擇正確的模型和最優化的參數。通過良好的功能，您可以更接近底層問題，并可以表示您可用的所有數據，并可用于最好地表征潛在問題。 **更好的功能意味著更好的結果**。 > 我們使用的算法對于Kagglers來說非常標準。 [...]我們將大部分精力投入到功能工程中。 - Xavier Conort，在“ [Q＆amp; A與Xavier Conort](http://blog.kaggle.com/2013/04/10/qa-with-xavier-conort/) ”上贏得了對Kaggle的Flight Quest挑戰 ## 什么是特色工程？以下是我定義特征工程的方法： > 特征工程是將原始數據轉換為更能代表預測模型的基礎問題的特征的過程，從而提高了對看不見的數據的模型準確性。您可以在此定義中查看依賴項： * 您選擇的績效指標（RMSE？AUC？） * 問題的框架（分類？回歸？） * 你正在使用的預測模型（SVM？） * 您選擇和準備的原始數據（樣本？格式化？清潔？） > 特征工程是手動設計輸入x應該是什么 - Tomasz Malisiewicz，回答“[什么是特征工程？](http://www.quora.com/What-is-feature-engineering) “ ### 特征工程是一個表示問題機器學習算法從樣本數據中學習問題的解決方案。在此上下文中，特征工程要求：學習問題解決方案的樣本數據的最佳表示是什么？它太深了。在機器學習方面做得很好，即使在人工智能方面，也可以回到表示問題。知道要使用的最佳表示，_先驗_，這可能是不可知的（或者至多是難以處理的）。 > 你必須把你的輸入變成算法可以理解的東西 - Shayne Miel，回答“[機器學習中特征工程的直觀解釋是什么？](http://www.quora.com/What-is-the-intuitive-explanation-of-feature-engineering-in-machine-learning) “ ### 特色工程是一門藝術這是一門藝術，就像工程學是一門藝術，就像編程是一門藝術，就像醫學是一門藝術。有明確定義的程序是有條理的，可證明的和理解的。數據是變量，每次都不同。通過練習，您可以擅長決定使用哪些程序以及何時使用。通過實證學徒制。就像工程學一樣，像編程一樣，就像醫學，就像機器學習一般。對特征工程的掌握伴隨著實踐，并且研究其他正在做得好的人正在練習。 > ......一些機器學習項目成功，有些失敗。有什么區別？很容易，最重要的因素是使用的功能。 - Pedro Domingos，“[關于機器學習的一些有用的事情](http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf)”（PDF） ## 特征工程的子問題將特征工程視為一件事是很常見的。例如，對我來說很長一段時間，特征工程是特征構造。我想我自己“_我現在正在進行特征工程_”并且我會追問“_我如何分解或聚合原始數據以更好地描述潛在問題？_ “目標是正確的，但這種做法是其中之一。在本節中，我們將介紹這些方法以及它們要解決的具體子問題。每個都可以是他們自己的深度文章，因為它們是實踐和研究的重要和重要領域。 ### 功能：對建模任務有用的屬性讓我們從數據開始，[什么是特征](http://en.wikipedia.org/wiki/Feature_(machine_learning))。表格數據是根據觀察或由變量或屬性（列）組成的實例（行）來描述的。屬性可以是一個功能。與屬性分離的特征的概念在問題的上下文中更有意義。功能是對您的問題有用或有意義的屬性。它是了解正在建模的問題結構的觀察的重要部分。我使用“_有意義的_”來區分屬性和屬性。有些人可能沒有。我認為沒有一個沒有意義的功能。如果某個功能對問題沒有影響，則不是問題的一部分。在計算機視覺中，圖像是觀察，但是特征可以是圖像中的線。在自然語言處理中，文檔或推文可以是觀察，并且短語或單詞計數可以是特征。在語音識別中，話語可以是觀察，但是特征可以是單個單詞或音素。 ### 特征重要性：對特征有用性的估計您可以客觀地估計要素的有用性。這可以作為選擇要素的前提。功能分配分數，然后可以按其分數進行排名。可以選擇具有最高分數的那些特征以包括在訓練數據集中，而可以忽略那些剩余的特征。功能重要性分數還可以為您提供可用于提取或構建新功能的信息，這些功能與估計有用的功能類似但不同。如果特征與因變量（被預測的事物）高度相關，則該特征可能是重要的。相關系數和其他單變量（每個屬性被獨立考慮）方法是常用方法。更復雜的預測建模算法在構建模型時在內部執行特征重要性和選擇。一些例子包括MARS， [Random Forest](http://en.wikipedia.org/wiki/Random_forest#Variable_importance) 和Gradient Boosted Machines。這些模型還可以報告在模型準備過程中確定的變量重要性。 ### 特征提取：從原始數據自動構建新特征一些觀察結果在其原始狀態下過于龐大，無法直接通過預測建模算法進行建模。常見的例子包括圖像，音頻和文本數據，但可以很容易地包含具有數百萬屬性的表格數據。 [特征提取](http://en.wikipedia.org/wiki/Feature_extraction)是一個將這些類型的觀察的維度自動降低為可以建模的更小集合的過程。對于表格數據，這可能包括主成分分析和無監督聚類方法等投影方法。對于圖像數據，這可能包括線或邊緣檢測。根據域，圖像，視頻和音頻觀察結果適用于許多相同類型的DSP方法。特征提取的關鍵是方法是自動的（盡管可能需要用更簡單的方法設計和構造）并解決難以管理的高維數據的問題，最常用于以數字格式存儲的模擬觀測。 ### 功能選擇：從許多功能到一些有用的功能并非所有功能都是平等的。需要刪除與問題無關的那些屬性。對于模型的準確性，將會有一些功能比其他功能更重要。在其他功能的上下文中還將存在多余的功能。 [功能選擇](http://en.wikipedia.org/wiki/Feature_selection)通過自動選擇對問題最有用的子集來解決這些問題。特征選擇算法可以使用評分方法來排序和選擇特征，例如相關性或其他特征重要性方法。更高級的方法可以通過反復試驗來搜索特征子集，自動創建和評估模型以追求客觀上最具預測性的子特征組。還有一些方法可以烘焙特征選擇或將其作為模型的副作用。逐步回歸是一種算法的示例，該算法自動執行特征選擇，作為模型構建過程的一部分。像LASSO和嶺回歸這樣的正則化方法也可以被認為是具有特征選擇的算法，因為它們積極地尋求去除或折扣特征的貢獻作為模型構建過程的一部分。在帖子中閱讀更多內容：[功能選擇簡介](http://machinelearningmastery.com/an-introduction-to-feature-selection/ "An Introduction to Feature Selection")。 ### 特征構造：從原始數據手動構建新特征最好的結果歸結于你，從業者，制作功能。功能重要性和選擇可以告訴您功能的客觀效用，但這些功能必須來自某個地方。您需要手動創建它們。這需要花費大量時間來處理實際樣本數據（而不是聚合），并考慮問題的基本形式，數據結構以及如何最好地將它們暴露給預測建模算法。對于表格數據，它通常意味著聚合或組合功能以創建新功能，分解或拆分功能以創建新功能。對于文本數據，它通常意味著設計與問題相關的文檔或上下文特定指標。對于圖像數據，它通常意味著大量的時間規定自動過濾器來挑選相關結構。這是特征工程的一部分，經常被作為一種藝術形式進行討論，這一部分歸功于重要性，并標志著它是競爭機器學習的差異化因素。它是手動的，它很慢，它需要大量的人腦力量，它會產生很大的不同。 > 特征工程和特征選擇不是互斥的。它們都很有用。我會說功能工程更重要，特別是因為你不能真正自動化它。 - 羅伯特·諾伊豪斯，回答“[你認為哪些能提高準確性，功能選擇還是特征工程？](http://www.quora.com/How-valuable-do-you-think-feature-selection-is-in-machine-learning-Which-do-you-think-improves-accuracy-more-feature-selection-or-feature-engineering) “ ### 特征學習：自動識別和使用原始數據中的特征我們是否可以避免手動加載規定如何從原始數據構造或提取特征？表示學習或[特征學習](http://en.wikipedia.org/wiki/Feature_learning)是朝著這個目標努力的方向。現代深度學習方法在該領域取得了一些成功，例如自動編碼器和受限制的玻爾茲曼機器。它們已經被證明是自動的，并且以無監督或半監督的方式，學習特征的抽象表示（壓縮形式），這反過來又支持了諸如語音識別，圖像分類等領域的最新結果。物體識別和其他領域。我們沒有自動特征提取或構造，但我們可能永遠不會有自動特征工程。抽象表示是自動準備的，但除了以黑盒方式之外，您無法理解和利用所學知識。他們不能（但是，或者很容易）告知您和過程如何創建更多相似和不同的功能，例如那些表現良好，未來某個特定問題或類似問題的功能。獲得的技能被困。然而，它是令人著迷，令人興奮的，也是功能工程的一個重要而現代的部分。 ## 特征工程過程在更廣泛的應用機器學習過程中最好地理解特征工程。你需要這個背景。 ### 機器學習的過程應用機器學習的過程（缺乏更好的名稱）在廣泛的刷子意??義上涉及許多活動。前面是問題定義，接下來是數據選擇和準備，中間是模型準備，評估和調整，最后是結果的呈現。像[數據挖掘和KDD](http://machinelearningmastery.com/what-is-data-mining-and-kdd/ "What is Data Mining and KDD") 這樣的過程描述有助于更好地理解任務和子任務。您可以按照自己喜歡的方式挑選和選擇流程。 [在](http://machinelearningmastery.com/process-for-working-through-machine-learning-problems/ "Process for working through Machine Learning Problems")之前我已經談了很多這個。與我們關于特征工程的討論相關的圖片是此過程的前端。它可能類似于以下內容： 1. （此前的任務......） 2. **選擇數據**：整合數據，將其去標準化為數據集，一起收集。 3. **預處理數據**：對其進行格式化，清理，對其進行采樣，以便您可以使用它。 4. **轉換數據**：_特征工程師在這里發生_。 5. **模型數據**：創建模型，評估它們并調整它們。 6. （此后的任務......）將“_轉換數據_”從原始狀態轉換為適合建模的狀態的傳統觀念是特征工程適用的地方。轉換數據和特征工程實際上可能是同義詞。這張照片在某些方面有所幫助。您可以看到，在特征工程之前，我們正在將數據轉換為我們甚至可以查看的格式，就在此之前，我們正在將數據從數據庫整理和非規范化為某種中心圖像。當我們確定數據的新觀點時，我們可以而且應該回過頭來完成這些步驟。例如，我們可能有一個屬性，即聚合字段，如總和。我們可能決定創建特征來描述按時間間隔（例如季節）的數量，而不是一筆總和。我們需要通過預處理，甚至選擇數據來向后退一步，以獲取對“真實原始數據”的訪問并創建此功能。我們可以看到特征工程之后是建模。它暗示了與建模的強烈互動，提醒我們設計功能的相互作用，并根據我們的測試工具和最終表現測量的表面進行測試。這也表明我們可能需要以適合所選建模算法的形式保留數據，例如將特征標準化或標準化作為最后一步。這聽起來像是一個預處理步驟，它可能是，但它有助于我們在有效建模之前考慮數據需要哪些類型的最后潤色。 ### 特征工程的迭代過程了解特征工程在應用機器學習過程的上下文中的位置突出表明它不是獨立的。這是一個迭代過程，一次又一次地與數據選擇和模型評估相互作用，直到我們的問題耗盡時間。該過程可能如下所示： 1. **頭腦風暴功能**：真正深入研究問題，查看大量數據，研究其他問題的特征工程，看看你能偷什么。 2. **設計功能**：取決于您的問題，但您可以使用自動特征提取，手動功能構建和兩者的混合。 3. **選擇功能**：使用不同的功能重要性評分和功能選擇方法為模型準備一個或多個“視圖”以進行操作。 4. **評估模型**：使用所選特征估算未見數據的模型精度。您需要一個明確定義的問題，以便您知道何時停止此過程并繼續嘗試其他模型，其他模型配置，模型集合等。一旦你對想法或準確度增加達到穩定水平，那么后來在管道中就會有所收獲。您需要經過深思熟慮和設計的測試工具，以客觀地估計看不見的數據的模型技能。這將是您對功能工程流程的唯一衡量標準，您必須相信它不要浪費您的時間。 ## 特征工程的一般例子讓我們使特征工程的概念更具體。在本節中，我們將考慮您可能在Excel電子表格中使用的表格數據。我們將看一些您可能想要考慮自己的問題的手動功能構建示例。當我聽到“_特征工程至關重要_”時，這就是我想到的特征工程類型。這是我熟悉和實踐的最常見的形式。哪個最好？你事前無法知道。您必須嘗試它們并評估結果以實現您的算法和表現測量。 ### 分解分類屬性想象一下你有一個分類屬性，比如“ _Item_Color_ ”可以是 _Red_ ， _Blue_ 或 _Unknown_ 。 _未知_可能很特別，但對于模型來說，它看起來只是另一種顏色選擇。更好地公開這些信息可能是有益的。您可以創建一個名為“ _Has_Color_ ”的新二進制功能，并在項目有顏色時為其分配值“ _1_ ”，當“ _0_ ”時顏色未知。更進一步，您可以為 _Item_Color_ 具有的每個值創建二進制功能。這將是三個二進制屬性： _Is_Red_ ， _Is_Blue_ 和 _Is_Unknown_ 。可以使用這些附加功能代替 _Item_Color_ 功能（如果您想嘗試更簡單的線性模型）或者除此之外（如果您想從決策樹中獲得更多功能）。 ### 分解日期時間日期時間包含很多信息，模型很難利用它的原生形式，例如 [ISO 8601](http://en.wikipedia.org/wiki/ISO_8601) （即2014-09-20T20：45：40Z）。如果您懷疑時間與其他屬性之間存在關系，則可以將日期時間分解為可能允許模型發現和利用這些關系的組成部分。例如，您可能懷疑時間與其他屬性之間存在關系。您可以創建一個名為 _Hour_of_Day_ 的新數字特征，該小時可能有助于回歸模型。您可以使用4個值 _Morning_ ， _Midday_ ， _Afternoon_ ， _Night_ 創建名為 _Part_Of_Day_ 的新序數功能你認為相關的小時邊界。這可能對決策樹有用。您可以使用類似的方法來選擇一周中的時間關系，一個月的時間關系以及一年中各種季節性結構。日期時間結構豐富，如果您懷疑數據存在時間依賴性，請花點時間將其取出。 ### 重構數值量您的數據很可能包含數量，可以重新定義以更好地暴露相關結構。這可以是轉換為新單元或將速率分解為時間和數量的組件。您可能擁有重量，距離或時間等數量。線性變換對于回歸和其他依賴于尺度的方法可能是有用的。例如，您可以以克為單位 _Item_Weight_ ，其值為6289.您可以創建一個新的要素，其中此數量（公斤）為6.289或舍入公斤（如6）。如果域名是運輸數據，可能是公斤 _Item_Weight_ 的精度足夠或更有用（噪音更小）。 _Item_Weight_ 可以分為兩個特征： _Item_Weight_Kilograms_ 和 _Item_Weight_Remainder_Grams_ ，示例值分別為6和289。可能存在領域知識，即權重大于4的項目會產生更高的稅率。該魔術域號可用于創建新的二進制特征 _Item_Above_4kg_ ，其值為“ _1_ ”，我們的示例為6289克。您還可以將數量存儲為間隔的費率或總數量。例如， _Num_Customer_Purchases_ 匯總了一年。在這種情況下，您可能希望返回數據收集步驟并創建除此聚合之外的新功能，并嘗試在購買中公開更多時間結構，例如季節性。例如，可以創建以下新的二進制特征： _Purchases_Summer_ ， _Purchases_Fall_ ， _Purchases_Winter_ 和 _Purchases_Spring_ 。 ## 特征工程的具體例子研究特征工程示例的一個好地方是競爭機器學習的結果。比賽通常使用來自現實世界問題領域的數據。在比賽結束時需要記錄方法和方法。這些文章為有效的現實世界機器學習過程和方法提供了寶貴的見解。在本節中，我們將介紹幾個關注特征工程的有趣且值得注意的賽后寫作示例。 ### 預測2010年KDD杯的學生考試成績 [KDD杯](http://www.sigkdd.org/kddcup/index.php)是每年為知識發現和數據挖掘會議的ACM特別興趣小組的與會者舉辦的機器學習競賽。 2010年，比賽的重點是對學生的學習方式進行建模。提供了一個關于代數問題的學生語料庫，用于預測學生未來的表現。比賽的獲勝者是國立臺灣大學的一群學生和學者。他們的方法在論文“[特征工程和KDD杯2010分類器集合](http://pslcdatashop.org/KDDCup/workshop/papers/kdd2010ntu.pdf)”中有所描述。本文將特色工程作為獲勝的關鍵方法。特征工程以創建數百萬個二進制特征為代價簡化了問題的結構。簡單的結構使團隊能夠使用高表現但非常簡單的線性方法來實現獲勝的預測模型。本文詳細介紹了問題結構中特定的時間和其他非線性如何簡化為簡單的復合二元指標。這是簡單屬性分解可能實現的極端和有益的例子。 ### 預測遺產健康獎的患者準入 [遺產健康獎](https://www.heritagehealthprize.com/c/hhp)獲得了300萬美元的獎金，該獎項可以最好地預測哪些患者將在明年入院。該獎項每年都會獲得里程碑獎，其中頂級團隊將獲得獎項，其流程和方法將公開。我記得讀過三個里程碑中的第一個發布的論文，并對所涉及的特征工程的數量印象深刻。具體來說，菲爾·布里爾利，大衛沃格爾和蘭迪阿克塞爾羅德的論文“[第1輪里程碑獎：我們如何做到 - 團隊市場創造者](https://kaggle2.blob.core.windows.net/wiki-files/327/e4cd1d25-eca9-49ca-9593-b254a773fe03/Market%20Makers%20-%20Milestone%201%20Description%20V2%201.pdf)”。大多數競賽都涉及大量的特征工程，但令我印象深刻的是這篇論文的重點。本文提供了構造屬性所需的屬性和SQL表。本文通過簡單分解給出了一些很好的現實世界的特征工程實例。有很多計數，分鐘，最大值，大量二進制屬性和離散化的數字屬性。非常簡單的方法用于很好的效果。 ## 更多關于特征工程的資源我們在本文中介紹了很多內容，并希望您對功能工程是什么，它適合哪些以及如何實現這一功能有了更多的了解。這真的是你旅程的開始。您需要練習特征工程，并且需要學習優秀的特征工程從業者。本節提供了一些可能對您的旅程有所幫助的資源。 ### 圖書我找不到關于這個主題的任何書籍或書籍章節。然而，有一些關于特征提取的好書。如果您正在使用模擬觀察的數字表示，如圖像，視頻，聲音或文本，您可能希望深入了解一些特征提取文獻。 * [特征提取，構造和選擇：數據挖掘視角](http://www.amazon.com/dp/0792381963?tag=inspiredalgor-20) * [特征提取：基礎和應用](http://www.amazon.com/dp/3540354875?tag=inspiredalgor-20)（我喜歡這本書） * [特征提取＆amp;計算機視覺圖像處理，第三版](http://www.amazon.com/dp/0123965497?tag=inspiredalgor-20) 還有很多關于特色選擇的書籍。如果您正在努力通過刪除冗余或不相關的功能來減少功能，請深入了解功能選擇。 * [知識發現和數據挖掘的特征選擇](http://www.amazon.com/dp/079238198X?tag=inspiredalgor-20) * [特征選擇的計算方法](http://www.amazon.com/dp/1584888784?tag=inspiredalgor-20) ### 論文和幻燈片找到論文是一個難題。同樣，有很多關于特征提取和特征選擇書籍章節的論文，但功能工程并不多。特征工程也具有軟件工程的意義，與我們的討論無關。以下是一些普遍相關的論文： * [關于變量和特征選擇的JMLR特刊](http://jmlr.org/papers/special/feature03.html) 以下是一些通常相關且有趣的幻燈片： * [特色工程](http://kti.tugraz.at/staff/denis/courses/kddm1/featureengineering.pdf)（PDF），知識發現和數據挖掘1，作者：Roman Kern，[知識技術研究所](http://kti.tugraz.at/staff/denis/courses/kddm1/) * [特色工程與選擇](http://www.cs.berkeley.edu/~jordan/courses/294-fall09/lectures/feature/slides.pdf)（PDF），CS 294：[實用機器學習](http://www.cs.berkeley.edu/~jordan/courses/294-fall09/lectures/feature/)，伯克利 * [特色工程工作室](http://www.columbia.edu/~rsb2162/FES2013/materials.html)，課程講座幻燈片和材料，哥倫比亞 * [特色工程](http://www.cs.princeton.edu/courses/archive/spring10/cos424/slides/18-feat.pdf)（PDF），Leon Bottou，Princeton ### 鏈接有博客帖子到處都有。最有用的鏈接是解決問題的教程，并清楚地表達了有意的特征工程。以下是一些有趣的鏈接： * [特色工程：如何在泰坦尼克號競賽](http://trevorstephens.com/post/73461351896/titanic-getting-started-with-r-part-4-feature)（Kaggle的入門競賽）上進行特色工程。有比特征工程更多的數據，但它仍然具有指導意義。 * ~~[IPython筆記本](http://nbviewer.ipython.org/url/trust.sce.ntu.edu.sg/~gguo1/blogs/Features.ipynb)由 [Guibing Guo](http://trust.sce.ntu.edu.sg/~gguo1/) ，致力于解釋特征工程。有點亂，但值得一撇~~。（鏈接看起來很糟糕，對不起。） ### 影片關于特征工程的主題有幾個視頻。迄今為止最好的是由Ryan Baker命名為“[特征工程](https://www.youtube.com/watch?v=drUToKxEAUA)”。它很短（大約9分鐘），我建議觀看一些很好的實用技巧。 <iframe allow="autoplay; encrypted-media" allowfullscreen="" frameborder="0" height="281" src="https://www.youtube.com/embed/drUToKxEAUA?feature=oembed" width="500"></iframe> 如果您認為我錯過了一個關鍵概念或資源，請發表評論。 **更新2015** ：我注意到現在有一??篇關于特色工程的[維基百科文章，它復制了這篇文章的大部分內容。那好吧。](https://en.wikipedia.org/wiki/Feature_engineering)