# 發現特征工程,如何設計特征以及如何獲得它
> 譯文: [https://machinelearningmastery.com/discover-feature-engineering-how-to-engineer-features-and-how-to-get-good-at-it/](https://machinelearningmastery.com/discover-feature-engineering-how-to-engineer-features-and-how-to-get-good-at-it/)
特征工程是一個非正式的主題,但絕對眾所周知并且同意成為應用機器學習成功的關鍵。
在創建本指南的過程中,我進行了廣泛深入的研究,并綜合了所有可能的材料。
您將發現什么是特征工程,它解決了什么問題,重要的原因,如何設計功能,誰做得好以及您可以去哪里學習更多并擅長它。
如果您閱讀一篇關于特征工程的文章,我希望它是這一篇。
> 特征工程是另一個主題,似乎不值得任何評論論文或書籍,甚至書籍章節,但它對ML的成功絕對至關重要。 [...]機器學習的大部分成功實際上是學習器可以理解的工程特征的成功。
- Scott Locklin,“[被忽視的機器學習思路](https://scottlocklin.wordpress.com/2014/07/22/neglected-machine-learning-ideas/)”
## 特征工程解決的問題
[](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/09/feature-engineering-is-hard.jpg)
特征工程很難。
攝影: [Vik Nanda](https://www.flickr.com/photos/viknanda/371160360) ,保留一些權利
當您的目標是從預測模型中獲得最佳結果時,您需要從所擁有的內容中獲得最大收益。
這包括從您使用的算法中獲得最佳結果。它還涉及充分利用您的算法使用的數據。
**如何充分利用數據進行預測建模?**
這是特征工程的過程和實踐解決的問題。
> 實際上,所有機器學習算法的成功取決于您呈現數據的方式。
- Mohammad Pezeshki,回答“[每個數據科學家應該知道的關于特征選擇和工程的一些一般技巧是什么?](http://www.quora.com/What-are-some-general-tips-on-feature-selection-and-engineering-that-every-data-scientist-should-know) “
## 特征工程的重要性
數據中的功能將直接影響您使用的預測模型以及您可以實現的結果。
您可以這樣說:您準備和選擇的功能越多,您獲得的結果就越好。這是事實,但也有誤導性。
您獲得的結果是您選擇的模型,您可用的數據和您準備的功能的一個因素。即使你對問題的框架和你用來估計準確性的客觀措施起了作用。您的結果取決于許多相互依賴的屬性。
您需要很好的功能來描述數據中固有的結構。
**更好的功能意味著靈活性**。
您可以選擇“錯誤的模型”(低于最佳模型)并仍然可以獲得良好的結果。大多數模型可以在數據中獲得良好的結構。良好功能的靈活性允許您使用運行速度更快,更易于理解且更易于維護的不太復雜的模型。這是非常理想的。
**更好的功能意味著更簡單的模型**。
憑借精心設計的功能,您可以選擇“錯誤的參數”(低于最佳值)并仍然獲得良好的結果,原因大致相同。您不需要努力選擇正確的模型和最優化的參數。
通過良好的功能,您可以更接近底層問題,并可以表示您可用的所有數據,并可用于最好地表征潛在問題。
**更好的功能意味著更好的結果**。
> 我們使用的算法對于Kagglers來說非常標準。 [...]我們將大部分精力投入到功能工程中。
- Xavier Conort,在“ [Q& A與Xavier Conort](http://blog.kaggle.com/2013/04/10/qa-with-xavier-conort/) ”上贏得了對Kaggle的Flight Quest挑戰
## 什么是特色工程?
以下是我定義特征工程的方法:
> 特征工程是將原始數據轉換為更能代表預測模型的基礎問題的特征的過程,從而提高了對看不見的數據的模型準確性。
您可以在此定義中查看依賴項:
* 您選擇的績效指標(RMSE?AUC?)
* 問題的框架(分類?回歸?)
* 你正在使用的預測模型(SVM?)
* 您選擇和準備的原始數據(樣本?格式化?清潔?)
> 特征工程是手動設計輸入x應該是什么
- Tomasz Malisiewicz,回答“[什么是特征工程?](http://www.quora.com/What-is-feature-engineering) “
### 特征工程是一個表示問題
機器學習算法從樣本數據中學習問題的解決方案。
在此上下文中,特征工程要求:學習問題解決方案的樣本數據的最佳表示是什么?
它太深了。在機器學習方面做得很好,即使在人工智能方面,也可以回到表示問題。知道要使用的最佳表示,_先驗_,這可能是不可知的(或者至多是難以處理的)。
> 你必須把你的輸入變成算法可以理解的東西
- Shayne Miel,回答“[機器學習中特征工程的直觀解釋是什么?](http://www.quora.com/What-is-the-intuitive-explanation-of-feature-engineering-in-machine-learning) “
### 特色工程是一門藝術
這是一門藝術,就像工程學是一門藝術,就像編程是一門藝術,就像醫學是一門藝術。
有明確定義的程序是有條理的,可證明的和理解的。
數據是變量,每次都不同。通過練習,您可以擅長決定使用哪些程序以及何時使用。通過實證學徒制。就像工程學一樣,像編程一樣,就像醫學,就像機器學習一般。
對特征工程的掌握伴隨著實踐,并且研究其他正在做得好的人正在練習。
> ......一些機器學習項目成功,有些失敗。有什么區別?很容易,最重要的因素是使用的功能。
- Pedro Domingos,“[關于機器學習的一些有用的事情](http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf)”(PDF)
## 特征工程的子問題
將特征工程視為一件事是很常見的。
例如,對我來說很長一段時間,特征工程是特征構造。
我想我自己“_我現在正在進行特征工程_”并且我會追問“_我如何分解或聚合原始數據以更好地描述潛在問題?_ “目標是正確的,但這種做法是其中之一。
在本節中,我們將介紹這些方法以及它們要解決的具體子問題。每個都可以是他們自己的深度文章,因為它們是實踐和研究的重要和重要領域。
### 功能:對建模任務有用的屬性
讓我們從數據開始,[什么是特征](http://en.wikipedia.org/wiki/Feature_(machine_learning))。
表格數據是根據觀察或由變量或屬性(列)組成的實例(行)來描述的。屬性可以是一個功能。
與屬性分離的特征的概念在問題的上下文中更有意義。功能是對您的問題有用或有意義的屬性。它是了解正在建模的問題結構的觀察的重要部分。
我使用“_有意義的_”來區分屬性和屬性。有些人可能沒有。我認為沒有一個沒有意義的功能。如果某個功能對問題沒有影響,則不是問題的一部分。
在計算機視覺中,圖像是觀察,但是特征可以是圖像中的線。在自然語言處理中,文檔或推文可以是觀察,并且短語或單詞計數可以是特征。在語音識別中,話語可以是觀察,但是特征可以是單個單詞或音素。
### 特征重要性:對特征有用性的估計
您可以客觀地估計要素的有用性。
這可以作為選擇要素的前提。功能分配分數,然后可以按其分數進行排名。可以選擇具有最高分數的那些特征以包括在訓練數據集中,而可以忽略那些剩余的特征。
功能重要性分數還可以為您提供可用于提取或構建新功能的信息,這些功能與估計有用的功能類似但不同。
如果特征與因變量(被預測的事物)高度相關,則該特征可能是重要的。相關系數和其他單變量(每個屬性被獨立考慮)方法是常用方法。
更復雜的預測建模算法在構建模型時在內部執行特征重要性和選擇。一些例子包括MARS, [Random Forest](http://en.wikipedia.org/wiki/Random_forest#Variable_importance) 和Gradient Boosted Machines。這些模型還可以報告在模型準備過程中確定的變量重要性。
### 特征提取:從原始數據自動構建新特征
一些觀察結果在其原始狀態下過于龐大,無法直接通過預測建模算法進行建模。
常見的例子包括圖像,音頻和文本數據,但可以很容易地包含具有數百萬屬性的表格數據。
[特征提取](http://en.wikipedia.org/wiki/Feature_extraction)是一個將這些類型的觀察的維度自動降低為可以建模的更小集合的過程。
對于表格數據,這可能包括主成分分析和無監督聚類方法等投影方法。對于圖像數據,這可能包括線或邊緣檢測。根據域,圖像,視頻和音頻觀察結果適用于許多相同類型的DSP方法。
特征提取的關鍵是方法是自動的(盡管可能需要用更簡單的方法設計和構造)并解決難以管理的高維數據的問題,最常用于以數字格式存儲的模擬觀測。
### 功能選擇:從許多功能到一些有用的功能
并非所有功能都是平等的。
需要刪除與問題無關的那些屬性。對于模型的準確性,將會有一些功能比其他功能更重要。在其他功能的上下文中還將存在多余的功能。
[功能選擇](http://en.wikipedia.org/wiki/Feature_selection)通過自動選擇對問題最有用的子集來解決這些問題。
特征選擇算法可以使用評分方法來排序和選擇特征,例如相關性或其他特征重要性方法。
更高級的方法可以通過反復試驗來搜索特征子集,自動創建和評估模型以追求客觀上最具預測性的子特征組。
還有一些方法可以烘焙特征選擇或將其作為模型的副作用。逐步回歸是一種算法的示例,該算法自動執行特征選擇,作為模型構建過程的一部分。
像LASSO和嶺回歸這樣的正則化方法也可以被認為是具有特征選擇的算法,因為它們積極地尋求去除或折扣特征的貢獻作為模型構建過程的一部分。
在帖子中閱讀更多內容:[功能選擇簡介](http://machinelearningmastery.com/an-introduction-to-feature-selection/ "An Introduction to Feature Selection")。
### 特征構造:從原始數據手動構建新特征
最好的結果歸結于你,從業者,制作功能。
功能重要性和選擇可以告訴您功能的客觀效用,但這些功能必須來自某個地方。
您需要手動創建它們。這需要花費大量時間來處理實際樣本數據(而不是聚合),并考慮問題的基本形式,數據結構以及如何最好地將它們暴露給預測建模算法。
對于表格數據,它通常意味著聚合或組合功能以創建新功能,分解或拆分功能以創建新功能。
對于文本數據,它通常意味著設計與問題相關的文檔或上下文特定指標。對于圖像數據,它通常意味著大量的時間規定自動過濾器來挑選相關結構。
這是特征工程的一部分,經常被作為一種藝術形式進行討論,這一部分歸功于重要性,并標志著它是競爭機器學習的差異化因素。
它是手動的,它很慢,它需要大量的人腦力量,它會產生很大的不同。
> 特征工程和特征選擇不是互斥的。它們都很有用。我會說功能工程更重要,特別是因為你不能真正自動化它。
- 羅伯特·諾伊豪斯,回答“[你認為哪些能提高準確性,功能選擇還是特征工程?](http://www.quora.com/How-valuable-do-you-think-feature-selection-is-in-machine-learning-Which-do-you-think-improves-accuracy-more-feature-selection-or-feature-engineering) “
### 特征學習:自動識別和使用原始數據中的特征
我們是否可以避免手動加載規定如何從原始數據構造或提取特征?
表示學習或[特征學習](http://en.wikipedia.org/wiki/Feature_learning)是朝著這個目標努力的方向。
現代深度學習方法在該領域取得了一些成功,例如自動編碼器和受限制的玻爾茲曼機器。它們已經被證明是自動的,并且以無監督或半監督的方式,學習特征的抽象表示(壓縮形式),這反過來又支持了諸如語音識別,圖像分類等領域的最新結果。物體識別和其他領域。
我們沒有自動特征提取或構造,但我們可能永遠不會有自動特征工程。
抽象表示是自動準備的,但除了以黑盒方式之外,您無法理解和利用所學知識。他們不能(但是,或者很容易)告知您和過程如何創建更多相似和不同的功能,例如那些表現良好,未來某個特定問題或類似問題的功能。獲得的技能被困。
然而,它是令人著迷,令人興奮的,也是功能工程的一個重要而現代的部分。
## 特征工程過程
在更廣泛的應用機器學習過程中最好地理解特征工程。
你需要這個背景。
### 機器學習的過程
應用機器學習的過程(缺乏更好的名稱)在廣泛的刷子意??義上涉及許多活動。前面是問題定義,接下來是數據選擇和準備,中間是模型準備,評估和調整,最后是結果的呈現。
像[數據挖掘和KDD](http://machinelearningmastery.com/what-is-data-mining-and-kdd/ "What is Data Mining and KDD") 這樣的過程描述有助于更好地理解任務和子任務。您可以按照自己喜歡的方式挑選和選擇流程。 [在](http://machinelearningmastery.com/process-for-working-through-machine-learning-problems/ "Process for working through Machine Learning Problems")之前我已經談了很多這個。
與我們關于特征工程的討論相關的圖片是此過程的前端。它可能類似于以下內容:
1. (此前的任務......)
2. **選擇數據**:整合數據,將其去標準化為數據集,一起收集。
3. **預處理數據**:對其進行格式化,清理,對其進行采樣,以便您可以使用它。
4. **轉換數據**:_特征工程師在這里發生_。
5. **模型數據**:創建模型,評估它們并調整它們。
6. (此后的任務......)
將“_轉換數據_”從原始狀態轉換為適合建模的狀態的傳統觀念是特征工程適用的地方。轉換數據和特征工程實際上可能是同義詞。
這張照片在某些方面有所幫助。
您可以看到,在特征工程之前,我們正在將數據轉換為我們甚至可以查看的格式,就在此之前,我們正在將數據從數據庫整理和非規范化為某種中心圖像。
當我們確定數據的新觀點時,我們可以而且應該回過頭來完成這些步驟。
例如,我們可能有一個屬性,即聚合字段,如總和。我們可能決定創建特征來描述按時間間隔(例如季節)的數量,而不是一筆總和。我們需要通過預處理,甚至選擇數據來向后退一步,以獲取對“真實原始數據”的訪問并創建此功能。
我們可以看到特征工程之后是建模。
它暗示了與建模的強烈互動,提醒我們設計功能的相互作用,并根據我們的測試工具和最終表現測量的表面進行測試。
這也表明我們可能需要以適合所選建模算法的形式保留數據,例如將特征標準化或標準化作為最后一步。這聽起來像是一個預處理步驟,它可能是,但它有助于我們在有效建模之前考慮數據需要哪些類型的最后潤色。
### 特征工程的迭代過程
了解特征工程在應用機器學習過程的上下文中的位置突出表明它不是獨立的。
這是一個迭代過程,一次又一次地與數據選擇和模型評估相互作用,直到我們的問題耗盡時間。
該過程可能如下所示:
1. **頭腦風暴功能**:真正深入研究問題,查看大量數據,研究其他問題的特征工程,看看你能偷什么。
2. **設計功能**:取決于您的問題,但您可以使用自動特征提取,手動功能構建和兩者的混合。
3. **選擇功能**:使用不同的功能重要性評分和功能選擇方法為模型準備一個或多個“視圖”以進行操作。
4. **評估模型**:使用所選特征估算未見數據的模型精度。
您需要一個明確定義的問題,以便您知道何時停止此過程并繼續嘗試其他模型,其他模型配置,模型集合等。一旦你對想法或準確度增加達到穩定水平,那么后來在管道中就會有所收獲。
您需要經過深思熟慮和設計的測試工具,以客觀地估計看不見的數據的模型技能。這將是您對功能工程流程的唯一衡量標準,您必須相信它不要浪費您的時間。
## 特征工程的一般例子
讓我們使特征工程的概念更具體。
在本節中,我們將考慮您可能在Excel電子表格中使用的表格數據。我們將看一些您可能想要考慮自己的問題的手動功能構建示例。
當我聽到“_特征工程至關重要_”時,這就是我想到的特征工程類型。這是我熟悉和實踐的最常見的形式。
哪個最好?你事前無法知道。您必須嘗試它們并評估結果以實現您的算法和表現測量。
### 分解分類屬性
想象一下你有一個分類屬性,比如“ _Item_Color_ ”可以是 _Red_ , _Blue_ 或 _Unknown_ 。
_未知_可能很特別,但對于模型來說,它看起來只是另一種顏色選擇。更好地公開這些信息可能是有益的。
您可以創建一個名為“ _Has_Color_ ”的新二進制功能,并在項目有顏色時為其分配值“ _1_ ”,當“ _0_ ”時顏色未知。
更進一步,您可以為 _Item_Color_ 具有的每個值創建二進制功能。這將是三個二進制屬性: _Is_Red_ , _Is_Blue_ 和 _Is_Unknown_ 。
可以使用這些附加功能代替 _Item_Color_ 功能(如果您想嘗試更簡單的線性模型)或者除此之外(如果您想從決策樹中獲得更多功能)。
### 分解日期時間
日期時間包含很多信息,模型很難利用它的原生形式,例如 [ISO 8601](http://en.wikipedia.org/wiki/ISO_8601) (即2014-09-20T20:45:40Z)。
如果您懷疑時間與其他屬性之間存在關系,則可以將日期時間分解為可能允許模型發現和利用這些關系的組成部分。
例如,您可能懷疑時間與其他屬性之間存在關系。
您可以創建一個名為 _Hour_of_Day_ 的新數字特征,該小時可能有助于回歸模型。
您可以使用4個值 _Morning_ , _Midday_ , _Afternoon_ , _Night_ 創建名為 _Part_Of_Day_ 的新序數功能你認為相關的小時邊界。這可能對決策樹有用。
您可以使用類似的方法來選擇一周中的時間關系,一個月的時間關系以及一年中各種季節性結構。
日期時間結構豐富,如果您懷疑數據存在時間依賴性,請花點時間將其取出。
### 重構數值量
您的數據很可能包含數量,可以重新定義以更好地暴露相關結構。這可以是轉換為新單元或將速率分解為時間和數量的組件。
您可能擁有重量,距離或時間等數量。線性變換對于回歸和其他依賴于尺度的方法可能是有用的。
例如,您可以以克為單位 _Item_Weight_ ,其值為6289.您可以創建一個新的要素,其中此數量(公斤)為6.289或舍入公斤(如6)。如果域名是運輸數據,可能是公斤 _Item_Weight_ 的精度足夠或更有用(噪音更小)。
_Item_Weight_ 可以分為兩個特征: _Item_Weight_Kilograms_ 和 _Item_Weight_Remainder_Grams_ ,示例值分別為6和289。
可能存在領域知識,即權重大于4的項目會產生更高的稅率。該魔術域號可用于創建新的二進制特征 _Item_Above_4kg_ ,其值為“ _1_ ”,我們的示例為6289克。
您還可以將數量存儲為間隔的費率或總數量。例如, _Num_Customer_Purchases_ 匯總了一年。
在這種情況下,您可能希望返回數據收集步驟并創建除此聚合之外的新功能,并嘗試在購買中公開更多時間結構,例如季節性。例如,可以創建以下新的二進制特征: _Purchases_Summer_ , _Purchases_Fall_ , _Purchases_Winter_ 和 _Purchases_Spring_ 。
## 特征工程的具體例子
研究特征工程示例的一個好地方是競爭機器學習的結果。
比賽通常使用來自現實世界問題領域的數據。在比賽結束時需要記錄方法和方法。這些文章為有效的現實世界機器學習過程和方法提供了寶貴的見解。
在本節中,我們將介紹幾個關注特征工程的有趣且值得注意的賽后寫作示例。
### 預測2010年KDD杯的學生考試成績
[KDD杯](http://www.sigkdd.org/kddcup/index.php)是每年為知識發現和數據挖掘會議的ACM特別興趣小組的與會者舉辦的機器學習競賽。
2010年,比賽的重點是對學生的學習方式進行建模。提供了一個關于代數問題的學生語料庫,用于預測學生未來的表現。
比賽的獲勝者是國立臺灣大學的一群學生和學者。他們的方法在論文“[特征工程和KDD杯2010分類器集合](http://pslcdatashop.org/KDDCup/workshop/papers/kdd2010ntu.pdf)”中有所描述。
本文將特色工程作為獲勝的關鍵方法。特征工程以創建數百萬個二進制特征為代價簡化了問題的結構。簡單的結構使團隊能夠使用高表現但非常簡單的線性方法來實現獲勝的預測模型。
本文詳細介紹了問題結構中特定的時間和其他非線性如何簡化為簡單的復合二元指標。
這是簡單屬性分解可能實現的極端和有益的例子。
### 預測遺產健康獎的患者準入
[遺產健康獎](https://www.heritagehealthprize.com/c/hhp)獲得了300萬美元的獎金,該獎項可以最好地預測哪些患者將在明年入院。
該獎項每年都會獲得里程碑獎,其中頂級團隊將獲得獎項,其流程和方法將公開。
我記得讀過三個里程碑中的第一個發布的論文,并對所涉及的特征工程的數量印象深刻。
具體來說,菲爾·布里爾利,大衛沃格爾和蘭迪阿克塞爾羅德的論文“[第1輪里程碑獎:我們如何做到 - 團隊市場創造者](https://kaggle2.blob.core.windows.net/wiki-files/327/e4cd1d25-eca9-49ca-9593-b254a773fe03/Market%20Makers%20-%20Milestone%201%20Description%20V2%201.pdf)”。大多數競賽都涉及大量的特征工程,但令我印象深刻的是這篇論文的重點。
本文提供了構造屬性所需的屬性和SQL表。
本文通過簡單分解給出了一些很好的現實世界的特征工程實例。有很多計數,分鐘,最大值,大量二進制屬性和離散化的數字屬性。非常簡單的方法用于很好的效果。
## 更多關于特征工程的資源
我們在本文中介紹了很多內容,并希望您對功能工程是什么,它適合哪些以及如何實現這一功能有了更多的了解。
這真的是你旅程的開始。您需要練習特征工程,并且需要學習優秀的特征工程從業者。
本節提供了一些可能對您的旅程有所幫助的資源。
### 圖書
我找不到關于這個主題的任何書籍或書籍章節。
然而,有一些關于特征提取的好書。如果您正在使用模擬觀察的數字表示,如圖像,視頻,聲音或文本,您可能希望深入了解一些特征提取文獻。
* [特征提取,構造和選擇:數據挖掘視角](http://www.amazon.com/dp/0792381963?tag=inspiredalgor-20)
* [特征提取:基礎和應用](http://www.amazon.com/dp/3540354875?tag=inspiredalgor-20)(我喜歡這本書)
* [特征提取&計算機視覺圖像處理,第三版](http://www.amazon.com/dp/0123965497?tag=inspiredalgor-20)
還有很多關于特色選擇的書籍。如果您正在努力通過刪除冗余或不相關的功能來減少功能,請深入了解功能選擇。
* [知識發現和數據挖掘的特征選擇](http://www.amazon.com/dp/079238198X?tag=inspiredalgor-20)
* [特征選擇的計算方法](http://www.amazon.com/dp/1584888784?tag=inspiredalgor-20)
### 論文和幻燈片
找到論文是一個難題。
同樣,有很多關于特征提取和特征選擇書籍章節的論文,但功能工程并不多。特征工程也具有軟件工程的意義,與我們的討論無關。
以下是一些普遍相關的論文:
* [關于變量和特征選擇的JMLR特刊](http://jmlr.org/papers/special/feature03.html)
以下是一些通常相關且有趣的幻燈片:
* [特色工程](http://kti.tugraz.at/staff/denis/courses/kddm1/featureengineering.pdf)(PDF),知識發現和數據挖掘1,作者:Roman Kern,[知識技術研究所](http://kti.tugraz.at/staff/denis/courses/kddm1/)
* [特色工程與選擇](http://www.cs.berkeley.edu/~jordan/courses/294-fall09/lectures/feature/slides.pdf)(PDF),CS 294:[實用機器學習](http://www.cs.berkeley.edu/~jordan/courses/294-fall09/lectures/feature/),伯克利
* [特色工程工作室](http://www.columbia.edu/~rsb2162/FES2013/materials.html),課程講座幻燈片和材料,哥倫比亞
* [特色工程](http://www.cs.princeton.edu/courses/archive/spring10/cos424/slides/18-feat.pdf)(PDF),Leon Bottou,Princeton
### 鏈接
有博客帖子到處都有。最有用的鏈接是解決問題的教程,并清楚地表達了有意的特征工程。
以下是一些有趣的鏈接:
* [特色工程:如何在泰坦尼克號競賽](http://trevorstephens.com/post/73461351896/titanic-getting-started-with-r-part-4-feature)(Kaggle的入門競賽)上進行特色工程。有比特征工程更多的數據,但它仍然具有指導意義。
* ~~[IPython筆記本](http://nbviewer.ipython.org/url/trust.sce.ntu.edu.sg/~gguo1/blogs/Features.ipynb)由 [Guibing Guo](http://trust.sce.ntu.edu.sg/~gguo1/) ,致力于解釋特征工程。有點亂,但值得一撇~~。 (鏈接看起來很糟糕,對不起。)
### 影片
關于特征工程的主題有幾個視頻。迄今為止最好的是由Ryan Baker命名為“[特征工程](https://www.youtube.com/watch?v=drUToKxEAUA)”。它很短(大約9分鐘),我建議觀看一些很好的實用技巧。
<iframe allow="autoplay; encrypted-media" allowfullscreen="" frameborder="0" height="281" src="https://www.youtube.com/embed/drUToKxEAUA?feature=oembed" width="500"></iframe>
如果您認為我錯過了一個關鍵概念或資源,請發表評論。
**更新2015** :我注意到現在有一??篇關于特色工程的[維基百科文章,它復制了這篇文章的大部分內容。那好吧。](https://en.wikipedia.org/wiki/Feature_engineering)
- Machine Learning Mastery 應用機器學習教程
- 5競爭機器學習的好處
- 過度擬合的簡單直覺,或者為什么測試訓練數據是一個壞主意
- 特征選擇簡介
- 應用機器學習作為一個搜索問題的溫和介紹
- 為什么應用機器學習很難
- 為什么我的結果不如我想的那么好?你可能過度擬合了
- 用ROC曲線評估和比較分類器表現
- BigML評論:發現本機學習即服務平臺的聰明功能
- BigML教程:開發您的第一個決策樹并進行預測
- 構建生產機器學習基礎設施
- 分類準確性不夠:可以使用更多表現測量
- 一種預測模型的巧妙應用
- 機器學習項目中常見的陷阱
- 數據清理:將凌亂的數據轉換為整潔的數據
- 機器學習中的數據泄漏
- 數據,學習和建模
- 數據管理至關重要以及為什么需要認真對待它
- 將預測模型部署到生產中
- 參數和超參數之間有什么區別?
- 測試和驗證數據集之間有什么區別?
- 發現特征工程,如何設計特征以及如何獲得它
- 如何開始使用Kaggle
- 超越預測
- 如何在評估機器學習算法時選擇正確的測試選項
- 如何定義機器學習問題
- 如何評估機器學習算法
- 如何獲得基線結果及其重要性
- 如何充分利用機器學習數據
- 如何識別數據中的異常值
- 如何提高機器學習效果
- 如何在競爭機器學習中踢屁股
- 如何知道您的機器學習模型是否具有良好的表現
- 如何布局和管理您的機器學習項目
- 如何為機器學習準備數據
- 如何減少最終機器學習模型中的方差
- 如何使用機器學習結果
- 如何解決像數據科學家這樣的問題
- 通過數據預處理提高模型精度
- 處理機器學習的大數據文件的7種方法
- 建立機器學習系統的經驗教訓
- 如何使用機器學習清單可靠地獲得準確的預測(即使您是初學者)
- 機器學習模型運行期間要做什么
- 機器學習表現改進備忘單
- 來自世界級從業者的機器學習技巧:Phil Brierley
- 模型預測精度與機器學習中的解釋
- 競爭機器學習的模型選擇技巧
- 機器學習需要多少訓練數據?
- 如何系統地規劃和運行機器學習實驗
- 應用機器學習過程
- 默認情況下可重現的機器學習結果
- 10個實踐應用機器學習的標準數據集
- 簡單的三步法到最佳機器學習算法
- 打擊機器學習數據集中不平衡類的8種策略
- 模型表現不匹配問題(以及如何處理)
- 黑箱機器學習的誘惑陷阱
- 如何培養最終的機器學習模型
- 使用探索性數據分析了解您的問題并獲得更好的結果
- 什么是數據挖掘和KDD
- 為什么One-Hot在機器學習中編碼數據?
- 為什么你應該在你的機器學習問題上進行抽樣檢查算法
- 所以,你正在研究機器學習問題......
- Machine Learning Mastery Keras 深度學習教程
- Keras 中神經網絡模型的 5 步生命周期
- 在 Python 迷你課程中應用深度學習
- Keras 深度學習庫的二元分類教程
- 如何用 Keras 構建多層感知器神經網絡模型
- 如何在 Keras 中檢查深度學習模型
- 10 個用于 Amazon Web Services 深度學習的命令行秘籍
- 機器學習卷積神經網絡的速成課程
- 如何在 Python 中使用 Keras 進行深度學習的度量
- 深度學習書籍
- 深度學習課程
- 你所知道的深度學習是一種謊言
- 如何設置 Amazon AWS EC2 GPU 以訓練 Keras 深度學習模型(分步)
- 神經網絡中批量和迭代之間的區別是什么?
- 在 Keras 展示深度學習模型訓練歷史
- 基于 Keras 的深度學習模型中的dropout正則化
- 評估 Keras 中深度學習模型的表現
- 如何評價深度學習模型的技巧
- 小批量梯度下降的簡要介紹以及如何配置批量大小
- 在 Keras 中獲得深度學習幫助的 9 種方法
- 如何使用 Keras 在 Python 中網格搜索深度學習模型的超參數
- 用 Keras 在 Python 中使用卷積神經網絡進行手寫數字識別
- 如何用 Keras 進行預測
- 用 Keras 進行深度學習的圖像增強
- 8 個深度學習的鼓舞人心的應用
- Python 深度學習庫 Keras 簡介
- Python 深度學習庫 TensorFlow 簡介
- Python 深度學習庫 Theano 簡介
- 如何使用 Keras 函數式 API 進行深度學習
- Keras 深度學習庫的多類分類教程
- 多層感知器神經網絡速成課程
- 基于卷積神經網絡的 Keras 深度學習庫中的目標識別
- 流行的深度學習庫
- 用深度學習預測電影評論的情感
- Python 中的 Keras 深度學習庫的回歸教程
- 如何使用 Keras 獲得可重現的結果
- 如何在 Linux 服務器上運行深度學習實驗
- 保存并加載您的 Keras 深度學習模型
- 用 Keras 逐步開發 Python 中的第一個神經網絡
- 用 Keras 理解 Python 中的有狀態 LSTM 循環神經網絡
- 在 Python 中使用 Keras 深度學習模型和 Scikit-Learn
- 如何使用預訓練的 VGG 模型對照片中的物體進行分類
- 在 Python 和 Keras 中對深度學習模型使用學習率調度
- 如何在 Keras 中可視化深度學習神經網絡模型
- 什么是深度學習?
- 何時使用 MLP,CNN 和 RNN 神經網絡
- 為什么用隨機權重初始化神經網絡?
- Machine Learning Mastery 深度學習 NLP 教程
- 深度學習在自然語言處理中的 7 個應用
- 如何實現自然語言處理的波束搜索解碼器
- 深度學習文檔分類的最佳實踐
- 關于自然語言處理的熱門書籍
- 在 Python 中計算文本 BLEU 分數的溫和介紹
- 使用編碼器 - 解碼器模型的用于字幕生成的注入和合并架構
- 如何用 Python 清理機器學習的文本
- 如何配置神經機器翻譯的編碼器 - 解碼器模型
- 如何開始深度學習自然語言處理(7 天迷你課程)
- 自然語言處理的數據集
- 如何開發一種深度學習的詞袋模型來預測電影評論情感
- 深度學習字幕生成模型的溫和介紹
- 如何在 Keras 中定義神經機器翻譯的編碼器 - 解碼器序列 - 序列模型
- 如何利用小實驗在 Keras 中開發字幕生成模型
- 如何從頭開發深度學習圖片標題生成器
- 如何在 Keras 中開發基于字符的神經語言模型
- 如何開發用于情感分析的 N-gram 多通道卷積神經網絡
- 如何從零開始開發神經機器翻譯系統
- 如何在 Python 中用 Keras 開發基于單詞的神經語言模型
- 如何開發一種預測電影評論情感的詞嵌入模型
- 如何使用 Gensim 在 Python 中開發詞嵌入
- 用于文本摘要的編碼器 - 解碼器深度學習模型
- Keras 中文本摘要的編碼器 - 解碼器模型
- 用于神經機器翻譯的編碼器 - 解碼器循環神經網絡模型
- 淺談詞袋模型
- 文本摘要的溫和介紹
- 編碼器 - 解碼器循環神經網絡中的注意力如何工作
- 如何利用深度學習自動生成照片的文本描述
- 如何開發一個單詞級神經語言模型并用它來生成文本
- 淺談神經機器翻譯
- 什么是自然語言處理?
- 牛津自然語言處理深度學習課程
- 如何為機器翻譯準備法語到英語的數據集
- 如何為情感分析準備電影評論數據
- 如何為文本摘要準備新聞文章
- 如何準備照片標題數據集以訓練深度學習模型
- 如何使用 Keras 為深度學習準備文本數據
- 如何使用 scikit-learn 為機器學習準備文本數據
- 自然語言處理神經網絡模型入門
- 對自然語言處理的深度學習的承諾
- 在 Python 中用 Keras 進行 LSTM 循環神經網絡的序列分類
- 斯坦福自然語言處理深度學習課程評價
- 統計語言建模和神經語言模型的簡要介紹
- 使用 Keras 在 Python 中進行 LSTM 循環神經網絡的文本生成
- 淺談機器學習中的轉換
- 如何使用 Keras 將詞嵌入層用于深度學習
- 什么是用于文本的詞嵌入
- Machine Learning Mastery 深度學習時間序列教程
- 如何開發人類活動識別的一維卷積神經網絡模型
- 人類活動識別的深度學習模型
- 如何評估人類活動識別的機器學習算法
- 時間序列預測的多層感知器網絡探索性配置
- 比較經典和機器學習方法進行時間序列預測的結果
- 如何通過深度學習快速獲得時間序列預測的結果
- 如何利用 Python 處理序列預測問題中的缺失時間步長
- 如何建立預測大氣污染日的概率預測模型
- 如何開發一種熟練的機器學習時間序列預測模型
- 如何構建家庭用電自回歸預測模型
- 如何開發多步空氣污染時間序列預測的自回歸預測模型
- 如何制定多站點多元空氣污染時間序列預測的基線預測
- 如何開發時間序列預測的卷積神經網絡模型
- 如何開發卷積神經網絡用于多步時間序列預測
- 如何開發單變量時間序列預測的深度學習模型
- 如何開發 LSTM 模型用于家庭用電的多步時間序列預測
- 如何開發 LSTM 模型進行時間序列預測
- 如何開發多元多步空氣污染時間序列預測的機器學習模型
- 如何開發多層感知器模型進行時間序列預測
- 如何開發人類活動識別時間序列分類的 RNN 模型
- 如何開始深度學習的時間序列預測(7 天迷你課程)
- 如何網格搜索深度學習模型進行時間序列預測
- 如何對單變量時間序列預測的網格搜索樸素方法
- 如何在 Python 中搜索 SARIMA 模型超參數用于時間序列預測
- 如何在 Python 中進行時間序列預測的網格搜索三次指數平滑
- 一個標準的人類活動識別問題的溫和介紹
- 如何加載和探索家庭用電數據
- 如何加載,可視化和探索復雜的多變量多步時間序列預測數據集
- 如何從智能手機數據模擬人類活動
- 如何根據環境因素預測房間占用率
- 如何使用腦波預測人眼是開放還是閉合
- 如何在 Python 中擴展長短期內存網絡的數據
- 如何使用 TimeseriesGenerator 進行 Keras 中的時間序列預測
- 基于機器學習算法的室內運動時間序列分類
- 用于時間序列預測的狀態 LSTM 在線學習的不穩定性
- 用于罕見事件時間序列預測的 LSTM 模型體系結構
- 用于時間序列預測的 4 種通用機器學習數據變換
- Python 中長短期記憶網絡的多步時間序列預測
- 家庭用電機器學習的多步時間序列預測
- Keras 中 LSTM 的多變量時間序列預測
- 如何開發和評估樸素的家庭用電量預測方法
- 如何為長短期記憶網絡準備單變量時間序列數據
- 循環神經網絡在時間序列預測中的應用
- 如何在 Python 中使用差異變換刪除趨勢和季節性
- 如何在 LSTM 中種子狀態用于 Python 中的時間序列預測
- 使用 Python 進行時間序列預測的有狀態和無狀態 LSTM
- 長短時記憶網絡在時間序列預測中的適用性
- 時間序列預測問題的分類
- Python 中長短期記憶網絡的時間序列預測
- 基于 Keras 的 Python 中 LSTM 循環神經網絡的時間序列預測
- Keras 中深度學習的時間序列預測
- 如何用 Keras 調整 LSTM 超參數進行時間序列預測
- 如何在時間序列預測訓練期間更新 LSTM 網絡
- 如何使用 LSTM 網絡的 Dropout 進行時間序列預測
- 如何使用 LSTM 網絡中的特征進行時間序列預測
- 如何在 LSTM 網絡中使用時間序列進行時間序列預測
- 如何利用 LSTM 網絡進行權重正則化進行時間序列預測
- Machine Learning Mastery 線性代數教程
- 機器學習數學符號的基礎知識
- 用 NumPy 陣列輕松介紹廣播
- 如何從 Python 中的 Scratch 計算主成分分析(PCA)
- 用于編碼器審查的計算線性代數
- 10 機器學習中的線性代數示例
- 線性代數的溫和介紹
- 用 NumPy 輕松介紹 Python 中的 N 維數組
- 機器學習向量的溫和介紹
- 如何在 Python 中為機器學習索引,切片和重塑 NumPy 數組
- 機器學習的矩陣和矩陣算法簡介
- 溫和地介紹機器學習的特征分解,特征值和特征向量
- NumPy 對預期價值,方差和協方差的簡要介紹
- 機器學習矩陣分解的溫和介紹
- 用 NumPy 輕松介紹機器學習的張量
- 用于機器學習的線性代數中的矩陣類型簡介
- 用于機器學習的線性代數備忘單
- 線性代數的深度學習
- 用于機器學習的線性代數(7 天迷你課程)
- 機器學習的線性代數
- 機器學習矩陣運算的溫和介紹
- 線性代數評論沒有廢話指南
- 學習機器學習線性代數的主要資源
- 淺談機器學習的奇異值分解
- 如何用線性代數求解線性回歸
- 用于機器學習的稀疏矩陣的溫和介紹
- 機器學習中向量規范的溫和介紹
- 學習線性代數用于機器學習的 5 個理由
- Machine Learning Mastery LSTM 教程
- Keras中長短期記憶模型的5步生命周期
- 長短時記憶循環神經網絡的注意事項
- CNN長短期記憶網絡
- 逆向神經網絡中的深度學習速成課程
- 可變長度輸入序列的數據準備
- 如何用Keras開發用于Python序列分類的雙向LSTM
- 如何開發Keras序列到序列預測的編碼器 - 解碼器模型
- 如何診斷LSTM模型的過度擬合和欠擬合
- 如何開發一種編碼器 - 解碼器模型,注重Keras中的序列到序列預測
- 編碼器 - 解碼器長短期存儲器網絡
- 神經網絡中爆炸梯度的溫和介紹
- 對時間反向傳播的溫和介紹
- 生成長短期記憶網絡的溫和介紹
- 專家對長短期記憶網絡的簡要介紹
- 在序列預測問題上充分利用LSTM
- 編輯器 - 解碼器循環神經網絡全局注意的溫和介紹
- 如何利用長短時記憶循環神經網絡處理很長的序列
- 如何在Python中對一個熱編碼序列數據
- 如何使用編碼器 - 解碼器LSTM來回顯隨機整數序列
- 具有注意力的編碼器 - 解碼器RNN體系結構的實現模式
- 學習使用編碼器解碼器LSTM循環神經網絡添加數字
- 如何學習長短時記憶循環神經網絡回聲隨機整數
- 具有Keras的長短期記憶循環神經網絡的迷你課程
- LSTM自動編碼器的溫和介紹
- 如何用Keras中的長短期記憶模型進行預測
- 用Python中的長短期內存網絡演示內存
- 基于循環神經網絡的序列預測模型的簡要介紹
- 深度學習的循環神經網絡算法之旅
- 如何重塑Keras中長短期存儲網絡的輸入數據
- 了解Keras中LSTM的返回序列和返回狀態之間的差異
- RNN展開的溫和介紹
- 5學習LSTM循環神經網絡的簡單序列預測問題的例子
- 使用序列進行預測
- 堆疊長短期內存網絡
- 什么是教師強制循環神經網絡?
- 如何在Python中使用TimeDistributed Layer for Long Short-Term Memory Networks
- 如何準備Keras中截斷反向傳播的序列預測
- 如何在使用LSTM進行訓練和預測時使用不同的批量大小
- Machine Learning Mastery 機器學習算法教程
- 機器學習算法之旅
- 用于機器學習的裝袋和隨機森林集合算法
- 從頭開始實施機器學習算法的好處
- 更好的樸素貝葉斯:從樸素貝葉斯算法中獲取最多的12個技巧
- 機器學習的提升和AdaBoost
- 選擇機器學習算法:Microsoft Azure的經驗教訓
- 機器學習的分類和回歸樹
- 什么是機器學習中的混淆矩陣
- 如何使用Python從頭開始創建算法測試工具
- 通過創建機器學習算法的目標列表來控制
- 從頭開始停止編碼機器學習算法
- 在實現機器學習算法時,不要從開源代碼開始
- 不要使用隨機猜測作為基線分類器
- 淺談機器學習中的概念漂移
- 溫和介紹機器學習中的偏差 - 方差權衡
- 機器學習的梯度下降
- 機器學習算法如何工作(他們學習輸入到輸出的映射)
- 如何建立機器學習算法的直覺
- 如何實現機器學習算法
- 如何研究機器學習算法行為
- 如何學習機器學習算法
- 如何研究機器學習算法
- 如何研究機器學習算法
- 如何在Python中從頭開始實現反向傳播算法
- 如何用Python從頭開始實現Bagging
- 如何用Python從頭開始實現基線機器學習算法
- 如何在Python中從頭開始實現決策樹算法
- 如何用Python從頭開始實現學習向量量化
- 如何利用Python從頭開始隨機梯度下降實現線性回歸
- 如何利用Python從頭開始隨機梯度下降實現Logistic回歸
- 如何用Python從頭開始實現機器學習算法表現指標
- 如何在Python中從頭開始實現感知器算法
- 如何在Python中從零開始實現隨機森林
- 如何在Python中從頭開始實現重采樣方法
- 如何用Python從頭開始實現簡單線性回歸
- 如何用Python從頭開始實現堆棧泛化(Stacking)
- K-Nearest Neighbors for Machine Learning
- 學習機器學習的向量量化
- 機器學習的線性判別分析
- 機器學習的線性回歸
- 使用梯度下降進行機器學習的線性回歸教程
- 如何在Python中從頭開始加載機器學習數據
- 機器學習的Logistic回歸
- 機器學習的Logistic回歸教程
- 機器學習算法迷你課程
- 如何在Python中從頭開始實現樸素貝葉斯
- 樸素貝葉斯機器學習
- 樸素貝葉斯機器學習教程
- 機器學習算法的過擬合和欠擬合
- 參數化和非參數機器學習算法
- 理解任何機器學習算法的6個問題
- 在機器學習中擁抱隨機性
- 如何使用Python從頭開始擴展機器學習數據
- 機器學習的簡單線性回歸教程
- 有監督和無監督的機器學習算法
- 用于機器學習的支持向量機
- 在沒有數學背景的情況下理解機器學習算法的5種技術
- 最好的機器學習算法
- 教程從頭開始在Python中實現k-Nearest Neighbors
- 通過從零開始實現它們來理解機器學習算法(以及繞過壞代碼的策略)
- 使用隨機森林:在121個數據集上測試179個分類器
- 為什么從零開始實現機器學習算法
- Machine Learning Mastery 機器學習入門教程
- 機器學習入門的四個步驟:初學者入門與實踐的自上而下策略
- 你應該培養的 5 個機器學習領域
- 一種選擇機器學習算法的數據驅動方法
- 機器學習中的分析與數值解
- 應用機器學習是一種精英政治
- 機器學習的基本概念
- 如何成為數據科學家
- 初學者如何在機器學習中弄錯
- 機器學習的最佳編程語言
- 構建機器學習組合
- 機器學習中分類與回歸的區別
- 評估自己作為數據科學家并利用結果建立驚人的數據科學團隊
- 探索 Kaggle 大師的方法論和心態:對 Diogo Ferreira 的采訪
- 擴展機器學習工具并展示掌握
- 通過尋找地標開始機器學習
- 溫和地介紹預測建模
- 通過提供結果在機器學習中獲得夢想的工作
- 如何開始機器學習:自學藍圖
- 開始并在機器學習方面取得進展
- 應用機器學習的 Hello World
- 初學者如何使用小型項目開始機器學習并在 Kaggle 上進行競爭
- 我如何開始機器學習? (簡短版)
- 我是如何開始機器學習的
- 如何在機器學習中取得更好的成績
- 如何從在銀行工作到擔任 Target 的高級數據科學家
- 如何學習任何機器學習工具
- 使用小型目標項目深入了解機器學習工具
- 獲得付費申請機器學習
- 映射機器學習工具的景觀
- 機器學習開發環境
- 機器學習金錢
- 程序員的機器學習
- 機器學習很有意思
- 機器學習是 Kaggle 比賽
- 機器學習現在很受歡迎
- 機器學習掌握方法
- 機器學習很重要
- 機器學習 Q&amp; A:概念漂移,更好的結果和學習更快
- 缺乏自學機器學習的路線圖
- 機器學習很重要
- 快速了解任何機器學習工具(即使您是初學者)
- 機器學習工具
- 找到你的機器學習部落
- 機器學習在一年
- 通過競爭一致的大師 Kaggle
- 5 程序員在機器學習中開始犯錯誤
- 哲學畢業生到機器學習從業者(Brian Thomas 采訪)
- 機器學習入門的實用建議
- 實用機器學習問題
- 使用來自 UCI 機器學習庫的數據集練習機器學習
- 使用秘籍的任何機器學習工具快速啟動
- 程序員可以進入機器學習
- 程序員應該進入機器學習
- 項目焦點:Shashank Singh 的人臉識別
- 項目焦點:使用 Mahout 和 Konstantin Slisenko 進行堆棧交換群集
- 機器學習自學指南
- 4 個自學機器學習項目
- álvaroLemos 如何在數據科學團隊中獲得機器學習實習
- 如何思考機器學習
- 現實世界機器學習問題之旅
- 有關機器學習的有用知識
- 如果我沒有學位怎么辦?
- 如果我不是一個優秀的程序員怎么辦?
- 如果我不擅長數學怎么辦?
- 為什么機器學習算法會處理以前從未見過的數據?
- 是什么阻礙了你的機器學習目標?
- 什么是機器學習?
- 機器學習適合哪里?
- 為什么要進入機器學習?
- 研究對您來說很重要的機器學習問題
- 你這樣做是錯的。為什么機器學習不必如此困難
- Machine Learning Mastery Sklearn 教程
- Scikit-Learn 的溫和介紹:Python 機器學習庫
- 使用 Python 管道和 scikit-learn 自動化機器學習工作流程
- 如何以及何時使用帶有 scikit-learn 的校準分類模型
- 如何比較 Python 中的機器學習算法與 scikit-learn
- 用于機器學習開發人員的 Python 崩潰課程
- 用 scikit-learn 在 Python 中集成機器學習算法
- 使用重采樣評估 Python 中機器學習算法的表現
- 使用 Scikit-Learn 在 Python 中進行特征選擇
- Python 中機器學習的特征選擇
- 如何使用 scikit-learn 在 Python 中生成測試數據集
- scikit-learn 中的機器學習算法秘籍
- 如何使用 Python 處理丟失的數據
- 如何開始使用 Python 進行機器學習
- 如何使用 Scikit-Learn 在 Python 中加載數據
- Python 中概率評分方法的簡要介紹
- 如何用 Scikit-Learn 調整算法參數
- 如何在 Mac OS X 上安裝 Python 3 環境以進行機器學習和深度學習
- 使用 scikit-learn 進行機器學習簡介
- 從 shell 到一本帶有 Fernando Perez 單一工具的書的 IPython
- 如何使用 Python 3 為機器學習開發創建 Linux 虛擬機
- 如何在 Python 中加載機器學習數據
- 您在 Python 中的第一個機器學習項目循序漸進
- 如何使用 scikit-learn 進行預測
- 用于評估 Python 中機器學習算法的度量標準
- 使用 Pandas 為 Python 中的機器學習準備數據
- 如何使用 Scikit-Learn 為 Python 機器學習準備數據
- 項目焦點:使用 Artem Yankov 在 Python 中進行事件推薦
- 用于機器學習的 Python 生態系統
- Python 是應用機器學習的成長平臺
- Python 機器學習書籍
- Python 機器學習迷你課程
- 使用 Pandas 快速和骯臟的數據分析
- 使用 Scikit-Learn 重新調整 Python 中的機器學習數據
- 如何以及何時使用 ROC 曲線和精確調用曲線進行 Python 分類
- 使用 scikit-learn 在 Python 中保存和加載機器學習模型
- scikit-learn Cookbook 書評
- 如何使用 Anaconda 為機器學習和深度學習設置 Python 環境
- 使用 scikit-learn 在 Python 中進行 Spot-Check 分類機器學習算法
- 如何在 Python 中開發可重復使用的抽樣檢查算法框架
- 使用 scikit-learn 在 Python 中進行 Spot-Check 回歸機器學習算法
- 使用 Python 中的描述性統計來了解您的機器學習數據
- 使用 OpenCV,Python 和模板匹配來播放“哪里是 Waldo?”
- 使用 Pandas 在 Python 中可視化機器學習數據
- Machine Learning Mastery 統計學教程
- 淺談計算正態匯總統計量
- 非參數統計的溫和介紹
- Python中常態測試的溫和介紹
- 淺談Bootstrap方法
- 淺談機器學習的中心極限定理
- 淺談機器學習中的大數定律
- 機器學習的所有統計數據
- 如何計算Python中機器學習結果的Bootstrap置信區間
- 淺談機器學習的Chi-Squared測試
- 機器學習的置信區間
- 隨機化在機器學習中解決混雜變量的作用
- 機器學習中的受控實驗
- 機器學習統計學速成班
- 統計假設檢驗的關鍵值以及如何在Python中計算它們
- 如何在機器學習中談論數據(統計學和計算機科學術語)
- Python中數據可視化方法的簡要介紹
- Python中效果大小度量的溫和介紹
- 估計隨機機器學習算法的實驗重復次數
- 機器學習評估統計的溫和介紹
- 如何計算Python中的非參數秩相關性
- 如何在Python中計算數據的5位數摘要
- 如何在Python中從頭開始編寫學生t檢驗
- 如何在Python中生成隨機數
- 如何轉換數據以更好地擬合正態分布
- 如何使用相關來理解變量之間的關系
- 如何使用統計信息識別數據中的異常值
- 用于Python機器學習的隨機數生成器簡介
- k-fold交叉驗證的溫和介紹
- 如何計算McNemar的比較兩種機器學習量詞的測試
- Python中非參數統計顯著性測試簡介
- 如何在Python中使用參數統計顯著性測試
- 機器學習的預測間隔
- 應用統計學與機器學習的密切關系
- 如何使用置信區間報告分類器表現
- 統計數據分布的簡要介紹
- 15 Python中的統計假設檢驗(備忘單)
- 統計假設檢驗的溫和介紹
- 10如何在機器學習項目中使用統計方法的示例
- Python中統計功效和功耗分析的簡要介紹
- 統計抽樣和重新抽樣的簡要介紹
- 比較機器學習算法的統計顯著性檢驗
- 機器學習中統計容差區間的溫和介紹
- 機器學習統計書籍
- 評估機器學習模型的統計數據
- 機器學習統計(7天迷你課程)
- 用于機器學習的簡明英語統計
- 如何使用統計顯著性檢驗來解釋機器學習結果
- 什么是統計(為什么它在機器學習中很重要)?
- Machine Learning Mastery 時間序列入門教程
- 如何在 Python 中為時間序列預測創建 ARIMA 模型
- 用 Python 進行時間序列預測的自回歸模型
- 如何回溯機器學習模型的時間序列預測
- Python 中基于時間序列數據的基本特征工程
- R 的時間序列預測熱門書籍
- 10 挑戰機器學習時間序列預測問題
- 如何將時間序列轉換為 Python 中的監督學習問題
- 如何將時間序列數據分解為趨勢和季節性
- 如何用 ARCH 和 GARCH 模擬波動率進行時間序列預測
- 如何將時間序列數據集與 Python 區分開來
- Python 中時間序列預測的指數平滑的溫和介紹
- 用 Python 進行時間序列預測的特征選擇
- 淺談自相關和部分自相關
- 時間序列預測的 Box-Jenkins 方法簡介
- 用 Python 簡要介紹時間序列的時間序列預測
- 如何使用 Python 網格搜索 ARIMA 模型超參數
- 如何在 Python 中加載和探索時間序列數據
- 如何使用 Python 對 ARIMA 模型進行手動預測
- 如何用 Python 進行時間序列預測的預測
- 如何使用 Python 中的 ARIMA 進行樣本外預測
- 如何利用 Python 模擬殘差錯誤來糾正時間序列預測
- 使用 Python 進行數據準備,特征工程和時間序列預測的移動平均平滑
- 多步時間序列預測的 4 種策略
- 如何在 Python 中規范化和標準化時間序列數據
- 如何利用 Python 進行時間序列預測的基線預測
- 如何使用 Python 對時間序列預測數據進行功率變換
- 用于時間序列預測的 Python 環境
- 如何重構時間序列預測問題
- 如何使用 Python 重新采樣和插值您的時間序列數據
- 用 Python 編寫 SARIMA 時間序列預測
- 如何在 Python 中保存 ARIMA 時間序列預測模型
- 使用 Python 進行季節性持久性預測
- 基于 ARIMA 的 Python 歷史規模敏感性預測技巧分析
- 簡單的時間序列預測模型進行測試,這樣你就不會欺騙自己
- 標準多變量,多步驟和多站點時間序列預測問題
- 如何使用 Python 檢查時間序列數據是否是固定的
- 使用 Python 進行時間序列數據可視化
- 7 個機器學習的時間序列數據集
- 時間序列預測案例研究與 Python:波士頓每月武裝搶劫案
- Python 的時間序列預測案例研究:巴爾的摩的年度用水量
- 使用 Python 進行時間序列預測研究:法國香檳的月銷售額
- 使用 Python 的置信區間理解時間序列預測不確定性
- 11 Python 中的經典時間序列預測方法(備忘單)
- 使用 Python 進行時間序列預測表現測量
- 使用 Python 7 天迷你課程進行時間序列預測
- 時間序列預測作為監督學習
- 什么是時間序列預測?
- 如何使用 Python 識別和刪除時間序列數據的季節性
- 如何在 Python 中使用和刪除時間序列數據中的趨勢信息
- 如何在 Python 中調整 ARIMA 參數
- 如何用 Python 可視化時間序列殘差預測錯誤
- 白噪聲時間序列與 Python
- 如何通過時間序列預測項目
- Machine Learning Mastery XGBoost 教程
- 通過在 Python 中使用 XGBoost 提前停止來避免過度擬合
- 如何在 Python 中調優 XGBoost 的多線程支持
- 如何配置梯度提升算法
- 在 Python 中使用 XGBoost 進行梯度提升的數據準備
- 如何使用 scikit-learn 在 Python 中開發您的第一個 XGBoost 模型
- 如何在 Python 中使用 XGBoost 評估梯度提升模型
- 在 Python 中使用 XGBoost 的特征重要性和特征選擇
- 淺談機器學習的梯度提升算法
- 應用機器學習的 XGBoost 簡介
- 如何在 macOS 上為 Python 安裝 XGBoost
- 如何在 Python 中使用 XGBoost 保存梯度提升模型
- 從梯度提升開始,比較 165 個數據集上的 13 種算法
- 在 Python 中使用 XGBoost 和 scikit-learn 進行隨機梯度提升
- 如何使用 Amazon Web Services 在云中訓練 XGBoost 模型
- 在 Python 中使用 XGBoost 調整梯度提升的學習率
- 如何在 Python 中使用 XGBoost 調整決策樹的數量和大小
- 如何在 Python 中使用 XGBoost 可視化梯度提升決策樹
- 在 Python 中開始使用 XGBoost 的 7 步迷你課程