# 探索 Kaggle 大師的方法論和心態:對 Diogo Ferreira 的采訪
> 原文: [https://machinelearningmastery.com/discover-the-methodology-and-mindset-of-a-kaggle-master-an-interview-with-diogo-ferreira/](https://machinelearningmastery.com/discover-the-methodology-and-mindset-of-a-kaggle-master-an-interview-with-diogo-ferreira/)
在競爭機器學習中做得好怎么辦?要真正深入研究這個問題,你需要挖掘那些做得好的人。
2010 年,我參加了一場 Kaggle 比賽,以預測未來國際象棋比賽的結果。這是一個令人著迷的問題,因為它要求你從歷史游戲中對玩家的評級進行建模,并將這些評級傳播到未來以進行預測。
我在比賽中做到了這樣(第 17 或 10%),但迪奧戈·費雷拉獲得第 4 名。迪奧戈是一個迷人的人,也是一個出色的溝通者,2011 年我有機會采訪他,了解他參加比賽的情況。這篇文章是該訪談的編輯版本。
采訪分為四個部分:
* **第 1 部分**探討了 Diogo 的問題解決背景和方法
* **第 2 部分**關于 Kaggle 國際象棋評級比賽
* **第 3 部分**潛入迪奧戈的國際象棋評級競賽解決方案
* **第 4 部分**給我們留下了一些關于競爭機器學習從業者的最終想法(最好的部分!)
喝一杯,坐下來享受吧!
## 第 1 部分:背景和方法
[](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/10/Diogo-Ferreira.jpg)
迪奧戈·費雷拉
**杰森**:你能介紹一下自己嗎?
**Diogo** :我的名字是 Diogo R. Ferreira,我是里斯本技術大學(葡萄牙)的信息系統教授,在那里我教數據庫系統,企業集成和業務流程管理(BPM) 。我也是 BPM 領域的活躍研究員,特別關注過程挖掘,即與從信息系統記錄的事件日志中提取過程模型相關的技術。
**Jason** :您的教育和工作經歷中有哪些經驗,如果有的話,有助于您參與國際象棋評級競賽并獲得成功?
Process Mining,我的研究領域,與商業智能和數據挖掘領域相關,這使我接觸到一系列技術,這些技術通常可以被調整或作為解決不同問題的靈感。
至于國際象棋評級比賽,我對國際象棋有著長期的興趣,這讓我對這場比賽特別感興趣。
**Jason** :您對流程挖掘的描述激發了挖掘 Web 服務器日志的想法,并將結果與??流經網站相關聯。
確切地說,這是我們所做的事情,只有事件日志(即信息系統記錄的事件)才能來自過程感知系統(例如工作流/ BPM 系統)或其他(例如應用服務器日志)
**Jason** :像我這樣熟悉的流程挖掘的例子是什么,例如,是否有規范的案例研究或用例?
有關介紹,我或許可以引導您閱讀最近發布的 [Process Mining Manifesto](http://www.win.tue.nl/ieeetfpm/lib/exe/fetch.php?media=shared:process_mining_manifesto-small.pdf) (PDF)。
對于一些案例研究示例,我可以引導您訪問[我自己的一些出版物](http://web.ist.utl.pt/diogo.ferreira/)。 [流程挖掘網站](http://www.processmining.org)還有更多內容。
**Jason** :最近有哪些 BI 和數據挖掘技術的例子,你已經適應了你的努力,如果有的話,以及你試圖解決的問題類型?
序列聚類,期望最大化,序列分析,圖形分析,是我已經使用或適用于過程挖掘應用程序的技術。
**杰森**:一般來說,當提出新的數據集,評級或其他時,你從哪里開始,你的方法是什么?
首先,我通常會開發一組簡單的程序來從數據集中提取特征,以便更好地理解它。通常情況下,數據集對于手動檢查而言太大,因此開始使用一些基本工具非常有用,以便找出應該進一步的方向。
然后,在我對數據有感覺之后,我通常嘗試一些相當簡單,甚至是微不足道的方法來執行“健全性檢查”,即只是為了驗證結果是我期望的,以便獲得對數據集。
在我充滿信心之后,我開始嘗試更精細的方法。這些方法通常都是我自己做的。在稍后階段,我通常將我的結果與眾所周知的秘籍或技術進行比較。
**杰森**:我發現你的方法論描述引人入勝,謝謝你。您最近使用哪些工具或技術從新數據集中提取要素?
為了從新數據集中提取特征,我主要使用 ad-hoc 自定義代碼,我發現使用 Python 和相關庫(如 numpy,matplotlib,networkx 等)非常有效。
**Jason** :在談到這種情況下的功能時,你是什么意思? (匯總統計數據?數據中的結構?預測規則?)
精確匯總統計數據和/或在數據集中查找共性和頻繁行為的方法。
**Jason** :如果您可以手動檢查數據集,那么您使用了哪些示例或工具?
我只是使用簡單的搜索和查找/查找所有/ find-in-files / grep 功能,例如大多數文本編輯器中提供的功能。
**Jason** :在處理數據問題時,你會準備什么類型的任務來定制代碼和腳本,以及你會將哪些類型的任務轉向工具和庫?
我經常自己編寫代碼,即使有相似的代碼可用。這是因為逐步開發代碼也是了解有關數據的更多信息的一種方式。
我轉向工具和庫,特別是當我想將我的結果與其他人的結果或競爭方法進行比較時。
**Jason** :你提到:“_ 逐步開發代碼是一種了解數據 _ 的方法,這非常有趣。如果可能的話,請你詳細說明一下嗎? (例如,你指的是什么具體的東西,如:原型創意?犯錯誤?探索死胡同?時間思考?發現邊緣情況?)
當我開始處理數據時,我通常會花時間檢查每個中間步驟(編碼)是否按預期工作,并且在該過程中,人們學習了很多關于數據本身的知識。我通常不會探索死胡同或邊緣情況,我只是抓住機會在路上停下來(即如果將編碼與駕駛進行比較,我會說我會偶爾停下來看看周圍看看景觀,而不僅僅是直接開往目的地)
**杰森**:你對拼圖,機器學習,算法,編程,統計學,數學,心理學有多大程度的興趣?
我對所有這些方面都有興趣,但我常常受到手頭特定問題的激勵,無論面積如何。我對這些領域的每個問題都不感興趣,但我可能對來自不同領域的一些特殊問題感興趣。
**Jason** :一般來說,你會發現哪些方法可以返回常見的數據任務?
我會說,由于我的研究領域(過程挖掘),我反復回到文本/字符串處理和圖形分析,我發現這些技能在不同的問題中經常有用。
**Jason** :您認為哪些技術,工具和/或庫對于 a)文本/字符串處理和 b)圖表分析有用?
對于文本/彈簧處理,我使用標準 Python 模塊中提供的簡單函數(查找,拆分等)
對于圖形分析,使用諸如 networkx 和 Graphviz 之類的專用庫通常很有用。
**Jason** :您在不同的問題中使用過文本/字符串處理和/或圖形分析的一些創造性方法或最近的例子是什么?
最近我一直在分析來自兩家不同醫院的事件日志,我正在使用那些工具/技術。
**杰森**:一般來說,當你的方法沒有給出你期望的結果時,你如何保持動力?
我可能覺得這種方法有問題,在這種情況下我會嘗試修復它。或者,如果它沒有任何問題,那么我就開始考慮對同一問題采用完全不同的方法。無論哪種方式,這往往讓我有動力。
**Jason** :您認為哪些技能能夠成為此類數據競賽的參與者?
我認為競爭參與者必須有一些堅定和不可動搖的動力,而不是技能。我見過非常熟練的人甚至沒有付出努力,也沒有那些技術嫻熟的人訴諸各種各樣的東西,其中一些人最終證明是有效的。所以這不是一個人知道多少的問題,而是一個人愿意付出多少努力。
**Jason** :我有興趣更多地探索你的動機與技能哲學。你能否談談“創造力和/或思想的多樣性”和“嘗試不同事物的適應性”比“原始技能,智慧,經驗”更有用(請原諒我的簡潔解釋)?
一個基本事實是,最重要的是,事情是否已經完成。技能意味著可以做到這一點,但只有動力才能讓人開始這樣做。
事情通過其結果進行評估這一事實意味著在某些情況下會產生不幸的后果,例如投入了大量時間并且最終沒有得到結果的人。這就是技能發揮作用的地方:它使人們更有可能從投資中獲得一些成果。
但僅靠技能還不足以應對某些挑戰的復雜性。即使有技巧,手頭的任務也可能很難,所以這就是動力再次出現的地方。這是一個開始,它讓人繼續前進。當然,法拉利(更多的技能)會更快地獲得一輛,但這并不意味著用一輛裝備較少的車輛,甚至是不能在同一條道路/路徑上行駛的車輛也不可能到達那里。如果到達那里是最重要的,那么無論是哪輛車還是路徑都無關緊要。擁有汽油(動力)到達那里變得比擁有快速汽車(技能)更重要。
**Jason** :在解決數據問題時,調整模型可能在某個地方占有一席之地,在嘗試新模型和調整有希望的模型之間可以做些什么來尋求富有成效的平衡?
改善的速度告訴我們何時改變策略。當改善率開始下降時,是時候開始考慮新模型了。
**Jason** :一般來說,您是否更愿意花時間調整給定模型的數據問題或嘗試不同的模型?
就我個人而言,我寧愿花時間嘗試不同的模型,但實際上發生的情況是,當模型開始看起來很有前途時,我經常投入大量時間來調整它,這讓我花費的時間少于我想要嘗試不同模型的時間。這種情況發生在國際象棋比賽中,盡管我考慮過嘗試其他方法,但最終我花了大部分時間來調整和改進單一模型。
**杰森**:為什么你認為模型調整不如探索新模型(例如,增量增益與替代范式)相比不那么令人滿意?
因為人們可能會花費大量時間進行調整,并且最終仍然受到原始模型假設的限制。比如說,通過調整可以獲得 20%的改進,而使用新模型可以得到 50%。如果可能的話,突破性思維往往帶來更多回報 - 至少這是我個人的感受。
## 第 2 部分:國際象棋評級競賽
[](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/10/White-versus-Black.jpg)
白色與黑色
攝影: [Gideon](https://www.flickr.com/photos/malias/73169727/) ,保留一些權利
**Jason** :你提到了國際象棋的長期興趣,長期興趣是什么?你有多長時間了?
在我十幾歲的時候,我曾經參加國際象棋比賽,今天我仍然關注國際象棋界的情況,盡管我不再是一名活躍的球員。有一段時間,我仍然在線玩,這是我希望在我十幾歲時可以使用的東西。
**杰森**:用你自己的話來說,國際象棋評級競賽需要解決的問題是什么?
在我看來,國際象棋評級競賽的目的是設計一個評級系統,以便為評級玩家之間的游戲結果提供更準確的預測。
**Jason** :我讀到你是從鉛筆和紙開始的,當你第一次參加比賽時你在考慮或探索什么?你是如何抵制跳上電腦和制作劇本的?
當我第一次開始考慮比賽時,我正在尋找一個合適的概率模型,我在紙上劃了一些東西,有時相同的公式會一遍又一遍地出現。
與此同時,我開始編寫一些簡單的任務,例如讀取/解析數據和獲取一些摘要統計信息。
過了一段時間,我經常從編碼切換到在紙上抓東西,兩個陣營的事情都開始快速發展。
**杰森**:從高級別來看,請總結一下你在比賽過程中的線性步驟?
我的方法的基礎模型開發得相當快,在整個競賽過程中我使用了基本相同的模型,偶爾會有一些變化。
花費我時間開發的是一個合適的加權函數來計算時間因素(即最近的游戲比舊游戲更重要的事實)
我一直在嘗試幾個選項,在私人數據集中,我觀察到了一些改進,盡管公開得分對我是否走上正確的軌道幾乎沒有信心。
**杰森**:你在比賽過程中與誰合作過什么? (電子郵件交流,形式討論等)
我與一位同事進行了幾次簡短的對話,關于競爭以及有關數據挖掘,過度擬合等的一般情況。在這些對話中,我們主要討論了競爭的建立方式,而不是特定的方法。我還記得在加權函數中使用正態分布的一些建議,但最終我設計了自己的函數。
**杰森**:我讀到你希望在比賽上花幾天時間,讓你參與這么久的事情是什么?
這有兩個有力的原因:
1. 每天在公共排行榜上看到其他人的進步,并將其與我自己的排行榜進行比較,讓我對這場比賽感到非常激動。
2. 事實上,我自己的交叉驗證結果與公共排行榜上的結果之間幾乎沒有相關性。這讓我忙了一段時間,因為我不確定我的方法到底會如何實際表現。
**杰森**:用簡單的話來說,你(最成功的)解決競爭問題的方法是什么?
我認為這是最簡單的一個,即當我將代碼簡化為真正基本的東西時,我認為它是一個堅實的基礎。其他想法,例如獲得一些改進的智能修復,被證明是非常耗時的,并且幾乎沒有提供額外的獎勵。
**Jason** :您在比賽過程中執行了哪些數據匯總和數據可視化,如果有的話?
我使用 networkx Python 庫來研究數據集中玩家之間的連接(游戲)。
除此之外,我使用了摘要統計數據,例如每月游戲,每月玩家每月游戲等。
**Jason** :您對數據集的哪些經典方法適用于數據集,如果有的話,以及何時在比賽過程中?
我沒用過。我的想法總是為每個玩家獲得 0.0 到 1.0 之間的標準化評級。
**Jason** :您已經發布了有關您的方法和源代碼的詳細說明 - 為什么您在描述中付出了這樣的努力并免費發布代碼?
好吧,我習慣寫科學論文,以這種形式提出描述是有道理的。至于源代碼,我認為幾乎沒有人會遇到實施該方法的麻煩,即使他們這樣做也許他們不會采取必要的謹慎措施來確保一切都按照原先的意圖實施;這可能會產生關于我的方法的報告,其結果比我用自己的代碼獲得的結果更糟糕。那么為什么不將源代碼作為參考實現發布,就是這樣。
**Jason** :回顧一下,您認為計算時間或計算機硬件是否會對您或您的方法產生影響?
肯定是的。我記得我的筆記本電腦連續運行了好幾天。在某些時候,我甚至嘗試使用我們大學的服務器,卻發現它在我的筆記本電腦上運行得更快。參數調整通常需要數小時甚至數天才能完成。我經常發現自己每小時檢查事情的進展情況,即使是在半夜,也希望我能有更多的機器可以同時運行。
唯一的原因是這并不是絕對關鍵的事實是我們每天僅限于 2 次提交,我發現這通常是相當不錯的。我記得將實際提交的數量除以同一時期允許的提交總數,并得到接近 50%的數字。總的來說,我認為我設法充分利用了我所擁有的提交數量。
**Jason** :討論使用排行榜以及您在私有數據集中看到的差異?
如果我沒記錯的話,我將公共數據集分為 1 到 100 個月的交叉驗證數據集:1 到 95(訓練)+ 96 到 100(測試)。 (我還和 1 到 90 + 91 到 95,以及其他人一起工作)
發生的事情是,交叉驗證數據集上的更好結果通常意味著公共排行榜的結果更糟。也許之前的提交更好,因為過度擬合或只是運氣。無論如何,這無助于建立對我所嘗試的事物的信心。交叉驗證結果表明它肯定會更好,但公共排行榜卻表示不然。在某些時候,我(以及其他參與者)可能會開始覺得公共數據集和排行榜存在很大差異。最后,我認為這只是因為排行榜得分是根據相當少量的數據計算的(20%)。
**Jason** :您在私人搜索結果中搜索的統計數據與公共排行榜相比(如果有的話)(例如,您是否探索了兩者之間的相關性)?
我沒有探索兩者之間的任何相關性,因為它似乎沒有。
至于統計數據,我記得競爭使用月份匯總的 RMSE 作為誤差測量。我記得嘗試使用其他測量,例如每場比賽的絕對偏差,每場比賽的 RMSE 等等。所以我做了一些參數調整,試圖最小化這些其他錯誤測量。然而,最終似乎使用月份匯總的 RMSE 更好。
**Jason** :基于您對成功或以后刪除的數據的觀察,'_ 智能修復 _'有哪些例子?
這是一個例子:在一些游戲中,白色或黑色勝利的預測接近 1.0(例如 0.98 概率)。所以我所做的是設置一個閾值(例如 0.98),高于該閾值,結果將轉換為 1.0。這有助于略微降低整體預測??誤差,問題在于閾值的選擇非常敏感,所以最終我放棄了使用這些技巧。
**Jason** :您能否回顧一下有關回顧摘要統計數據和數據探索的有趣觀察結果?
我記得的一件事是,最近幾個月的游戲比過去幾個月還多。我認為這也解釋了需要這種快速下降的時間函數。由于游戲很少,很難得出結論,因此舊游戲并不是很有用。然而,即使是最近的游戲也沒有那么多(總數),所以老游戲仍然被證明對預測有用。我認為,這是為什么選擇時間加權函數如此困難的另一個原因。
**杰森**:為什么你在整個參與過程中專注于標準化評級?
因為我主要是在處理概率,而且直覺上我也希望將玩家的等級表示為概率測量(更多內容見下文)。
**Jason** :您是否記錄了您正在考慮或嘗試的事情的筆記或日志?
我在單獨的文件中保存了每個提交的代碼。但是,我有一個單獨的參數調整程序,我沒有保存它的每個版本。在如此多的提交中(最終 100 多個),有時我不確定我是否已經嘗試過某些東西。
## 第 3 部分:有關特定解決方案的問題
[](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/10/graphs.png)
我使用的時間加權函數的圖,Diogo 的報告中對此進行了解釋。
**Jason** :你的方法只有 100 多行 Python 代碼(沒有注釋),我認為這是令人難以置信的。你能描述一下你的算法(用簡單的語言)嗎?
基本上,我估計每個玩家 X 的強度作為對公共參考玩家 Z 的預期得分。(這個參考玩家 Z 是抽象實體,它不存在,它的強度不需要計算,其目的只是將所有球員的實力帶到可比較的條件下。)
如果我們將每個玩家 X 的結果與參考玩家 Z 進行比較,那么我們將獲得玩家 X 的評級,就是這樣。但是我們沒有 X 對陣 Z 的結果,我們得到的是 X 對陣一組對手的結果,其實力也是未知數。
在我的方法中,我設計了一種方法來根據對手的力量來計算 X 的強度。我們根據 X 的對手的對手以及 X 的對手的對手的反對者來計算 X 的對手的力量,依此類推;它成為一種迭代算法,其中每個玩家的力量必須同時計算并經過多次迭代,直到它最終收斂。
除此之外,我還添加了時間加權功能,以使舊版游戲對結果的影響更小。
**Jason** :你的方法專注于加權函數,你從哪里開始,它是如何隨著時間的推移而改變的?
我開始使用指數函數,然后是正常函數,然后是線性函數等,直到我最終確定了我報告的簡單函數和圖中(上圖)。
**Jason** :你的方法使用 Bradley-Terry 模型,這個模型是什么,你是如何利用它的?
[布拉德利 - 特里模型](http://en.wikipedia.org/wiki/Pairwise_comparison)可能是“配對比較”領域最古老的東西之一(即根據他們之間的比賽估算球員/球隊的實力)
這很簡單:給定兩個玩家 X 和 Y 的強度,一個簡單的公式提供一個介于 0 和 1 之間的數字,這可以作為 X 贏得 Y 的“概率”。參見我的報告中的公式(1)。
在我的方法中,我直接使用布拉德利 - 特里公式,在那里我將每個玩家的力量作為贏得虛構參考玩家 Z 的概率,如上所述。
**Jason** :在進行預測之前,你是如何探索玩家初始評級的收斂的?
收斂很慢,這是我的方法中的主要計算問題。我想進行參數調整,但每次嘗試不同的參數值時,我都要等待很長時間才能使整個事物(評級)再次收斂。無論如何,我試圖忍受它,因為缺乏更快的方法。
**Jason** :鑒于玩家預測評分是基于他們的估計評分,您是否花了更多時間探索模型對評分估計或評級預測的影響?
我花了所有時間試圖設計一種方法來估計玩家評分,以便在預測游戲結果時達到最低誤差。關于球員評分的不確定性,我沒有研究任何方面。但是,我傾向于認為 [TrueSkill](http://research.microsoft.com/en-us/projects/trueskill/) 效果很好,因為它包含了球員評分的不確定性。
**杰森**:你嘗試過哪些想法或策略沒有成功?
使用繪圖擴展 Bradley-Terry 模型不起作用。盡管閱讀了很多關于它(其他作者的工作)并實施它,盡管國際象棋結果受到抽獎的困擾,但使用 Bradley-Terry 模型并結合抽簽的可能性對我來說并不適用。我認為這是因為,總而言之,我們所擁有的訓練數據對于這一目的來說相對稀缺。
**杰森**:您在準備私人交叉驗證訓練/測試數據集時遇到了哪些問題?
我嘗試了幾個交叉驗證數據集,因為我不確定哪一個與實際測試數據最相似,我擔心我的參數調整會過度擬合到交叉驗證數據集并且在實際測試數據。
在某些時候,我記得將參數調整作為 6 個交叉驗證數據集的平均值!
**Jason** :您是否在準備模型時過濾或排除了任何數據,如果沒有,您是否考慮排除舊數據?
我試圖拋棄過去歷史的一半(最老的一半),但對未來游戲的預測并沒有好轉。
**Jason** :我讀到你使用爬山本地搜索來調整模型參數,你是否手動選擇了初始值?
是的,但我經常根據之前的結果選擇這些值。
**Jason** :您是否考慮過其他模型調整方法(全局搜索算法,非線性相互依賴假設,分層搜索)?
不,我沒有時間閱讀和實現其他優化算法,我只是試圖達到(本地)最大值,即使這需要使用最粗糙的方法。
**Jason** :我發現你回去并獲得新的模型參數以獲得最終排名第一的得分令人著迷。你為什么這樣做(如果模型不能做得更好的話),你是否考慮進一步探討這個問題(改變交叉驗證套件的假設,重新設計模型的進一步改進)?
我之所以這樣做,是因為我確信如果我的模型如此接近第一名,那么它可以通過不同的參數選擇超越它。但請注意,這個優于第一的結果是過度擬合實際的測試數據。我相信其他參與者一旦掌握了完整的測試數據,就能夠提高他們的分數。
另一方面,在比賽結束后的電子郵件中, [Jeff Sonas](http://en.wikipedia.org/wiki/Jeff_Sonas) 告訴我,最終得分的計算方式實際上存在問題。由于測試數據是如何按玩家月份準備和匯總的,因此一些游戲在公共和私人測試數據之間共享。這可能影響了最終結果(例如,有利于一些過度裝配公共測試數據的參與者)
在同一封電子郵件中,杰夫寫道,當他從測試數據中拿走共享游戲時,我的方法就達到了第一位。
## 第 4 部分:結局
**Jason** :您參與國際象棋評級競賽的一般問題解決方法有哪些變化?
總的來說,我覺得參加這次比賽讓我對從數據中分析和得出結論變得更加謹慎。
能夠預測未來結果可能是發現人們真正了解數據的最佳方式。將模型擬合到數據并得出結論是相當容易的;但要獲得足夠的知識來進行準確的預測要困難得多。
對數據中的不確定性(相對于一致性的數量)產生一種感覺并不容易,并且可能需要大量的時間和艱苦的工作。
最后,當人們意識到存在的不確定性時,人們也可以形成對任何預測所固有的不確定性的想法。超越某一點,非常準確的預測只能是純粹運氣的產物。
所以看到其他人有更好的預測并不一定意味著他們有更好的方法(即使它是一個很好的指標)。不知何故,在不確定的情況下,他們碰巧更接近現場。
在本次比賽中,從公共排行榜到最終排名的位置變化顯示了不確定性在本次比賽中的作用。當我第一次開始懷疑這個時(甚至在比賽結束之前),我感到很震驚,這就是為什么我對數據做出明確陳述變得更加謹慎。
**Jason** :對于開始數據競賽的人,你有什么建議?
我認為不應該在他/她自己的動機中貶低一個人,直到一個人抓住一個完全岌岌可危的感覺,以及數據發生了什么。
當開始參加這樣的比賽時,人們可能會看到快速連續的結果,最好不要考慮這些結果,直到他們自己的想法成熟為止。只有當我們做出體面的嘗試時,我們才應該開始關注別人正在做的事情。
**Jason** :鑒于幾乎無限的資源(時間,金錢,博士團隊),您理想化的數據競爭總體戰略或方法是什么? (你將如何善用資源?)
我認為,如果處理器之間的消息傳遞所需的計算能力明顯低于每個節點的實際計算,那么并行計算是值得的。
因此,如果需要始終保持同步,讓幾個思想(或機器)在同一個問題上一起工作并沒有幫助。
我發現真正有用的是思想的交流。因此,當不同的人自己解決同樣的問題,并且在他們認真思考了一段時間之后,他們會面交流思想,這往往會為討論帶來新的亮點,并成為突破的源泉。
因此,作為團隊努力的策略,我會讓每個人都自己工作,一旦他們準備好或需要它們,他們應該會面并交流經驗和結果。這些會議可以重復幾輪,我期望從一輪到下一輪的結果有一些顯著的改進。
**杰森**:你想做出最后的評論嗎?
比賽非常有趣,雖然它的實際興趣僅限于國際象棋評級,但我覺得我正在努力使用。
考慮到這種競爭可以產生的興趣,我肯定會花時間對這種競爭的設置方式進行雙重和三重檢查,以確保每個人投入的所有努力都能帶來最大利益。對社區。
## 進一步閱讀
* 該競賽的網站名為“[國際象棋評級 - Elo 與世界其他地區](http://www.kaggle.com/c/chess)”,包括最終的私人排行榜
* 迪奧戈的帖子我做了什么帖子標題為“[我是如何做到的:迪奧戈·費雷拉在 Elo 國際象棋評級競賽中排名第四](http://blog.kaggle.com/2010/11/30/how-i-did-it-diogo-ferreira-on-4th-place-in-elo-chess-ratings-competition/)”。
* 迪奧戈有一個主頁他的詳細信息和最終提交的頁面,包括題為“[根據歷史數據](http://web.ist.utl.pt/diogo.ferreira/chess/)預測國際象棋游戲結果”和 Python 代碼的論文。
* 迪奧戈在里斯本技術大學有一個[員工網頁,其中包括一份出版物清單](http://web.ist.utl.pt/diogo.ferreira/)
- Machine Learning Mastery 應用機器學習教程
- 5競爭機器學習的好處
- 過度擬合的簡單直覺,或者為什么測試訓練數據是一個壞主意
- 特征選擇簡介
- 應用機器學習作為一個搜索問題的溫和介紹
- 為什么應用機器學習很難
- 為什么我的結果不如我想的那么好?你可能過度擬合了
- 用ROC曲線評估和比較分類器表現
- BigML評論:發現本機學習即服務平臺的聰明功能
- BigML教程:開發您的第一個決策樹并進行預測
- 構建生產機器學習基礎設施
- 分類準確性不夠:可以使用更多表現測量
- 一種預測模型的巧妙應用
- 機器學習項目中常見的陷阱
- 數據清理:將凌亂的數據轉換為整潔的數據
- 機器學習中的數據泄漏
- 數據,學習和建模
- 數據管理至關重要以及為什么需要認真對待它
- 將預測模型部署到生產中
- 參數和超參數之間有什么區別?
- 測試和驗證數據集之間有什么區別?
- 發現特征工程,如何設計特征以及如何獲得它
- 如何開始使用Kaggle
- 超越預測
- 如何在評估機器學習算法時選擇正確的測試選項
- 如何定義機器學習問題
- 如何評估機器學習算法
- 如何獲得基線結果及其重要性
- 如何充分利用機器學習數據
- 如何識別數據中的異常值
- 如何提高機器學習效果
- 如何在競爭機器學習中踢屁股
- 如何知道您的機器學習模型是否具有良好的表現
- 如何布局和管理您的機器學習項目
- 如何為機器學習準備數據
- 如何減少最終機器學習模型中的方差
- 如何使用機器學習結果
- 如何解決像數據科學家這樣的問題
- 通過數據預處理提高模型精度
- 處理機器學習的大數據文件的7種方法
- 建立機器學習系統的經驗教訓
- 如何使用機器學習清單可靠地獲得準確的預測(即使您是初學者)
- 機器學習模型運行期間要做什么
- 機器學習表現改進備忘單
- 來自世界級從業者的機器學習技巧:Phil Brierley
- 模型預測精度與機器學習中的解釋
- 競爭機器學習的模型選擇技巧
- 機器學習需要多少訓練數據?
- 如何系統地規劃和運行機器學習實驗
- 應用機器學習過程
- 默認情況下可重現的機器學習結果
- 10個實踐應用機器學習的標準數據集
- 簡單的三步法到最佳機器學習算法
- 打擊機器學習數據集中不平衡類的8種策略
- 模型表現不匹配問題(以及如何處理)
- 黑箱機器學習的誘惑陷阱
- 如何培養最終的機器學習模型
- 使用探索性數據分析了解您的問題并獲得更好的結果
- 什么是數據挖掘和KDD
- 為什么One-Hot在機器學習中編碼數據?
- 為什么你應該在你的機器學習問題上進行抽樣檢查算法
- 所以,你正在研究機器學習問題......
- Machine Learning Mastery Keras 深度學習教程
- Keras 中神經網絡模型的 5 步生命周期
- 在 Python 迷你課程中應用深度學習
- Keras 深度學習庫的二元分類教程
- 如何用 Keras 構建多層感知器神經網絡模型
- 如何在 Keras 中檢查深度學習模型
- 10 個用于 Amazon Web Services 深度學習的命令行秘籍
- 機器學習卷積神經網絡的速成課程
- 如何在 Python 中使用 Keras 進行深度學習的度量
- 深度學習書籍
- 深度學習課程
- 你所知道的深度學習是一種謊言
- 如何設置 Amazon AWS EC2 GPU 以訓練 Keras 深度學習模型(分步)
- 神經網絡中批量和迭代之間的區別是什么?
- 在 Keras 展示深度學習模型訓練歷史
- 基于 Keras 的深度學習模型中的dropout正則化
- 評估 Keras 中深度學習模型的表現
- 如何評價深度學習模型的技巧
- 小批量梯度下降的簡要介紹以及如何配置批量大小
- 在 Keras 中獲得深度學習幫助的 9 種方法
- 如何使用 Keras 在 Python 中網格搜索深度學習模型的超參數
- 用 Keras 在 Python 中使用卷積神經網絡進行手寫數字識別
- 如何用 Keras 進行預測
- 用 Keras 進行深度學習的圖像增強
- 8 個深度學習的鼓舞人心的應用
- Python 深度學習庫 Keras 簡介
- Python 深度學習庫 TensorFlow 簡介
- Python 深度學習庫 Theano 簡介
- 如何使用 Keras 函數式 API 進行深度學習
- Keras 深度學習庫的多類分類教程
- 多層感知器神經網絡速成課程
- 基于卷積神經網絡的 Keras 深度學習庫中的目標識別
- 流行的深度學習庫
- 用深度學習預測電影評論的情感
- Python 中的 Keras 深度學習庫的回歸教程
- 如何使用 Keras 獲得可重現的結果
- 如何在 Linux 服務器上運行深度學習實驗
- 保存并加載您的 Keras 深度學習模型
- 用 Keras 逐步開發 Python 中的第一個神經網絡
- 用 Keras 理解 Python 中的有狀態 LSTM 循環神經網絡
- 在 Python 中使用 Keras 深度學習模型和 Scikit-Learn
- 如何使用預訓練的 VGG 模型對照片中的物體進行分類
- 在 Python 和 Keras 中對深度學習模型使用學習率調度
- 如何在 Keras 中可視化深度學習神經網絡模型
- 什么是深度學習?
- 何時使用 MLP,CNN 和 RNN 神經網絡
- 為什么用隨機權重初始化神經網絡?
- Machine Learning Mastery 深度學習 NLP 教程
- 深度學習在自然語言處理中的 7 個應用
- 如何實現自然語言處理的波束搜索解碼器
- 深度學習文檔分類的最佳實踐
- 關于自然語言處理的熱門書籍
- 在 Python 中計算文本 BLEU 分數的溫和介紹
- 使用編碼器 - 解碼器模型的用于字幕生成的注入和合并架構
- 如何用 Python 清理機器學習的文本
- 如何配置神經機器翻譯的編碼器 - 解碼器模型
- 如何開始深度學習自然語言處理(7 天迷你課程)
- 自然語言處理的數據集
- 如何開發一種深度學習的詞袋模型來預測電影評論情感
- 深度學習字幕生成模型的溫和介紹
- 如何在 Keras 中定義神經機器翻譯的編碼器 - 解碼器序列 - 序列模型
- 如何利用小實驗在 Keras 中開發字幕生成模型
- 如何從頭開發深度學習圖片標題生成器
- 如何在 Keras 中開發基于字符的神經語言模型
- 如何開發用于情感分析的 N-gram 多通道卷積神經網絡
- 如何從零開始開發神經機器翻譯系統
- 如何在 Python 中用 Keras 開發基于單詞的神經語言模型
- 如何開發一種預測電影評論情感的詞嵌入模型
- 如何使用 Gensim 在 Python 中開發詞嵌入
- 用于文本摘要的編碼器 - 解碼器深度學習模型
- Keras 中文本摘要的編碼器 - 解碼器模型
- 用于神經機器翻譯的編碼器 - 解碼器循環神經網絡模型
- 淺談詞袋模型
- 文本摘要的溫和介紹
- 編碼器 - 解碼器循環神經網絡中的注意力如何工作
- 如何利用深度學習自動生成照片的文本描述
- 如何開發一個單詞級神經語言模型并用它來生成文本
- 淺談神經機器翻譯
- 什么是自然語言處理?
- 牛津自然語言處理深度學習課程
- 如何為機器翻譯準備法語到英語的數據集
- 如何為情感分析準備電影評論數據
- 如何為文本摘要準備新聞文章
- 如何準備照片標題數據集以訓練深度學習模型
- 如何使用 Keras 為深度學習準備文本數據
- 如何使用 scikit-learn 為機器學習準備文本數據
- 自然語言處理神經網絡模型入門
- 對自然語言處理的深度學習的承諾
- 在 Python 中用 Keras 進行 LSTM 循環神經網絡的序列分類
- 斯坦福自然語言處理深度學習課程評價
- 統計語言建模和神經語言模型的簡要介紹
- 使用 Keras 在 Python 中進行 LSTM 循環神經網絡的文本生成
- 淺談機器學習中的轉換
- 如何使用 Keras 將詞嵌入層用于深度學習
- 什么是用于文本的詞嵌入
- Machine Learning Mastery 深度學習時間序列教程
- 如何開發人類活動識別的一維卷積神經網絡模型
- 人類活動識別的深度學習模型
- 如何評估人類活動識別的機器學習算法
- 時間序列預測的多層感知器網絡探索性配置
- 比較經典和機器學習方法進行時間序列預測的結果
- 如何通過深度學習快速獲得時間序列預測的結果
- 如何利用 Python 處理序列預測問題中的缺失時間步長
- 如何建立預測大氣污染日的概率預測模型
- 如何開發一種熟練的機器學習時間序列預測模型
- 如何構建家庭用電自回歸預測模型
- 如何開發多步空氣污染時間序列預測的自回歸預測模型
- 如何制定多站點多元空氣污染時間序列預測的基線預測
- 如何開發時間序列預測的卷積神經網絡模型
- 如何開發卷積神經網絡用于多步時間序列預測
- 如何開發單變量時間序列預測的深度學習模型
- 如何開發 LSTM 模型用于家庭用電的多步時間序列預測
- 如何開發 LSTM 模型進行時間序列預測
- 如何開發多元多步空氣污染時間序列預測的機器學習模型
- 如何開發多層感知器模型進行時間序列預測
- 如何開發人類活動識別時間序列分類的 RNN 模型
- 如何開始深度學習的時間序列預測(7 天迷你課程)
- 如何網格搜索深度學習模型進行時間序列預測
- 如何對單變量時間序列預測的網格搜索樸素方法
- 如何在 Python 中搜索 SARIMA 模型超參數用于時間序列預測
- 如何在 Python 中進行時間序列預測的網格搜索三次指數平滑
- 一個標準的人類活動識別問題的溫和介紹
- 如何加載和探索家庭用電數據
- 如何加載,可視化和探索復雜的多變量多步時間序列預測數據集
- 如何從智能手機數據模擬人類活動
- 如何根據環境因素預測房間占用率
- 如何使用腦波預測人眼是開放還是閉合
- 如何在 Python 中擴展長短期內存網絡的數據
- 如何使用 TimeseriesGenerator 進行 Keras 中的時間序列預測
- 基于機器學習算法的室內運動時間序列分類
- 用于時間序列預測的狀態 LSTM 在線學習的不穩定性
- 用于罕見事件時間序列預測的 LSTM 模型體系結構
- 用于時間序列預測的 4 種通用機器學習數據變換
- Python 中長短期記憶網絡的多步時間序列預測
- 家庭用電機器學習的多步時間序列預測
- Keras 中 LSTM 的多變量時間序列預測
- 如何開發和評估樸素的家庭用電量預測方法
- 如何為長短期記憶網絡準備單變量時間序列數據
- 循環神經網絡在時間序列預測中的應用
- 如何在 Python 中使用差異變換刪除趨勢和季節性
- 如何在 LSTM 中種子狀態用于 Python 中的時間序列預測
- 使用 Python 進行時間序列預測的有狀態和無狀態 LSTM
- 長短時記憶網絡在時間序列預測中的適用性
- 時間序列預測問題的分類
- Python 中長短期記憶網絡的時間序列預測
- 基于 Keras 的 Python 中 LSTM 循環神經網絡的時間序列預測
- Keras 中深度學習的時間序列預測
- 如何用 Keras 調整 LSTM 超參數進行時間序列預測
- 如何在時間序列預測訓練期間更新 LSTM 網絡
- 如何使用 LSTM 網絡的 Dropout 進行時間序列預測
- 如何使用 LSTM 網絡中的特征進行時間序列預測
- 如何在 LSTM 網絡中使用時間序列進行時間序列預測
- 如何利用 LSTM 網絡進行權重正則化進行時間序列預測
- Machine Learning Mastery 線性代數教程
- 機器學習數學符號的基礎知識
- 用 NumPy 陣列輕松介紹廣播
- 如何從 Python 中的 Scratch 計算主成分分析(PCA)
- 用于編碼器審查的計算線性代數
- 10 機器學習中的線性代數示例
- 線性代數的溫和介紹
- 用 NumPy 輕松介紹 Python 中的 N 維數組
- 機器學習向量的溫和介紹
- 如何在 Python 中為機器學習索引,切片和重塑 NumPy 數組
- 機器學習的矩陣和矩陣算法簡介
- 溫和地介紹機器學習的特征分解,特征值和特征向量
- NumPy 對預期價值,方差和協方差的簡要介紹
- 機器學習矩陣分解的溫和介紹
- 用 NumPy 輕松介紹機器學習的張量
- 用于機器學習的線性代數中的矩陣類型簡介
- 用于機器學習的線性代數備忘單
- 線性代數的深度學習
- 用于機器學習的線性代數(7 天迷你課程)
- 機器學習的線性代數
- 機器學習矩陣運算的溫和介紹
- 線性代數評論沒有廢話指南
- 學習機器學習線性代數的主要資源
- 淺談機器學習的奇異值分解
- 如何用線性代數求解線性回歸
- 用于機器學習的稀疏矩陣的溫和介紹
- 機器學習中向量規范的溫和介紹
- 學習線性代數用于機器學習的 5 個理由
- Machine Learning Mastery LSTM 教程
- Keras中長短期記憶模型的5步生命周期
- 長短時記憶循環神經網絡的注意事項
- CNN長短期記憶網絡
- 逆向神經網絡中的深度學習速成課程
- 可變長度輸入序列的數據準備
- 如何用Keras開發用于Python序列分類的雙向LSTM
- 如何開發Keras序列到序列預測的編碼器 - 解碼器模型
- 如何診斷LSTM模型的過度擬合和欠擬合
- 如何開發一種編碼器 - 解碼器模型,注重Keras中的序列到序列預測
- 編碼器 - 解碼器長短期存儲器網絡
- 神經網絡中爆炸梯度的溫和介紹
- 對時間反向傳播的溫和介紹
- 生成長短期記憶網絡的溫和介紹
- 專家對長短期記憶網絡的簡要介紹
- 在序列預測問題上充分利用LSTM
- 編輯器 - 解碼器循環神經網絡全局注意的溫和介紹
- 如何利用長短時記憶循環神經網絡處理很長的序列
- 如何在Python中對一個熱編碼序列數據
- 如何使用編碼器 - 解碼器LSTM來回顯隨機整數序列
- 具有注意力的編碼器 - 解碼器RNN體系結構的實現模式
- 學習使用編碼器解碼器LSTM循環神經網絡添加數字
- 如何學習長短時記憶循環神經網絡回聲隨機整數
- 具有Keras的長短期記憶循環神經網絡的迷你課程
- LSTM自動編碼器的溫和介紹
- 如何用Keras中的長短期記憶模型進行預測
- 用Python中的長短期內存網絡演示內存
- 基于循環神經網絡的序列預測模型的簡要介紹
- 深度學習的循環神經網絡算法之旅
- 如何重塑Keras中長短期存儲網絡的輸入數據
- 了解Keras中LSTM的返回序列和返回狀態之間的差異
- RNN展開的溫和介紹
- 5學習LSTM循環神經網絡的簡單序列預測問題的例子
- 使用序列進行預測
- 堆疊長短期內存網絡
- 什么是教師強制循環神經網絡?
- 如何在Python中使用TimeDistributed Layer for Long Short-Term Memory Networks
- 如何準備Keras中截斷反向傳播的序列預測
- 如何在使用LSTM進行訓練和預測時使用不同的批量大小
- Machine Learning Mastery 機器學習算法教程
- 機器學習算法之旅
- 用于機器學習的裝袋和隨機森林集合算法
- 從頭開始實施機器學習算法的好處
- 更好的樸素貝葉斯:從樸素貝葉斯算法中獲取最多的12個技巧
- 機器學習的提升和AdaBoost
- 選擇機器學習算法:Microsoft Azure的經驗教訓
- 機器學習的分類和回歸樹
- 什么是機器學習中的混淆矩陣
- 如何使用Python從頭開始創建算法測試工具
- 通過創建機器學習算法的目標列表來控制
- 從頭開始停止編碼機器學習算法
- 在實現機器學習算法時,不要從開源代碼開始
- 不要使用隨機猜測作為基線分類器
- 淺談機器學習中的概念漂移
- 溫和介紹機器學習中的偏差 - 方差權衡
- 機器學習的梯度下降
- 機器學習算法如何工作(他們學習輸入到輸出的映射)
- 如何建立機器學習算法的直覺
- 如何實現機器學習算法
- 如何研究機器學習算法行為
- 如何學習機器學習算法
- 如何研究機器學習算法
- 如何研究機器學習算法
- 如何在Python中從頭開始實現反向傳播算法
- 如何用Python從頭開始實現Bagging
- 如何用Python從頭開始實現基線機器學習算法
- 如何在Python中從頭開始實現決策樹算法
- 如何用Python從頭開始實現學習向量量化
- 如何利用Python從頭開始隨機梯度下降實現線性回歸
- 如何利用Python從頭開始隨機梯度下降實現Logistic回歸
- 如何用Python從頭開始實現機器學習算法表現指標
- 如何在Python中從頭開始實現感知器算法
- 如何在Python中從零開始實現隨機森林
- 如何在Python中從頭開始實現重采樣方法
- 如何用Python從頭開始實現簡單線性回歸
- 如何用Python從頭開始實現堆棧泛化(Stacking)
- K-Nearest Neighbors for Machine Learning
- 學習機器學習的向量量化
- 機器學習的線性判別分析
- 機器學習的線性回歸
- 使用梯度下降進行機器學習的線性回歸教程
- 如何在Python中從頭開始加載機器學習數據
- 機器學習的Logistic回歸
- 機器學習的Logistic回歸教程
- 機器學習算法迷你課程
- 如何在Python中從頭開始實現樸素貝葉斯
- 樸素貝葉斯機器學習
- 樸素貝葉斯機器學習教程
- 機器學習算法的過擬合和欠擬合
- 參數化和非參數機器學習算法
- 理解任何機器學習算法的6個問題
- 在機器學習中擁抱隨機性
- 如何使用Python從頭開始擴展機器學習數據
- 機器學習的簡單線性回歸教程
- 有監督和無監督的機器學習算法
- 用于機器學習的支持向量機
- 在沒有數學背景的情況下理解機器學習算法的5種技術
- 最好的機器學習算法
- 教程從頭開始在Python中實現k-Nearest Neighbors
- 通過從零開始實現它們來理解機器學習算法(以及繞過壞代碼的策略)
- 使用隨機森林:在121個數據集上測試179個分類器
- 為什么從零開始實現機器學習算法
- Machine Learning Mastery 機器學習入門教程
- 機器學習入門的四個步驟:初學者入門與實踐的自上而下策略
- 你應該培養的 5 個機器學習領域
- 一種選擇機器學習算法的數據驅動方法
- 機器學習中的分析與數值解
- 應用機器學習是一種精英政治
- 機器學習的基本概念
- 如何成為數據科學家
- 初學者如何在機器學習中弄錯
- 機器學習的最佳編程語言
- 構建機器學習組合
- 機器學習中分類與回歸的區別
- 評估自己作為數據科學家并利用結果建立驚人的數據科學團隊
- 探索 Kaggle 大師的方法論和心態:對 Diogo Ferreira 的采訪
- 擴展機器學習工具并展示掌握
- 通過尋找地標開始機器學習
- 溫和地介紹預測建模
- 通過提供結果在機器學習中獲得夢想的工作
- 如何開始機器學習:自學藍圖
- 開始并在機器學習方面取得進展
- 應用機器學習的 Hello World
- 初學者如何使用小型項目開始機器學習并在 Kaggle 上進行競爭
- 我如何開始機器學習? (簡短版)
- 我是如何開始機器學習的
- 如何在機器學習中取得更好的成績
- 如何從在銀行工作到擔任 Target 的高級數據科學家
- 如何學習任何機器學習工具
- 使用小型目標項目深入了解機器學習工具
- 獲得付費申請機器學習
- 映射機器學習工具的景觀
- 機器學習開發環境
- 機器學習金錢
- 程序員的機器學習
- 機器學習很有意思
- 機器學習是 Kaggle 比賽
- 機器學習現在很受歡迎
- 機器學習掌握方法
- 機器學習很重要
- 機器學習 Q& A:概念漂移,更好的結果和學習更快
- 缺乏自學機器學習的路線圖
- 機器學習很重要
- 快速了解任何機器學習工具(即使您是初學者)
- 機器學習工具
- 找到你的機器學習部落
- 機器學習在一年
- 通過競爭一致的大師 Kaggle
- 5 程序員在機器學習中開始犯錯誤
- 哲學畢業生到機器學習從業者(Brian Thomas 采訪)
- 機器學習入門的實用建議
- 實用機器學習問題
- 使用來自 UCI 機器學習庫的數據集練習機器學習
- 使用秘籍的任何機器學習工具快速啟動
- 程序員可以進入機器學習
- 程序員應該進入機器學習
- 項目焦點:Shashank Singh 的人臉識別
- 項目焦點:使用 Mahout 和 Konstantin Slisenko 進行堆棧交換群集
- 機器學習自學指南
- 4 個自學機器學習項目
- álvaroLemos 如何在數據科學團隊中獲得機器學習實習
- 如何思考機器學習
- 現實世界機器學習問題之旅
- 有關機器學習的有用知識
- 如果我沒有學位怎么辦?
- 如果我不是一個優秀的程序員怎么辦?
- 如果我不擅長數學怎么辦?
- 為什么機器學習算法會處理以前從未見過的數據?
- 是什么阻礙了你的機器學習目標?
- 什么是機器學習?
- 機器學習適合哪里?
- 為什么要進入機器學習?
- 研究對您來說很重要的機器學習問題
- 你這樣做是錯的。為什么機器學習不必如此困難
- Machine Learning Mastery Sklearn 教程
- Scikit-Learn 的溫和介紹:Python 機器學習庫
- 使用 Python 管道和 scikit-learn 自動化機器學習工作流程
- 如何以及何時使用帶有 scikit-learn 的校準分類模型
- 如何比較 Python 中的機器學習算法與 scikit-learn
- 用于機器學習開發人員的 Python 崩潰課程
- 用 scikit-learn 在 Python 中集成機器學習算法
- 使用重采樣評估 Python 中機器學習算法的表現
- 使用 Scikit-Learn 在 Python 中進行特征選擇
- Python 中機器學習的特征選擇
- 如何使用 scikit-learn 在 Python 中生成測試數據集
- scikit-learn 中的機器學習算法秘籍
- 如何使用 Python 處理丟失的數據
- 如何開始使用 Python 進行機器學習
- 如何使用 Scikit-Learn 在 Python 中加載數據
- Python 中概率評分方法的簡要介紹
- 如何用 Scikit-Learn 調整算法參數
- 如何在 Mac OS X 上安裝 Python 3 環境以進行機器學習和深度學習
- 使用 scikit-learn 進行機器學習簡介
- 從 shell 到一本帶有 Fernando Perez 單一工具的書的 IPython
- 如何使用 Python 3 為機器學習開發創建 Linux 虛擬機
- 如何在 Python 中加載機器學習數據
- 您在 Python 中的第一個機器學習項目循序漸進
- 如何使用 scikit-learn 進行預測
- 用于評估 Python 中機器學習算法的度量標準
- 使用 Pandas 為 Python 中的機器學習準備數據
- 如何使用 Scikit-Learn 為 Python 機器學習準備數據
- 項目焦點:使用 Artem Yankov 在 Python 中進行事件推薦
- 用于機器學習的 Python 生態系統
- Python 是應用機器學習的成長平臺
- Python 機器學習書籍
- Python 機器學習迷你課程
- 使用 Pandas 快速和骯臟的數據分析
- 使用 Scikit-Learn 重新調整 Python 中的機器學習數據
- 如何以及何時使用 ROC 曲線和精確調用曲線進行 Python 分類
- 使用 scikit-learn 在 Python 中保存和加載機器學習模型
- scikit-learn Cookbook 書評
- 如何使用 Anaconda 為機器學習和深度學習設置 Python 環境
- 使用 scikit-learn 在 Python 中進行 Spot-Check 分類機器學習算法
- 如何在 Python 中開發可重復使用的抽樣檢查算法框架
- 使用 scikit-learn 在 Python 中進行 Spot-Check 回歸機器學習算法
- 使用 Python 中的描述性統計來了解您的機器學習數據
- 使用 OpenCV,Python 和模板匹配來播放“哪里是 Waldo?”
- 使用 Pandas 在 Python 中可視化機器學習數據
- Machine Learning Mastery 統計學教程
- 淺談計算正態匯總統計量
- 非參數統計的溫和介紹
- Python中常態測試的溫和介紹
- 淺談Bootstrap方法
- 淺談機器學習的中心極限定理
- 淺談機器學習中的大數定律
- 機器學習的所有統計數據
- 如何計算Python中機器學習結果的Bootstrap置信區間
- 淺談機器學習的Chi-Squared測試
- 機器學習的置信區間
- 隨機化在機器學習中解決混雜變量的作用
- 機器學習中的受控實驗
- 機器學習統計學速成班
- 統計假設檢驗的關鍵值以及如何在Python中計算它們
- 如何在機器學習中談論數據(統計學和計算機科學術語)
- Python中數據可視化方法的簡要介紹
- Python中效果大小度量的溫和介紹
- 估計隨機機器學習算法的實驗重復次數
- 機器學習評估統計的溫和介紹
- 如何計算Python中的非參數秩相關性
- 如何在Python中計算數據的5位數摘要
- 如何在Python中從頭開始編寫學生t檢驗
- 如何在Python中生成隨機數
- 如何轉換數據以更好地擬合正態分布
- 如何使用相關來理解變量之間的關系
- 如何使用統計信息識別數據中的異常值
- 用于Python機器學習的隨機數生成器簡介
- k-fold交叉驗證的溫和介紹
- 如何計算McNemar的比較兩種機器學習量詞的測試
- Python中非參數統計顯著性測試簡介
- 如何在Python中使用參數統計顯著性測試
- 機器學習的預測間隔
- 應用統計學與機器學習的密切關系
- 如何使用置信區間報告分類器表現
- 統計數據分布的簡要介紹
- 15 Python中的統計假設檢驗(備忘單)
- 統計假設檢驗的溫和介紹
- 10如何在機器學習項目中使用統計方法的示例
- Python中統計功效和功耗分析的簡要介紹
- 統計抽樣和重新抽樣的簡要介紹
- 比較機器學習算法的統計顯著性檢驗
- 機器學習中統計容差區間的溫和介紹
- 機器學習統計書籍
- 評估機器學習模型的統計數據
- 機器學習統計(7天迷你課程)
- 用于機器學習的簡明英語統計
- 如何使用統計顯著性檢驗來解釋機器學習結果
- 什么是統計(為什么它在機器學習中很重要)?
- Machine Learning Mastery 時間序列入門教程
- 如何在 Python 中為時間序列預測創建 ARIMA 模型
- 用 Python 進行時間序列預測的自回歸模型
- 如何回溯機器學習模型的時間序列預測
- Python 中基于時間序列數據的基本特征工程
- R 的時間序列預測熱門書籍
- 10 挑戰機器學習時間序列預測問題
- 如何將時間序列轉換為 Python 中的監督學習問題
- 如何將時間序列數據分解為趨勢和季節性
- 如何用 ARCH 和 GARCH 模擬波動率進行時間序列預測
- 如何將時間序列數據集與 Python 區分開來
- Python 中時間序列預測的指數平滑的溫和介紹
- 用 Python 進行時間序列預測的特征選擇
- 淺談自相關和部分自相關
- 時間序列預測的 Box-Jenkins 方法簡介
- 用 Python 簡要介紹時間序列的時間序列預測
- 如何使用 Python 網格搜索 ARIMA 模型超參數
- 如何在 Python 中加載和探索時間序列數據
- 如何使用 Python 對 ARIMA 模型進行手動預測
- 如何用 Python 進行時間序列預測的預測
- 如何使用 Python 中的 ARIMA 進行樣本外預測
- 如何利用 Python 模擬殘差錯誤來糾正時間序列預測
- 使用 Python 進行數據準備,特征工程和時間序列預測的移動平均平滑
- 多步時間序列預測的 4 種策略
- 如何在 Python 中規范化和標準化時間序列數據
- 如何利用 Python 進行時間序列預測的基線預測
- 如何使用 Python 對時間序列預測數據進行功率變換
- 用于時間序列預測的 Python 環境
- 如何重構時間序列預測問題
- 如何使用 Python 重新采樣和插值您的時間序列數據
- 用 Python 編寫 SARIMA 時間序列預測
- 如何在 Python 中保存 ARIMA 時間序列預測模型
- 使用 Python 進行季節性持久性預測
- 基于 ARIMA 的 Python 歷史規模敏感性預測技巧分析
- 簡單的時間序列預測模型進行測試,這樣你就不會欺騙自己
- 標準多變量,多步驟和多站點時間序列預測問題
- 如何使用 Python 檢查時間序列數據是否是固定的
- 使用 Python 進行時間序列數據可視化
- 7 個機器學習的時間序列數據集
- 時間序列預測案例研究與 Python:波士頓每月武裝搶劫案
- Python 的時間序列預測案例研究:巴爾的摩的年度用水量
- 使用 Python 進行時間序列預測研究:法國香檳的月銷售額
- 使用 Python 的置信區間理解時間序列預測不確定性
- 11 Python 中的經典時間序列預測方法(備忘單)
- 使用 Python 進行時間序列預測表現測量
- 使用 Python 7 天迷你課程進行時間序列預測
- 時間序列預測作為監督學習
- 什么是時間序列預測?
- 如何使用 Python 識別和刪除時間序列數據的季節性
- 如何在 Python 中使用和刪除時間序列數據中的趨勢信息
- 如何在 Python 中調整 ARIMA 參數
- 如何用 Python 可視化時間序列殘差預測錯誤
- 白噪聲時間序列與 Python
- 如何通過時間序列預測項目
- Machine Learning Mastery XGBoost 教程
- 通過在 Python 中使用 XGBoost 提前停止來避免過度擬合
- 如何在 Python 中調優 XGBoost 的多線程支持
- 如何配置梯度提升算法
- 在 Python 中使用 XGBoost 進行梯度提升的數據準備
- 如何使用 scikit-learn 在 Python 中開發您的第一個 XGBoost 模型
- 如何在 Python 中使用 XGBoost 評估梯度提升模型
- 在 Python 中使用 XGBoost 的特征重要性和特征選擇
- 淺談機器學習的梯度提升算法
- 應用機器學習的 XGBoost 簡介
- 如何在 macOS 上為 Python 安裝 XGBoost
- 如何在 Python 中使用 XGBoost 保存梯度提升模型
- 從梯度提升開始,比較 165 個數據集上的 13 種算法
- 在 Python 中使用 XGBoost 和 scikit-learn 進行隨機梯度提升
- 如何使用 Amazon Web Services 在云中訓練 XGBoost 模型
- 在 Python 中使用 XGBoost 調整梯度提升的學習率
- 如何在 Python 中使用 XGBoost 調整決策樹的數量和大小
- 如何在 Python 中使用 XGBoost 可視化梯度提升決策樹
- 在 Python 中開始使用 XGBoost 的 7 步迷你課程