探索 Kaggle 大師的方法論和心態：對 Diogo Ferreira 的采訪 · Machine Learning Mastery 博客文章翻譯

# 探索 Kaggle 大師的方法論和心態：對 Diogo Ferreira 的采訪 > 原文： [https://machinelearningmastery.com/discover-the-methodology-and-mindset-of-a-kaggle-master-an-interview-with-diogo-ferreira/](https://machinelearningmastery.com/discover-the-methodology-and-mindset-of-a-kaggle-master-an-interview-with-diogo-ferreira/) 在競爭機器學習中做得好怎么辦？要真正深入研究這個問題，你需要挖掘那些做得好的人。 2010 年，我參加了一場 Kaggle 比賽，以預測未來國際象棋比賽的結果。這是一個令人著迷的問題，因為它要求你從歷史游戲中對玩家的評級進行建模，并將這些評級傳播到未來以進行預測。我在比賽中做到了這樣（第 17 或 10％），但迪奧戈·費雷拉獲得第 4 名。迪奧戈是一個迷人的人，也是一個出色的溝通者，2011 年我有機會采訪他，了解他參加比賽的情況。這篇文章是該訪談的編輯版本。采訪分為四個部分： * **第 1 部分**探討了 Diogo 的問題解決背景和方法 * **第 2 部分**關于 Kaggle 國際象棋評級比賽 * **第 3 部分**潛入迪奧戈的國際象棋評級競賽解決方案 * **第 4 部分**給我們留下了一些關于競爭機器學習從業者的最終想法（最好的部分！）喝一杯，坐下來享受吧！ ## 第 1 部分：背景和方法 [![Diogo Ferreira](img/295643de0d31ba9cba731e02dcb77364.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/10/Diogo-Ferreira.jpg) 迪奧戈·費雷拉 **杰森**：你能介紹一下自己嗎？ **Diogo** ：我的名字是 Diogo R. Ferreira，我是里斯本技術大學（葡萄牙）的信息系統教授，在那里我教數據庫系統，企業集成和業務流程管理（BPM）。我也是 BPM 領域的活躍研究員，特別關注過程挖掘，即與從信息系統記錄的事件日志中提取過程模型相關的技術。 **Jason** ：您的教育和工作經歷中有哪些經驗，如果有的話，有助于您參與國際象棋評級競賽并獲得成功？ Process Mining，我的研究領域，與商業智能和數據挖掘領域相關，這使我接觸到一系列技術，這些技術通常可以被調整或作為解決不同問題的靈感。至于國際象棋評級比賽，我對國際象棋有著長期的興趣，這讓我對這場比賽特別感興趣。 **Jason** ：您對流程挖掘的描述激發了挖掘 Web 服務器日志的想法，并將結果與??流經網站相關聯。確切地說，這是我們所做的事情，只有事件日志（即信息系統記錄的事件）才能來自過程感知系統（例如工作流/ BPM 系統）或其他（例如應用服務器日志） **Jason** ：像我這樣熟悉的流程挖掘的例子是什么，例如，是否有規范的案例研究或用例？有關介紹，我或許可以引導您閱讀最近發布的 [Process Mining Manifesto](http://www.win.tue.nl/ieeetfpm/lib/exe/fetch.php?media=shared:process_mining_manifesto-small.pdf) （PDF）。對于一些案例研究示例，我可以引導您訪問[我自己的一些出版物](http://web.ist.utl.pt/diogo.ferreira/)。 [流程挖掘網站](http://www.processmining.org)還有更多內容。 **Jason** ：最近有哪些 BI 和數據挖掘技術的例子，你已經適應了你的努力，如果有的話，以及你試圖解決的問題類型？序列聚類，期望最大化，序列分析，圖形分析，是我已經使用或適用于過程挖掘應用程序的技術。 **杰森**：一般來說，當提出新的數據集，評級或其他時，你從哪里開始，你的方法是什么？首先，我通常會開發一組簡單的程序來從數據集中提取特征，以便更好地理解它。通常情況下，數據集對于手動檢查而言太大，因此開始使用一些基本工具非常有用，以便找出應該進一步的方向。然后，在我對數據有感覺之后，我通常嘗試一些相當簡單，甚至是微不足道的方法來執行“健全性檢查”，即只是為了驗證結果是我期望的，以便獲得對數據集。在我充滿信心之后，我開始嘗試更精細的方法。這些方法通常都是我自己做的。在稍后階段，我通常將我的結果與眾所周知的秘籍或技術進行比較。 **杰森**：我發現你的方法論描述引人入勝，謝謝你。您最近使用哪些工具或技術從新數據集中提取要素？為了從新數據集中提取特征，我主要使用 ad-hoc 自定義代碼，我發現使用 Python 和相關庫（如 numpy，matplotlib，networkx 等）非常有效。 **Jason** ：在談到這種情況下的功能時，你是什么意思？（匯總統計數據？數據中的結構？預測規則？）精確匯總統計數據和/或在數據集中查找共性和頻繁行為的方法。 **Jason** ：如果您可以手動檢查數據集，那么您使用了哪些示例或工具？我只是使用簡單的搜索和查找/查找所有/ find-in-files / grep 功能，例如大多數文本編輯器中提供的功能。 **Jason** ：在處理數據問題時，你會準備什么類型的任務來定制代碼和腳本，以及你會將哪些類型的任務轉向工具和庫？我經常自己編寫代碼，即使有相似的代碼可用。這是因為逐步開發代碼也是了解有關數據的更多信息的一種方式。我轉向工具和庫，特別是當我想將我的結果與其他人的結果或競爭方法進行比較時。 **Jason** ：你提到：“_ 逐步開發代碼是一種了解數據 _ 的方法，這非常有趣。如果可能的話，請你詳細說明一下嗎？（例如，你指的是什么具體的東西，如：原型創意？犯錯誤？探索死胡同？時間思考？發現邊緣情況？）當我開始處理數據時，我通常會花時間檢查每個中間步驟（編碼）是否按預期工作，并且在該過程中，人們學習了很多關于數據本身的知識。我通常不會探索死胡同或邊緣情況，我只是抓住機會在路上停下來（即如果將編碼與駕駛進行比較，我會說我會偶爾停下來看看周圍看看景觀，而不僅僅是直接開往目的地） **杰森**：你對拼圖，機器學習，算法，編程，統計學，數學，心理學有多大程度的興趣？我對所有這些方面都有興趣，但我常常受到手頭特定問題的激勵，無論面積如何。我對這些領域的每個問題都不感興趣，但我可能對來自不同領域的一些特殊問題感興趣。 **Jason** ：一般來說，你會發現哪些方法可以返回常見的數據任務？我會說，由于我的研究領域（過程挖掘），我反復回到文本/字符串處理和圖形分析，我發現這些技能在不同的問題中經常有用。 **Jason** ：您認為哪些技術，工具和/或庫對于 a）文本/字符串處理和 b）圖表分析有用？對于文本/彈簧處理，我使用標準 Python 模塊中提供的簡單函數（查找，拆分等）對于圖形分析，使用諸如 networkx 和 Graphviz 之類的專用庫通常很有用。 **Jason** ：您在不同的問題中使用過文本/字符串處理和/或圖形分析的一些創造性方法或最近的例子是什么？最近我一直在分析來自兩家不同醫院的事件日志，我正在使用那些工具/技術。 **杰森**：一般來說，當你的方法沒有給出你期望的結果時，你如何保持動力？我可能覺得這種方法有問題，在這種情況下我會嘗試修復它。或者，如果它沒有任何問題，那么我就開始考慮對同一問題采用完全不同的方法。無論哪種方式，這往往讓我有動力。 **Jason** ：您認為哪些技能能夠成為此類數據競賽的參與者？我認為競爭參與者必須有一些堅定和不可動搖的動力，而不是技能。我見過非常熟練的人甚至沒有付出努力，也沒有那些技術嫻熟的人訴諸各種各樣的東西，其中一些人最終證明是有效的。所以這不是一個人知道多少的問題，而是一個人愿意付出多少努力。 **Jason** ：我有興趣更多地探索你的動機與技能哲學。你能否談談“創造力和/或思想的多樣性”和“嘗試不同事物的適應性”比“原始技能，智慧，經驗”更有用（請原諒我的簡潔解釋）？一個基本事實是，最重要的是，事情是否已經完成。技能意味著可以做到這一點，但只有動力才能讓人開始這樣做。事情通過其結果進行評估這一事實意味著在某些情況下會產生不幸的后果，例如投入了大量時間并且最終沒有得到結果的人。這就是技能發揮作用的地方：它使人們更有可能從投資中獲得一些成果。但僅靠技能還不足以應對某些挑戰的復雜性。即使有技巧，手頭的任務也可能很難，所以這就是動力再次出現的地方。這是一個開始，它讓人繼續前進。當然，法拉利（更多的技能）會更快地獲得一輛，但這并不意味著用一輛裝備較少的車輛，甚至是不能在同一條道路/路徑上行駛的車輛也不可能到達那里。如果到達那里是最重要的，那么無論是哪輛車還是路徑都無關緊要。擁有汽油（動力）到達那里變得比擁有快速汽車（技能）更重要。 **Jason** ：在解決數據問題時，調整模型可能在某個地方占有一席之地，在嘗試新模型和調整有希望的模型之間可以做些什么來尋求富有成效的平衡？改善的速度告訴我們何時改變策略。當改善率開始下降時，是時候開始考慮新模型了。 **Jason** ：一般來說，您是否更愿意花時間調整給定模型的數據問題或嘗試不同的模型？就我個人而言，我寧愿花時間嘗試不同的模型，但實際上發生的情況是，當模型開始看起來很有前途時，我經常投入大量時間來調整它，這讓我花費的時間少于我想要嘗試不同模型的時間。這種情況發生在國際象棋比賽中，盡管我考慮過嘗試其他方法，但最終我花了大部分時間來調整和改進單一模型。 **杰森**：為什么你認為模型調整不如探索新模型（例如，增量增益與替代范式）相比不那么令人滿意？因為人們可能會花費大量時間進行調整，并且最終仍然受到原始模型假設的限制。比如說，通過調整可以獲得 20％的改進，而使用新模型可以得到 50％。如果可能的話，突破性思維往往帶來更多回報 - 至少這是我個人的感受。 ## 第 2 部分：國際象棋評級競賽 [![White vs Black](img/d5f4f4a6855e0b062f01b6155f3d5065.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/10/White-versus-Black.jpg) 白色與黑色攝影： [Gideon](https://www.flickr.com/photos/malias/73169727/) ，保留一些權利 **Jason** ：你提到了國際象棋的長期興趣，長期興趣是什么？你有多長時間了？在我十幾歲的時候，我曾經參加國際象棋比賽，今天我仍然關注國際象棋界的情況，盡管我不再是一名活躍的球員。有一段時間，我仍然在線玩，這是我希望在我十幾歲時可以使用的東西。 **杰森**：用你自己的話來說，國際象棋評級競賽需要解決的問題是什么？在我看來，國際象棋評級競賽的目的是設計一個評級系統，以便為評級玩家之間的游戲結果提供更準確的預測。 **Jason** ：我讀到你是從鉛筆和紙開始的，當你第一次參加比賽時你在考慮或探索什么？你是如何抵制跳上電腦和制作劇本的？當我第一次開始考慮比賽時，我正在尋找一個合適的概率模型，我在紙上劃了一些東西，有時相同的公式會一遍又一遍地出現。與此同時，我開始編寫一些簡單的任務，例如讀取/解析數據和獲取一些摘要統計信息。過了一段時間，我經常從編碼切換到在紙上抓東西，兩個陣營的事情都開始快速發展。 **杰森**：從高級別來看，請總結一下你在比賽過程中的線性步驟？我的方法的基礎模型開發得相當快，在整個競賽過程中我使用了基本相同的模型，偶爾會有一些變化。花費我時間開發的是一個合適的加權函數來計算時間因素（即最近的游戲比舊游戲更重要的事實）我一直在嘗試幾個選項，在私人數據集中，我觀察到了一些改進，盡管公開得分對我是否走上正確的軌道幾乎沒有信心。 **杰森**：你在比賽過程中與誰合作過什么？（電子郵件交流，形式討論等）我與一位同事進行了幾次簡短的對話，關于競爭以及有關數據挖掘，過度擬合等的一般情況。在這些對話中，我們主要討論了競爭的建立方式，而不是特定的方法。我還記得在加權函數中使用正態分布的一些建議，但最終我設計了自己的函數。 **杰森**：我讀到你希望在比賽上花幾天時間，讓你參與這么久的事情是什么？這有兩個有力的原因： 1. 每天在公共排行榜上看到其他人的進步，并將其與我自己的排行榜進行比較，讓我對這場比賽感到非常激動。 2. 事實上，我自己的交叉驗證結果與公共排行榜上的結果之間幾乎沒有相關性。這讓我忙了一段時間，因為我不確定我的方法到底會如何實際表現。 **杰森**：用簡單的話來說，你（最成功的）解決競爭問題的方法是什么？我認為這是最簡單的一個，即當我將代碼簡化為真正基本的東西時，我認為它是一個堅實的基礎。其他想法，例如獲得一些改進的智能修復，被證明是非常耗時的，并且幾乎沒有提供額外的獎勵。 **Jason** ：您在比賽過程中執行了哪些數據匯總和數據可視化，如果有的話？我使用 networkx Python 庫來研究數據集中玩家之間的連接（游戲）。除此之外，我使用了摘要統計數據，例如每月游戲，每月玩家每月游戲等。 **Jason** ：您對數據集的哪些經典方法適用于數據集，如果有的話，以及何時在比賽過程中？我沒用過。我的想法總是為每個玩家獲得 0.0 到 1.0 之間的標準化評級。 **Jason** ：您已經發布了有關您的方法和源代碼的詳細說明 - 為什么您在描述中付出了這樣的努力并免費發布代碼？好吧，我習慣寫科學論文，以這種形式提出描述是有道理的。至于源代碼，我認為幾乎沒有人會遇到實施該方法的麻煩，即使他們這樣做也許他們不會采取必要的謹慎措施來確保一切都按照原先的意圖實施;這可能會產生關于我的方法的報告，其結果比我用自己的代碼獲得的結果更糟糕。那么為什么不將源代碼作為參考實現發布，就是這樣。 **Jason** ：回顧一下，您認為計算時間或計算機硬件是否會對您或您的方法產生影響？肯定是的。我記得我的筆記本電腦連續運行了好幾天。在某些時候，我甚至嘗試使用我們大學的服務器，卻發現它在我的筆記本電腦上運行得更快。參數調整通常需要數小時甚至數天才能完成。我經常發現自己每小時檢查事情的進展情況，即使是在半夜，也希望我能有更多的機器可以同時運行。唯一的原因是這并不是絕對關鍵的事實是我們每天僅限于 2 次提交，我發現這通常是相當不錯的。我記得將實際提交的數量除以同一時期允許的提交總數，并得到接近 50％的數字。總的來說，我認為我設法充分利用了我所擁有的提交數量。 **Jason** ：討論使用排行榜以及您在私有數據集中看到的差異？如果我沒記錯的話，我將公共數據集分為 1 到 100 個月的交叉驗證數據集：1 到 95（訓練）+ 96 到 100（測試）。（我還和 1 到 90 + 91 到 95，以及其他人一起工作）發生的事情是，交叉驗證數據集上的更好結果通常意味著公共排行榜的結果更糟。也許之前的提交更好，因為過度擬合或只是運氣。無論如何，這無助于建立對我所嘗試的事物的信心。交叉驗證結果表明它肯定會更好，但公共排行榜卻表示不然。在某些時候，我（以及其他參與者）可能會開始覺得公共數據集和排行榜存在很大差異。最后，我認為這只是因為排行榜得分是根據相當少量的數據計算的（20％）。 **Jason** ：您在私人搜索結果中搜索的統計數據與公共排行榜相比（如果有的話）（例如，您是否探索了兩者之間的相關性）？我沒有探索兩者之間的任何相關性，因為它似乎沒有。至于統計數據，我記得競爭使用月份匯總的 RMSE 作為誤差測量。我記得嘗試使用其他測量，例如每場比賽的絕對偏差，每場比賽的 RMSE 等等。所以我做了一些參數調整，試圖最小化這些其他錯誤測量。然而，最終似乎使用月份匯總的 RMSE 更好。 **Jason** ：基于您對成功或以后刪除的數據的觀察，'_ 智能修復 _'有哪些例子？這是一個例子：在一些游戲中，白色或黑色勝利的預測接近 1.0（例如 0.98 概率）。所以我所做的是設置一個閾值（例如 0.98），高于該閾值，結果將轉換為 1.0。這有助于略微降低整體預測??誤差，問題在于閾值的選擇非常敏感，所以最終我放棄了使用這些技巧。 **Jason** ：您能否回顧一下有關回顧摘要統計數據和數據探索的有趣觀察結果？我記得的一件事是，最近幾個月的游戲比過去幾個月還多。我認為這也解釋了需要這種快速下降的時間函數。由于游戲很少，很難得出結論，因此舊游戲并不是很有用。然而，即使是最近的游戲也沒有那么多（總數），所以老游戲仍然被證明對預測有用。我認為，這是為什么選擇時間加權函數如此困難的另一個原因。 **杰森**：為什么你在整個參與過程中專注于標準化評級？因為我主要是在處理概率，而且直覺上我也希望將玩家的等級表示為概率測量（更多內容見下文）。 **Jason** ：您是否記錄了您正在考慮或嘗試的事情的筆記或日志？我在單獨的文件中保存了每個提交的代碼。但是，我有一個單獨的參數調整程序，我沒有保存它的每個版本。在如此多的提交中（最終 100 多個），有時我不確定我是否已經嘗試過某些東西。 ## 第 3 部分：有關特定解決方案的問題 [![graphs](img/87a5d52c47f700d58c5363905268238f.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/10/graphs.png) 我使用的時間加權函數的圖，Diogo 的報告中對此進行了解釋。 **Jason** ：你的方法只有 100 多行 Python 代碼（沒有注釋），我認為這是令人難以置信的。你能描述一下你的算法（用簡單的語言）嗎？基本上，我估計每個玩家 X 的強度作為對公共參考玩家 Z 的預期得分。（這個參考玩家 Z 是抽象實體，它不存在，它的強度不需要計算，其目的只是將所有球員的實力帶到可比較的條件下。）如果我們將每個玩家 X 的結果與參考玩家 Z 進行比較，那么我們將獲得玩家 X 的評級，就是這樣。但是我們沒有 X 對陣 Z 的結果，我們得到的是 X 對陣一組對手的結果，其實力也是未知數。在我的方法中，我設計了一種方法來根據對手的力量來計算 X 的強度。我們根據 X 的對手的對手以及 X 的對手的對手的反對者來計算 X 的對手的力量，依此類推;它成為一種迭代算法，其中每個玩家的力量必須同時計算并經過多次迭代，直到它最終收斂。除此之外，我還添加了時間加權功能，以使舊版游戲對結果的影響更小。 **Jason** ：你的方法專注于加權函數，你從哪里開始，它是如何隨著時間的推移而改變的？我開始使用指數函數，然后是正常函數，然后是線性函數等，直到我最終確定了我報告的簡單函數和圖中（上圖）。 **Jason** ：你的方法使用 Bradley-Terry 模型，這個模型是什么，你是如何利用它的？ [布拉德利 - 特里模型](http://en.wikipedia.org/wiki/Pairwise_comparison)可能是“配對比較”領域最古老的東西之一（即根據他們之間的比賽估算球員/球隊的實力）這很簡單：給定兩個玩家 X 和 Y 的強度，一個簡單的公式提供一個介于 0 和 1 之間的數字，這可以作為 X 贏得 Y 的“概率”。參見我的報告中的公式（1）。在我的方法中，我直接使用布拉德利 - 特里公式，在那里我將每個玩家的力量作為贏得虛構參考玩家 Z 的概率，如上所述。 **Jason** ：在進行預測之前，你是如何探索玩家初始評級的收斂的？收斂很慢，這是我的方法中的主要計算問題。我想進行參數調整，但每次嘗試不同的參數值時，我都要等待很長時間才能使整個事物（評級）再次收斂。無論如何，我試圖忍受它，因為缺乏更快的方法。 **Jason** ：鑒于玩家預測評分是基于他們的估計評分，您是否花了更多時間探索模型對評分估計或評級預測的影響？我花了所有時間試圖設計一種方法來估計玩家評分，以便在預測游戲結果時達到最低誤差。關于球員評分的不確定性，我沒有研究任何方面。但是，我傾向于認為 [TrueSkill](http://research.microsoft.com/en-us/projects/trueskill/) 效果很好，因為它包含了球員評分的不確定性。 **杰森**：你嘗試過哪些想法或策略沒有成功？使用繪圖擴展 Bradley-Terry 模型不起作用。盡管閱讀了很多關于它（其他作者的工作）并實施它，盡管國際象棋結果受到抽獎的困擾，但使用 Bradley-Terry 模型并結合抽簽的可能性對我來說并不適用。我認為這是因為，總而言之，我們所擁有的訓練數據對于這一目的來說相對稀缺。 **杰森**：您在準備私人交叉驗證訓練/測試數據集時遇到了哪些問題？我嘗試了幾個交叉驗證數據集，因為我不確定哪一個與實際測試數據最相似，我擔心我的參數調整會過度擬合到交叉驗證數據集并且在實際測試數據。在某些時候，我記得將參數調整作為 6 個交叉驗證數據集的平均值！ **Jason** ：您是否在準備模型時過濾或排除了任何數據，如果沒有，您是否考慮排除舊數據？我試圖拋棄過去歷史的一半（最老的一半），但對未來游戲的預測并沒有好轉。 **Jason** ：我讀到你使用爬山本地搜索來調整模型參數，你是否手動選擇了初始值？是的，但我經常根據之前的結果選擇這些值。 **Jason** ：您是否考慮過其他模型調整方法（全局搜索算法，非線性相互依賴假設，分層搜索）？不，我沒有時間閱讀和實現其他優化算法，我只是試圖達到（本地）最大值，即使這需要使用最粗糙的方法。 **Jason** ：我發現你回去并獲得新的模型參數以獲得最終排名第一的得分令人著迷。你為什么這樣做（如果模型不能做得更好的話），你是否考慮進一步探討這個問題（改變交叉驗證套件的假設，重新設計模型的進一步改進）？我之所以這樣做，是因為我確信如果我的模型如此接近第一名，那么它可以通過不同的參數選擇超越它。但請注意，這個優于第一的結果是過度擬合實際的測試數據。我相信其他參與者一旦掌握了完整的測試數據，就能夠提高他們的分數。另一方面，在比賽結束后的電子郵件中， [Jeff Sonas](http://en.wikipedia.org/wiki/Jeff_Sonas) 告訴我，最終得分的計算方式實際上存在問題。由于測試數據是如何按玩家月份準備和匯總的，因此一些游戲在公共和私人測試數據之間共享。這可能影響了最終結果（例如，有利于一些過度裝配公共測試數據的參與者）在同一封電子郵件中，杰夫寫道，當他從測試數據中拿走共享游戲時，我的方法就達到了第一位。 ## 第 4 部分：結局 **Jason** ：您參與國際象棋評級競賽的一般問題解決方法有哪些變化？總的來說，我覺得參加這次比賽讓我對從數據中分析和得出結論變得更加謹慎。能夠預測未來結果可能是發現人們真正了解數據的最佳方式。將模型擬合到數據并得出結論是相當容易的;但要獲得足夠的知識來進行準確的預測要困難得多。對數據中的不確定性（相對于一致性的數量）產生一種感覺并不容易，并且可能需要大量的時間和艱苦的工作。最后，當人們意識到存在的不確定性時，人們也可以形成對任何預測所固有的不確定性的想法。超越某一點，非常準確的預測只能是純粹運氣的產物。所以看到其他人有更好的預測并不一定意味著他們有更好的方法（即使它是一個很好的指標）。不知何故，在不確定的情況下，他們碰巧更接近現場。在本次比賽中，從公共排行榜到最終排名的位置變化顯示了不確定性在本次比賽中的作用。當我第一次開始懷疑這個時（甚至在比賽結束之前），我感到很震驚，這就是為什么我對數據做出明確陳述變得更加謹慎。 **Jason** ：對于開始數據競賽的人，你有什么建議？我認為不應該在他/她自己的動機中貶低一個人，直到一個人抓住一個完全岌岌可危的感覺，以及數據發生了什么。當開始參加這樣的比賽時，人們可能會看到快速連續的結果，最好不要考慮這些結果，直到他們自己的想法成熟為止。只有當我們做出體面的嘗試時，我們才應該開始關注別人正在做的事情。 **Jason** ：鑒于幾乎無限的資源（時間，金錢，博士團隊），您理想化的數據競爭總體戰略或方法是什么？（你將如何善用資源？）我認為，如果處理器之間的消息傳遞所需的計算能力明顯低于每個節點的實際計算，那么并行計算是值得的。因此，如果需要始終保持同步，讓幾個思想（或機器）在同一個問題上一起工作并沒有幫助。我發現真正有用的是思想的交流。因此，當不同的人自己解決同樣的問題，并且在他們認真思考了一段時間之后，他們會面交流思想，這往往會為討論帶來新的亮點，并成為突破的源泉。因此，作為團隊努力的策略，我會讓每個人都自己工作，一旦他們準備好或需要它們，他們應該會面并交流經驗和結果。這些會議可以重復幾輪，我期望從一輪到下一輪的結果有一些顯著的改進。 **杰森**：你想做出最后的評論嗎？比賽非常有趣，雖然它的實際興趣僅限于國際象棋評級，但我覺得我正在努力使用。考慮到這種競爭可以產生的興趣，我肯定會花時間對這種競爭的設置方式進行雙重和三重檢查，以確保每個人投入的所有努力都能帶來最大利益。對社區。 ## 進一步閱讀 * 該競賽的網站名為“[國際象棋評級 - Elo 與世界其他地區](http://www.kaggle.com/c/chess)”，包括最終的私人排行榜 * 迪奧戈的帖子我做了什么帖子標題為“[我是如何做到的：迪奧戈·費雷拉在 Elo 國際象棋評級競賽中排名第四](http://blog.kaggle.com/2010/11/30/how-i-did-it-diogo-ferreira-on-4th-place-in-elo-chess-ratings-competition/)”。 * 迪奧戈有一個主頁他的詳細信息和最終提交的頁面，包括題為“[根據歷史數據](http://web.ist.utl.pt/diogo.ferreira/chess/)預測國際象棋游戲結果”和 Python 代碼的論文。 * 迪奧戈在里斯本技術大學有一個[員工網頁，其中包括一份出版物清單](http://web.ist.utl.pt/diogo.ferreira/)