scikit-learn Cookbook 書評 · Machine Learning Mastery 博客文章翻譯

# scikit-learn Cookbook 書評 > 原文： [https://machinelearningmastery.com/scikit-learn-cookbook-book-review/](https://machinelearningmastery.com/scikit-learn-cookbook-book-review/) scikit-learn 庫是 Python 中機器學習的首選庫。在線文檔非常好，但有時可能會感到支離破碎或受到狹隘范例的限制。在這篇文章中，您將發現 Trent Hauck 的書 [Scikit-Learn Cookbook](http://www.amazon.com/dp/1783989483?tag=inspiredalgor-20) ，它提供了一個桌面參考，以補充在線文檔并幫助您快速學習 scikit-learn。我們進入吧。 [![Amazon Image](https://images-na.ssl-images-amazon.com/images/I/51VUsyugLDL.jpg)](http://www.amazon.com/dp/1783989483?tag=inspiredalgor-20) ## 圖書概述 [Scikit-Learn Cookbook](http://www.amazon.com/dp/1783989483?tag=inspiredalgor-20) 是由 [Trent Hauck](https://www.linkedin.com/in/trent-hauck-7253bb23) 撰寫并由 [Packt Publishing](https://www.packtpub.com/big-data-and-business-intelligence/scikit-learn-cookbook) 出版的重點書。這本書的副標題是： > 超過 50 個將 scikit-learn 納入數據科學管道的每一步的秘籍，從特征提取到模型構建和模型評估。它于 2014 年底出版，長度不到 200 頁。我喜歡這個外形。厚厚的參考文本真的讓我離開這些日子（想想[數字秘籍](http://www.amazon.com/dp/0521880688?tag=inspiredalgor-20)，它自豪地坐在我的架子上）。我寧愿有 10 個較小的焦點參考文本，如迷你百科全書系列。我喜歡它是關于 scikit-learn 秘籍的小型尖銳文本。 ### 預訂觀眾這本書不適合機器學習初學者。做記錄。它假定： * 熟悉 Python。 * 熟悉 SciPy 堆棧。 * 熟悉機器學習。對于已經在項目中使用 scikit-learn 的人來說，這些是合理的假設，在這種情況下，本書成為桌面參考，用于咨詢特定的 ad hoc 機器學習任務。 ### 書籍內容這本書由 50 個秘籍組成？（如果我相信目錄和我自己的計數，可能有 57 個秘籍）分為 5 章。 * 第 1 章：預編程工作流程 * 第 2 章：使用線性模型 * 第 3 章：使用距離度量建立模型 * 第 4 章：使用 scikit-learn 對數據進行分類 * 第 5 章：Postmodel 工作流程這些章節通常映射到標準數據科學項目的工作流程： 1. 獲取并準備數據。 2. 嘗試一些線性模型 3. 嘗試一些非線性模型 4. 嘗試一些更多的非線性模型。 5. 完成模型對于一本書來說，這是一個好的結構，問題是僅靠 scikit-learn 并不能很好地服務于所有這些步驟。它擅長于建模部分，并且在數據預處理方面做得很好，但在數據加載和數據分析步驟中卻很難被忽略。接下來我們將依次逐步介紹每一章。 ## 章節演練在本節中，我們將詳細介紹五章中的每個章節。 ### 第 1 章：預編程工作流程本章重點介紹數據準備。這是重新格式化數據以最好地將問題的結構暴露給我們可能選擇稍后使用的機器學習算法。本章共有 17 個秘籍，我將它們分組如下： * 數據加載：加載您自己的數據并使用內置數據集。 * 數據清理：諸如輸入缺失值之類的任務。 * 數據預處理：縮放和特征工程。 * 降維：SVD，PCA 和因子分析。 * 其他：管道，高斯過程和梯度下降。我很傷心，我必須在這里設計自己的結構。我也很遺憾有一個“_ 其他 _”類別。這表明章節中的秘籍組織可以更清潔。我想更多和單獨的縮放方法的秘籍。我發現自己在使用它們之前會對數據集進行大量擴展。這可能是獲得良好結果所需的最常見的預處理步驟。 ### 第 2 章：使用線性模型本章的重點是線性模型。這個較短的章節包含 9 個秘籍。通常，本章的秘籍包括： * 線性回歸 * 規范化回歸 * Logistic 回歸 * 回歸的更多奇特變化，如提升。這又是另一個奇怪的秘籍組合。我想我覺得線性模型的重點可以進一步擴展到 LDA，Perceptron 和平臺支持的其他模型，而不僅限于回歸。 ### 第 3 章：使用距離度量建立模型許多算法確實在其核心使用距離測量。可能會想到的第一個是 KNN，但實際上你可以更廣泛地解釋它并引入支持向量機和使用內核的相關技術等技術。本章重點介紹使用距離測量的技術，并且幾乎專注于 K-Means（本章 9 個秘籍中的 8 個）。本章末尾有一個 KNN 秘籍。該章應該被稱為聚類或 K-Means。此外，我最好注意我的偏見，因為我根本不使用聚類方法，我發現它們對于預測建模完全沒用。 ### 第 4 章：使用 scikit-learn 對數據進行分類從標題來看，本章是關于分類算法的。我將在本章中組織 11 個秘籍如下： * 決策樹（CART 和隨機森林） * 支持向量機 * 判別分析（LDA 和 QDA） * 樸素貝葉斯 * 其他（半監督學習，梯度下降等）我會把 LDA 和 QDA 放在線性模型章節（第 2 章）中，我會添加更多的算法。 scikit-learn 的一大好處是它提供了許多開箱即用的算法。本章涉及的那些算法很好，我所說的是我會將數字增加一倍或三倍，并使算法的秘籍成為本書的重點。 ### 第 5 章：Postmodel 工作流程本章包含 11 個關于一般崗位建模任務的方法。這是技術上不準確的，因為您將這些任務作為建模的一部分來執行，但是，我看到了作者的目的。我將總結本章的秘籍如下： * 重采樣方法（交叉驗證和變化）。 * 算法調整（網格搜索，隨機搜索，手動搜索等）。 * 特征選擇。 * 其他（模型持久性，模型評估和基線）。一個涵蓋重要主題的好章節。非常重要的主題。通常，我會在 k-fold 交叉驗證的上下文中介紹每種算法，因為對于大多數用例，以任何其他方式評估算法可能不是一個好主意。我也很驚訝地看到這本書的特色選擇如此晚。我原本預計會出現在第 1 章中。它屬于數據準備工作。 ## 對書的思考這本書很好。我建議那些尋找好桌面參考的人來支持 scikit-learn 的在線文檔。我通常喜歡每種秘籍的呈現方式。事實上，它的冗長程度很好，而在其他書籍中，秘籍可能過于簡短。結構如下： * 秘籍名稱和描述。 * 做好準備（例如前提條件或要求）。 * 怎么做（實際代碼和實現結果所需的步驟）。 * 工作原理（API 或流程的附加說明）。 * 還有更多（秘籍的可選附加變體是有用的）。鑒于上述軟推薦，我在閱讀時注意到了一些事情。我對許多秘籍的內容感到沮喪。這么多，以至于我永遠不會使用它們在我自己的 scikit - 學習秘籍庫中使用它們從項目到項目。我使用 scikit - 學習了一點點，我花時間閱讀并嘗試了大部分 API。書中的許多秘籍都是手工制作的功能，實際上已經存在于 scikit-learn API 中。也許 API 自發布以來已經更新，但是這確實困擾了我。更少的代碼是更少的維護，如果你使用像 scikit-learn 這樣的庫，那么你應該使用它，并且很好。此外，通常在解釋中有一些方程式。它們主要是提供技術的快捷描述并避免說明。它很好，但它們也可能被排除在外并指向一個好的參考文本，并將激光專注于 scikit-learn API。有些秘籍太長了。我輕盈，專注，自足。我可以復制和粘貼的東西，用于在我自己的項目中啟動流程。你不能涵蓋整個 scikit-learn API，本書的內容非常好。它涵蓋了庫的關鍵部分。我希望看到它涵蓋了區分庫的一些方面，例如更詳細的管道，學習線圖和模型校準。 ## 摘要在這篇文章中，你發現了 Trent Hauck 的書 [Scikit-Learn Cookbook](http://www.amazon.com/dp/1783989483?tag=inspiredalgor-20) 。 [![Amazon Image](https://img.kancloud.cn/b2/f7/b2f70c9788c9f1cf339d5b2ca7d7792f_406x500.jpg)](http://www.amazon.com/dp/1783989483?tag=inspiredalgor-20) 您了解到這是一本包含 50 多種使用 scikit-learn 主題的秘籍的書，例如： * 數據準備。 * 線性和非線性算法。 * 模型評估和算法調整。這是一本合理的秘籍，可用作桌面參考，以補充 scikit-learn 庫的在線文檔。你對這本書有什么問題嗎？你讀過這本書嗎？發表評論，讓我知道你對它的看法。