機器學習: scikit-learn 中的設置以及預估對象 · sklearn中文文檔

# 機器學習: scikit-learn 中的設置以及預估對象校驗者: [@Kyrie](https://github.com/apachecn/scikit-learn-doc-zh) [@片刻](https://github.com/apachecn/scikit-learn-doc-zh) 翻譯者: [@冰塊](https://github.com/apachecn/scikit-learn-doc-zh) ## 數據集 Scikit-learn可以從一個或者多個數據集中學習信息，這些數據集合可表示為2維陣列，也可認為是一個列表。列表的第一個維度代表 **樣本** ，第二個維度代表 **特征** （每一行代表一個樣本，每一列代表一種特征）。樣例: iris 數據集（鳶尾花卉數據集） ``` >>> from sklearn import datasets >>> iris = datasets.load_iris() >>> data = iris.data >>> data.shape (150, 4) ``` 這個數據集包含150個樣本，每個樣本包含4個特征：花萼長度，花萼寬度，花瓣長度，花瓣寬度，詳細數據可以通過``iris.DESCR``查看。如果原始數據不是``(n\_samples, n\_features)``的形狀時，使用之前需要進行預處理以供scikit-learn使用。數據預處理樣例:digits數據集(手寫數字數據集) [![http://sklearn.apachecn.org/cn/0.19.0/_images/sphx_glr_plot_digits_last_image_001.png](https://box.kancloud.cn/43592ff4c7cb588f6902be555ee8ad67_300x300.jpg)](../../auto_examples/datasets/plot_digits_last_image.html)digits數據集包含1797個手寫數字的圖像，每個圖像為8\*8像素 ``` >>> digits = datasets.load_digits() >>> digits.images.shape (1797, 8, 8) >>> import matplotlib.pyplot as plt >>> plt.imshow(digits.images[-1], cmap=plt.cm.gray_r) <matplotlib.image.AxesImage object at ...> ``` 為了在scikit中使用這一數據集，需要將每一張8×8的圖像轉換成長度為64的特征向量 ``` >>> data = digits.images.reshape((digits.images.shape[0], -1)) ``` ## 預估對象 **擬合數據**: scikit-learn實現最重要的一個API是`estimator`。estimators是基于數據進行學習的任何對象，它可以是一個分類器，回歸或者是一個聚類算法，或者是從原始數據中提取/過濾有用特征的變換器。所有的擬合模型對象擁有一個名為``fit``的方法，參數是一個數據集（通常是一個2維列表）: ``` >>> estimator.fit(data) ``` **擬合模型對象構造參數**: 在創建一個擬合模型時，可以設置相關參數，在創建之后也可以修改對應的參數: ``` >>> estimator = Estimator(param1=1, param2=2) >>> estimator.param1 1 ``` **擬合參數**: 當擬合模型完成對數據的擬合之后，可以從擬合模型中獲取擬合的參數結果，所有擬合完成的參數均以下劃線(\_)作為結尾: ``` >>> estimator.estimated_param_ ```