# 如何為 scikit-learn 機器學習準備數據
> 原文: [https://pythonbasics.org/how-to-prepare-your-data-for-machine-learning-with-scikit-learn/](https://pythonbasics.org/how-to-prepare-your-data-for-machine-learning-with-scikit-learn/)
如何通過 Scikit-Learn 準備要學習的數據。
如果要使用 scikit-learn 實現學習算法,則要做的第一件事就是準備數據。
這將向您決定使用的學習算法展示問題的結構。
唯一的障礙是需要一種不同的算法來啟動有關要處理數據的不同假設,這有時可能需要進行不同的轉換。
在準備數據以使用 scikit-learn 進行學習時,有四個經過驗證的步驟。 它們包括:
1. 重新縮放數據
2. 數據標準化
3. 規范化數據
4. 將數據轉換為二元
## 數據準備
### 重新縮放數據
重新縮放數據的屬性,特別是當數據的屬性由不同的比例組成時,這使多種學習算法可以從數據的重新縮放過程中受益,以確保數據以相同的比例出現。
此過程可稱為標稱化,其屬性的重標范圍為 0 和 1。它確保存在構成梯度下降核心的優化算法-學習算法的檢查。
```py
import pandas
import scipy
import numpy
from sklearn.preprocessing import MinMaxScaler
# data values
X = [ [110, 200], [120, 800], [310, 400], [140, 900], [510, 200], [653, 400] ,[310, 880] ]
# transofrm data
scaler = MinMaxScaler(feature_range=(0, 1))
rescaledX = scaler.fit_transform(X)
# summarize transformed data
numpy.set_printoptions(precision=2)
print(rescaledX[0:6,:])
```
重新縮放的值將在 0 到 1 之間:
```py
[[0\. 0\. ]
[0.02 0.86]
[0.37 0.29]
[0.06 1\. ]
[0.74 0\. ]
[1\. 0.29]]
```
在考慮中性網絡權重,回歸以及所有涉及距離測量的算法(例如 K 最近鄰)的算法中,它也很有價值。
### 標準化數據
此技術在使用高斯分布的屬性轉換中有效。
高斯分布使用平均值為 0 且標準偏差設置為 1 的情況。邏輯回歸,線性回歸和線性判別分析最適合以高斯分布為輸入變量,從而更好地利用了重新定標的數據。
```py
# Standardize data (0 mean, 1 stdev)
from sklearn.preprocessing import StandardScaler
import pandas
import numpy
# data values
X = [ [110, 200], [120, 800], [310, 400], [140, 900], [510, 200], [653, 400] ,[310, 880] ]
# scaler
scaler = StandardScaler().fit(X)
rescaledX = scaler.transform(X)
# summarize transformed data
numpy.set_printoptions(precision=3)
print(rescaledX[0:6,:])
```
標定值:
```py
[[-1.02 -1.178]
[-0.968 0.901]
[ 0.013 -0.485]
[-0.865 1.247]
[ 1.045 -1.178]
[ 1.783 -0.485]]
```
### 規范化數據
為了規范 Scikit 學習中的數據,它涉及將每個觀察值重新縮放為 1 的長度-線性代數的單位形式。
使用 Scikit-learn 在 Python 中標準化數據時,最好使用 Normalizer 類軟件。
```py
# Normalize values
from sklearn.preprocessing import Normalizer
import pandas
import numpy
# data values
X = [ [110, 200], [120, 800], [310, 400], [140, 900], [510, 200], [653, 400] ,[310, 880] ]
# normalize values
scaler = Normalizer().fit(X)
normalizedX = scaler.transform(X)
# summarize transformed data
numpy.set_printoptions(precision=2)
print(normalizedX[0:6,:])
```
規范化的值是:
```py
[[0.48 0.88]
[0.15 0.99]
[0.61 0.79]
[0.15 0.99]
[0.93 0.37]
[0.85 0.52]]
```
規模可變的稀疏數據集特別受益于使用距離度量(例如 K 最近鄰)的算法預處理。 一個典型的例子是中性網絡。 用數據制作二元
### 二元數據轉換
可以通過將二元閾值標記為小于或等于 0 的 1 來實現。在具有清晰值的概率中很有用。
```py
# Binary values
from sklearn.preprocessing import Binarizer
import pandas
import numpy
# data values
X = [ [110, 200], [120, 800], [310, 400], [140, 900], [510, 200], [653, 400] ,[310, 880] ]
# binarize data
binarizer = Binarizer(threshold=500).fit(X)
binaryX = binarizer.transform(X)
# summarize transformed data
numpy.set_printoptions(precision=1)
print(binaryX[0:6,:])
```
閾值非常重要,因為它將決定哪些值變為零或一。
```py
[[0 0]
[0 1]
[0 0]
[0 1]
[1 0]
[1 0]]
```
另外,在為特征工程添加特征方面,它具有巨大的意義。 到目前為止,您必須熟悉使用 Scikit-learn 進行機器學習的數據準備所涉及的步驟。
請記住,涉及的四個步驟是:
1. 重新縮放數據
2. 數據標準化
3. 規范化數據
4. 使數據二元化。
[下載示例和練習](https://gum.co/MnRYU)
- 介紹
- 學習 python 的 7 個理由
- 為什么 Python 很棒
- 學習 Python
- 入門
- 執行 Python 腳本
- 變量
- 字符串
- 字符串替換
- 字符串連接
- 字符串查找
- 分割
- 隨機數
- 鍵盤輸入
- 控制結構
- if語句
- for循環
- while循環
- 數據與操作
- 函數
- 列表
- 列表操作
- 排序列表
- range函數
- 字典
- 讀取文件
- 寫入文件
- 嵌套循環
- 切片
- 多個返回值
- 作用域
- 時間和日期
- try except
- 如何使用pip和 pypi
- 面向對象
- 類
- 構造函數
- 獲取器和設置器
- 模塊
- 繼承
- 靜態方法
- 可迭代對象
- Python 類方法
- 多重繼承
- 高級
- 虛擬環境
- 枚舉
- Pickle
- 正則表達式
- JSON 和 python
- python 讀取 json 文件
- 裝飾器
- 網絡服務器
- 音頻
- 用 Python 播放聲音
- python 文字轉語音
- 將 MP3 轉換為 WAV
- 轉錄音頻
- Tkinter
- Tkinter
- Tkinter 按鈕
- Tkinter 菜單
- Tkinter 標簽
- Tkinter 圖片
- Tkinter 畫布
- Tkinter 復選框
- Tkinter 輸入框
- Tkinter 文件對話框
- Tkinter 框架
- Tkinter 列表框
- Tkinter 消息框
- Tkinter 單選按鈕
- Tkinter 刻度
- 繪圖
- Matplotlib 條形圖
- Matplotlib 折線圖
- Seaborn 分布圖
- Seaborn 繪圖
- Seaborn 箱形圖
- Seaborn 熱力圖
- Seaborn 直線圖
- Seaborn 成對圖
- Seaborn 調色板
- Seaborn Pandas
- Seaborn 散點圖
- Plotly
- PyQt
- PyQt
- 安裝 PyQt
- PyQt Hello World
- PyQt 按鈕
- PyQt QMessageBox
- PyQt 網格
- QLineEdit
- PyQT QPixmap
- PyQt 組合框
- QCheckBox
- QSlider
- 進度條
- PyQt 表格
- QVBoxLayout
- PyQt 樣式
- 編譯 PyQt 到 EXE
- QDial
- QCheckBox
- PyQt 單選按鈕
- PyQt 分組框
- PyQt 工具提示
- PyQt 工具箱
- PyQt 工具欄
- PyQt 菜單欄
- PyQt 標簽小部件
- PyQt 自動補全
- PyQt 列表框
- PyQt 輸入對話框
- Qt Designer Python
- 機器學習
- 數據科學
- 如何從機器學習和 AI 認真地起步
- 為什么要使用 Python 進行機器學習?
- 機器學習庫
- 什么是機器學習?
- 區分機器學習,深度學習和 AI?
- 機器學習
- 機器學習算法比較
- 為什么要使用 Scikit-Learn?
- 如何在 Python 中加載機器學習數據
- 機器學習分類器
- 機器學習回歸
- Python 中的多項式回歸
- 決策樹
- k 最近鄰
- 訓練測試拆分
- 人臉檢測
- 如何為 scikit-learn 機器學習準備數據
- Selenium
- Selenium 瀏覽器
- Selenium Cookie
- Selenium 執行 JavaScript
- Selenium 按 ID 查找元素
- Selenium 無頭 Firefox
- Selenium Firefox
- Selenium 獲取 HTML
- Selenium 鍵盤
- Selenium 最大化
- Selenium 截圖
- Selenium 向下滾動
- Selenium 切換到窗口
- Selenium 等待頁面加載
- Flask 教程
- Flask 教程:Hello World
- Flask 教程:模板
- Flask 教程:路由