# 4. 數據集轉換
scikit-learn 提供了一個用于轉換數據集的庫, 它也許會 clean(清理)(請參閱 [預處理數據](modules/preprocessing.html#preprocessing)), reduce(減少)(請參閱 [無監督降維](modules/unsupervised_reduction.html#data-reduction)), expand(擴展)(請參閱 [內核近似](modules/kernel_approximation.html#kernel-approximation))或 generate(生成)(請參閱 [特征提取](modules/feature_extraction.html#feature-extraction)) feature representations(特征表示).
像其它預估計一樣, 它們由具有 `fit` 方法的類來表示, 該方法從訓練集學習模型參數(例如, 歸一化的平均值和標準偏差)以及將該轉換模型應用于 `transform` 方法到不可見數據. 同時 `fit_transform` 可以更方便和有效地建模與轉換訓練數據.
將 [Pipeline(管道)和 FeatureUnion(特征聯合): 合并的評估器](modules/pipeline.html#combining-estimators) 中 transformers(轉換)使用并行的或者串聯的方式合并到一起. [成對的矩陣, 類別和核函數](modules/metrics.html#metrics) 涵蓋將特征空間轉換為 affinity matrices(親和矩陣), 而 [預測目標 (y) 的轉換](modules/preprocessing_targets.html#preprocessing-targets) 考慮在 scikit-learn 中使用目標空間的轉換(例如. 標簽分類).
- [4.1. Pipeline(管道)和 FeatureUnion(特征聯合): 合并的評估器](modules/pipeline.html)
- [4.1.1. Pipeline: 鏈式評估器](modules/pipeline.html#pipeline)
- [4.1.1.1. 用法](modules/pipeline.html#id8)
- [4.1.1.2. 注意點](modules/pipeline.html#id9)
- [4.1.1.3. 緩存轉換器:避免重復計算](modules/pipeline.html#pipeline-cache)
- [4.1.2. FeatureUnion(特征聯合): 個特征層面](modules/pipeline.html#featureunion)
- [4.1.2.1. 用法](modules/pipeline.html#id11)
- [4.2. 特征提取](modules/feature_extraction.html)
- [4.2.1. 從字典類型加載特征](modules/feature_extraction.html#dict-feature-extraction)
- [4.2.2. 特征哈希(相當于一種降維技巧)](modules/feature_extraction.html#feature-hashing)
- [4.2.2.1. 實現細節](modules/feature_extraction.html#id4)
- [4.2.3. 文本特征提取](modules/feature_extraction.html#text-feature-extraction)
- [4.2.3.1. 話語表示](modules/feature_extraction.html#id7)
- [4.2.3.2. 稀疏](modules/feature_extraction.html#id8)
- [4.2.3.3. 常用 Vectorizer 使用](modules/feature_extraction.html#vectorizer)
- [4.2.3.4. Tf–idf 項加權](modules/feature_extraction.html#tfidf)
- [4.2.3.5. 解碼文本文件](modules/feature_extraction.html#id10)
- [4.2.3.6. 應用和實例](modules/feature_extraction.html#id11)
- [4.2.3.7. 詞語表示的限制](modules/feature_extraction.html#id12)
- [4.2.3.8. 用哈希技巧矢量化大文本語料庫](modules/feature_extraction.html#hashing-vectorizer)
- [4.2.3.9. 使用 HashingVectorizer 執行外核縮放](modules/feature_extraction.html#hashingvectorizer)
- [4.2.3.10. 自定義矢量化器類](modules/feature_extraction.html#id14)
- [4.2.4. 圖像特征提取](modules/feature_extraction.html#image-feature-extraction)
- [4.2.4.1. 補丁提取](modules/feature_extraction.html#id16)
- [4.2.4.2. 圖像的連接圖](modules/feature_extraction.html#id17)
- [4.3. 預處理數據](modules/preprocessing.html)
- [4.3.1. 標準化,也稱去均值和方差按比例縮放](modules/preprocessing.html#preprocessing-scaler)
- [4.3.1.1. 將特征縮放至特定范圍內](modules/preprocessing.html#id3)
- [4.3.1.2. 縮放稀疏(矩陣)數據](modules/preprocessing.html#id4)
- [4.3.1.3. 縮放有離群值的數據](modules/preprocessing.html#id5)
- [4.3.1.4. 核矩陣的中心化](modules/preprocessing.html#kernel-centering)
- [4.3.2. 非線性轉換](modules/preprocessing.html#preprocessing-transformer)
- [4.3.3. 歸一化](modules/preprocessing.html#preprocessing-normalization)
- [4.3.4. 二值化](modules/preprocessing.html#preprocessing-binarization)
- [4.3.4.1. 特征二值化](modules/preprocessing.html#id10)
- [4.3.5. 分類特征編碼](modules/preprocessing.html#preprocessing-categorical-features)
- [4.3.6. 缺失值插補](modules/preprocessing.html#imputation)
- [4.3.7. 生成多項式特征](modules/preprocessing.html#polynomial-features)
- [4.3.8. 自定義轉換器](modules/preprocessing.html#function-transformer)
- [4.4. 無監督降維](modules/unsupervised_reduction.html)
- [4.4.1. PCA: 主成份分析](modules/unsupervised_reduction.html#pca)
- [4.4.2. 隨機投影](modules/unsupervised_reduction.html#id2)
- [4.4.3. 特征聚集](modules/unsupervised_reduction.html#id3)
- [4.5. 隨機投影](modules/random_projection.html)
- [4.5.1. Johnson-Lindenstrauss 輔助定理](modules/random_projection.html#johnson-lindenstrauss)
- [4.5.2. 高斯隨機投影](modules/random_projection.html#gaussian-random-matrix)
- [4.5.3. 稀疏隨機矩陣](modules/random_projection.html#sparse-random-matrix)
- [4.6. 內核近似](modules/kernel_approximation.html)
- [4.6.1. 內核近似的 Nystroem 方法](modules/kernel_approximation.html#nystroem)
- [4.6.2. 徑向基函數內核](modules/kernel_approximation.html#rbf-kernel-approx)
- [4.6.3. 加性卡方核](modules/kernel_approximation.html#additive-chi-kernel-approx)
- [4.6.4. Skewed Chi Squared Kernel (偏斜卡方核?暫譯)](modules/kernel_approximation.html#skewed-chi-squared-kernel)
- [4.6.5. 數學方面的細節](modules/kernel_approximation.html#id8)
- [4.7. 成對的矩陣, 類別和核函數](modules/metrics.html)
- [4.7.1. 余弦相似度](modules/metrics.html#cosine-similarity)
- [4.7.2. 線性核函數](modules/metrics.html#linear-kernel)
- [4.7.3. 多項式核函數](modules/metrics.html#polynomial-kernel)
- [4.7.4. Sigmoid 核函數](modules/metrics.html#sigmoid)
- [4.7.5. RBF 核函數](modules/metrics.html#rbf)
- [4.7.6. 拉普拉斯核函數](modules/metrics.html#laplacian-kernel)
- [4.7.7. 卡方核函數](modules/metrics.html#chi2-kernel)
- [4.8. 預測目標 (`y`) 的轉換](modules/preprocessing_targets.html)
- [4.8.1. 標簽二值化](modules/preprocessing_targets.html#id1)
- [4.8.2. 標簽編碼](modules/preprocessing_targets.html#id2)
- scikit-learn 0.19 中文文檔
- 用戶指南
- 1. 監督學習
- 1.1. 廣義線性模型
- 1.2. 線性和二次判別分析
- 1.3. 內核嶺回歸
- 1.4. 支持向量機
- 1.5. 隨機梯度下降
- 1.6. 最近鄰
- 1.7. 高斯過程
- 1.8. 交叉分解
- 1.9. 樸素貝葉斯
- 1.10. 決策樹
- 1.11. 集成方法
- 1.12. 多類和多標簽算法
- 1.13. 特征選擇
- 1.14. 半監督學習
- 1.15. 等式回歸
- 1.16. 概率校準
- 1.17. 神經網絡模型(有監督)
- 2. 無監督學習
- 2.1. 高斯混合模型
- 2.2. 流形學習
- 2.3. 聚類
- 2.4. 雙聚類
- 2.5. 分解成分中的信號(矩陣分解問題)
- 2.6. 協方差估計
- 2.7. 經驗協方差
- 2.8. 收斂協方差
- 2.9. 稀疏逆協方差
- 2.10. Robust 協方差估計
- 2.11. 新奇和異常值檢測
- 2.12. 密度估計
- 2.13. 神經網絡模型(無監督)
- 3. 模型選擇和評估
- 3.1. 交叉驗證:評估估算器的表現
- 3.2. 調整估計器的超參數
- 3.3. 模型評估: 量化預測的質量
- 3.4. 模型持久化
- 3.5. 驗證曲線: 繪制分數以評估模型
- 4. 數據集轉換
- 4.1. Pipeline(管道)和 FeatureUnion(特征聯合): 合并的評估器
- 4.2. 特征提取
- 4.3. 預處理數據
- 4.4. 無監督降維
- 4.5. 隨機投影
- 4.6. 內核近似
- 4.7. 成對的矩陣, 類別和核函數
- 4.8. 預測目標 (y) 的轉換
- 5. 數據集加載工具
- 6. 大規模計算的策略: 更大量的數據
- 7. 計算性能
- 教程
- 使用 scikit-learn 介紹機器學習
- 關于科學數據處理的統計學習教程
- 機器學習: scikit-learn 中的設置以及預估對象
- 監督學習:從高維觀察預測輸出變量
- 模型選擇:選擇估計量及其參數
- 無監督學習: 尋求數據表示
- 把它們放在一起
- 尋求幫助
- 處理文本數據
- 選擇正確的評估器(estimator)
- 外部資源,視頻和談話