4. 數據集轉換 · sklearn中文文檔

# 4. 數據集轉換 scikit-learn 提供了一個用于轉換數據集的庫, 它也許會 clean（清理）（請參閱 [預處理數據](modules/preprocessing.html#preprocessing)）, reduce（減少）（請參閱 [無監督降維](modules/unsupervised_reduction.html#data-reduction)）, expand（擴展）（請參閱 [內核近似](modules/kernel_approximation.html#kernel-approximation)）或 generate（生成）（請參閱 [特征提取](modules/feature_extraction.html#feature-extraction)） feature representations（特征表示）. 像其它預估計一樣, 它們由具有 `fit` 方法的類來表示, 該方法從訓練集學習模型參數（例如, 歸一化的平均值和標準偏差）以及將該轉換模型應用于 `transform` 方法到不可見數據. 同時 `fit_transform` 可以更方便和有效地建模與轉換訓練數據. 將 [Pipeline（管道）和 FeatureUnion（特征聯合）: 合并的評估器](modules/pipeline.html#combining-estimators) 中 transformers（轉換）使用并行的或者串聯的方式合并到一起. [成對的矩陣, 類別和核函數](modules/metrics.html#metrics) 涵蓋將特征空間轉換為 affinity matrices（親和矩陣）, 而 [預測目標 (y) 的轉換](modules/preprocessing_targets.html#preprocessing-targets) 考慮在 scikit-learn 中使用目標空間的轉換（例如. 標簽分類）. - [4.1. Pipeline（管道）和 FeatureUnion（特征聯合）: 合并的評估器](modules/pipeline.html) - [4.1.1. Pipeline: 鏈式評估器](modules/pipeline.html#pipeline) - [4.1.1.1. 用法](modules/pipeline.html#id8) - [4.1.1.2. 注意點](modules/pipeline.html#id9) - [4.1.1.3. 緩存轉換器：避免重復計算](modules/pipeline.html#pipeline-cache) - [4.1.2. FeatureUnion（特征聯合）: 個特征層面](modules/pipeline.html#featureunion) - [4.1.2.1. 用法](modules/pipeline.html#id11) - [4.2. 特征提取](modules/feature_extraction.html) - [4.2.1. 從字典類型加載特征](modules/feature_extraction.html#dict-feature-extraction) - [4.2.2. 特征哈希（相當于一種降維技巧）](modules/feature_extraction.html#feature-hashing) - [4.2.2.1. 實現細節](modules/feature_extraction.html#id4) - [4.2.3. 文本特征提取](modules/feature_extraction.html#text-feature-extraction) - [4.2.3.1. 話語表示](modules/feature_extraction.html#id7) - [4.2.3.2. 稀疏](modules/feature_extraction.html#id8) - [4.2.3.3. 常用 Vectorizer 使用](modules/feature_extraction.html#vectorizer) - [4.2.3.4. Tf–idf 項加權](modules/feature_extraction.html#tfidf) - [4.2.3.5. 解碼文本文件](modules/feature_extraction.html#id10) - [4.2.3.6. 應用和實例](modules/feature_extraction.html#id11) - [4.2.3.7. 詞語表示的限制](modules/feature_extraction.html#id12) - [4.2.3.8. 用哈希技巧矢量化大文本語料庫](modules/feature_extraction.html#hashing-vectorizer) - [4.2.3.9. 使用 HashingVectorizer 執行外核縮放](modules/feature_extraction.html#hashingvectorizer) - [4.2.3.10. 自定義矢量化器類](modules/feature_extraction.html#id14) - [4.2.4. 圖像特征提取](modules/feature_extraction.html#image-feature-extraction) - [4.2.4.1. 補丁提取](modules/feature_extraction.html#id16) - [4.2.4.2. 圖像的連接圖](modules/feature_extraction.html#id17) - [4.3. 預處理數據](modules/preprocessing.html) - [4.3.1. 標準化，也稱去均值和方差按比例縮放](modules/preprocessing.html#preprocessing-scaler) - [4.3.1.1. 將特征縮放至特定范圍內](modules/preprocessing.html#id3) - [4.3.1.2. 縮放稀疏（矩陣）數據](modules/preprocessing.html#id4) - [4.3.1.3. 縮放有離群值的數據](modules/preprocessing.html#id5) - [4.3.1.4. 核矩陣的中心化](modules/preprocessing.html#kernel-centering) - [4.3.2. 非線性轉換](modules/preprocessing.html#preprocessing-transformer) - [4.3.3. 歸一化](modules/preprocessing.html#preprocessing-normalization) - [4.3.4. 二值化](modules/preprocessing.html#preprocessing-binarization) - [4.3.4.1. 特征二值化](modules/preprocessing.html#id10) - [4.3.5. 分類特征編碼](modules/preprocessing.html#preprocessing-categorical-features) - [4.3.6. 缺失值插補](modules/preprocessing.html#imputation) - [4.3.7. 生成多項式特征](modules/preprocessing.html#polynomial-features) - [4.3.8. 自定義轉換器](modules/preprocessing.html#function-transformer) - [4.4. 無監督降維](modules/unsupervised_reduction.html) - [4.4.1. PCA: 主成份分析](modules/unsupervised_reduction.html#pca) - [4.4.2. 隨機投影](modules/unsupervised_reduction.html#id2) - [4.4.3. 特征聚集](modules/unsupervised_reduction.html#id3) - [4.5. 隨機投影](modules/random_projection.html) - [4.5.1. Johnson-Lindenstrauss 輔助定理](modules/random_projection.html#johnson-lindenstrauss) - [4.5.2. 高斯隨機投影](modules/random_projection.html#gaussian-random-matrix) - [4.5.3. 稀疏隨機矩陣](modules/random_projection.html#sparse-random-matrix) - [4.6. 內核近似](modules/kernel_approximation.html) - [4.6.1. 內核近似的 Nystroem 方法](modules/kernel_approximation.html#nystroem) - [4.6.2. 徑向基函數內核](modules/kernel_approximation.html#rbf-kernel-approx) - [4.6.3. 加性卡方核](modules/kernel_approximation.html#additive-chi-kernel-approx) - [4.6.4. Skewed Chi Squared Kernel (偏斜卡方核?暫譯)](modules/kernel_approximation.html#skewed-chi-squared-kernel) - [4.6.5. 數學方面的細節](modules/kernel_approximation.html#id8) - [4.7. 成對的矩陣, 類別和核函數](modules/metrics.html) - [4.7.1. 余弦相似度](modules/metrics.html#cosine-similarity) - [4.7.2. 線性核函數](modules/metrics.html#linear-kernel) - [4.7.3. 多項式核函數](modules/metrics.html#polynomial-kernel) - [4.7.4. Sigmoid 核函數](modules/metrics.html#sigmoid) - [4.7.5. RBF 核函數](modules/metrics.html#rbf) - [4.7.6. 拉普拉斯核函數](modules/metrics.html#laplacian-kernel) - [4.7.7. 卡方核函數](modules/metrics.html#chi2-kernel) - [4.8. 預測目標 (`y`) 的轉換](modules/preprocessing_targets.html) - [4.8.1. 標簽二值化](modules/preprocessing_targets.html#id1) - [4.8.2. 標簽編碼](modules/preprocessing_targets.html#id2)