## 特征選擇
> `SelectKBest` - 根據k最高分選擇功能。
### 構造函數參數
`$k`(int) - 要選擇的頂級特征數,休息將被刪除(默認值:10)
`$scoringFunction`(ScoringFunction) - 獲取樣本和目標并返回帶分數的數組的函數(默認值:ANOVAFValue)
```
use Phpml\FeatureSelection\SelectKBest;
$transformer = new SelectKBest(2);
```
*****
## 使用示例
作為示例,我們可以在Iris數據集上執行特征選擇,以僅檢索兩個最佳特征,如下所示:
```
use Phpml\FeatureSelection\SelectKBest;
use Phpml\Dataset\Demo\IrisDataset;
$dataset = new IrisDataset();
$selector = new SelectKBest(2);
$selector->fit($samples = $dataset->getSamples(), $dataset->getTargets());
$selector->transform($samples);
/*
$samples[0] = [1.4, 0.2];
*/
```
## 評分
您可以獲得包含每個要素的計算得分的數組。值越高意味著給定的特征更適合學習。當然,評級取決于所使用的評分函數。
```
use Phpml\FeatureSelection\SelectKBest;
use Phpml\Dataset\Demo\IrisDataset;
$dataset = new IrisDataset();
$selector = new SelectKBest(2);
$selector->fit($samples = $dataset->getSamples(), $dataset->getTargets());
$selector->scores();
/*
..array(4) {
[0]=>
float(119.26450218451)
[1]=>
float(47.364461402997)
[2]=>
float(1179.0343277002)
[3]=>
float(959.32440572573)
}
*/
```
*****
### 評分功能
可用的評分功能:
對于分類: - `ANOVAFValue`單因素方差分析檢驗2個或更多組具有相同總體平均值的原假設。該測試適用于來自兩個或更多組的樣品,可能具有不同的尺寸。
對于回歸: - `UnivariateLinearRegression`用于測試單個回歸量的效果的快速線性模型,順序地用于許多回歸量。這分兩步完成: - 1.計算每個回歸量與目標之間的互相關,即`((X[:,i] - mean(X [:,i]))*(y - mean_y))/(std(X [:,i])* std(y))`。- 2.它被轉換為F分數
## Pipeline
`SelectKBest`實現了`Transformer`接口,因此它可以用作`Pipeline`的一部分:
```
use Phpml\FeatureSelection\SelectKBest;
use Phpml\Classification\SVC;
use Phpml\FeatureExtraction\TfIdfTransformer;
use Phpml\Pipeline;
$transformers = [
new TfIdfTransformer(),
new SelectKBest(3)
];
$estimator = new SVC();
$pipeline = new Pipeline($transformers, $estimator);
```
- 基本介紹
- 關聯規則學習
- 分類
- SVC
- k近鄰算法
- NaiveBayes
- 回歸
- 最小二乘法
- SVR
- 聚類
- k均值聚類算法
- DBSCAN聚類算法
- 公
- 準確性
- 混亂矩陣
- 分類報告
- 工作流程
- 神經網絡
- 交叉驗證
- 隨機拆分
- 分層隨機分裂
- 特征選擇
- 方差閾值
- 特征選擇
- 預處理
- 標準化
- 缺失值補全
- 特征提取(自然語言)
- 令牌計數矢量化器(文本處理)
- Tf-idf轉換
- 數據集
- ArrayDataset
- CsvDataset
- FilesDataset
- SvmDataset
- MnistDataset
- 準備使用數據集
- Iris Dataset
- Wine Dataset
- Glass Dataset
- 模型管理
- 數學
- 距離
- 矩陣
- 組
- 統計