## K均值聚類
> K-Means算法通過嘗試分離n個相等方差組中的樣本來聚類數據,從而最小化稱為慣性或簇內平方和的標準。該算法需要指定簇的數量。
### 構造函數參數
`$clustersNumber` - 要查找的集群數
`$initialization` - 初始化方法,默認kmeans ++(見下文)
```
$kmeans = new KMeans(2);
$kmeans = new KMeans(4, KMeans::INIT_RANDOM);
```
*****
## 聚類
要將樣本分成簇,只需使用簇方法。它返回帶有樣本的簇數組。
```
$samples = [[1, 1], [8, 7], [1, 2], [7, 8], [2, 1], [8, 9]];
Or if you need to keep your indentifiers along with yours samples you can use array keys as labels.
$samples = [ 'Label1' => [1, 1], 'Label2' => [8, 7], 'Label3' => [1, 2]];
$kmeans = new KMeans(2);
$kmeans->cluster($samples);
// return [0=>[[1, 1], ...], 1=>[[8, 7], ...]] or [0=>['Label1' => [1, 1], 'Label3' => [1, 2], ...], 1=>['Label2' => [8, 7], ...]]
```
*****
## 初始化方法
### kmeans ++(默認)
> K-means ++方法以智能方式選擇初始聚類中心進行k均值聚類,以加速收斂。它使用DASV播種方法包括為簇找到良好的初始質心。
### 隨機
隨機初始化方法選擇完全隨機的質心。它獲得空間邊界以避免將聚類質心放置在遠離樣本數據的位置。
- 基本介紹
- 關聯規則學習
- 分類
- SVC
- k近鄰算法
- NaiveBayes
- 回歸
- 最小二乘法
- SVR
- 聚類
- k均值聚類算法
- DBSCAN聚類算法
- 公
- 準確性
- 混亂矩陣
- 分類報告
- 工作流程
- 神經網絡
- 交叉驗證
- 隨機拆分
- 分層隨機分裂
- 特征選擇
- 方差閾值
- 特征選擇
- 預處理
- 標準化
- 缺失值補全
- 特征提取(自然語言)
- 令牌計數矢量化器(文本處理)
- Tf-idf轉換
- 數據集
- ArrayDataset
- CsvDataset
- FilesDataset
- SvmDataset
- MnistDataset
- 準備使用數據集
- Iris Dataset
- Wine Dataset
- Glass Dataset
- 模型管理
- 數學
- 距離
- 矩陣
- 組
- 統計