## 問題描述
數據集來自美國威斯康星州乳腺癌(診斷)數據集,醫療人員采集了患者乳腺腫塊經過細針穿刺(FNA)后的數字化圖像。并且對這些數字圖像進行特征提取,這些特征可以描述圖像中的細胞核呈現。腫瘤可以分成良性和惡性,采集的數據集見:
Git.
請使用**SVM**對乳腺癌數據進行分類,預測患者的腫瘤是否為良性。
數據表一共包括了32個字段,代表的含義如下:
| 字段 | 含義 |
| --- | --- |
| ID |ID標識 |
| Diagnosis |M/B(M:惡性,B:良性)|
| radius_mean |半徑(點中心到邊緣的距離)平均值|
| texture_mean |文理(灰度值的標準差)平均值|
| perimeter_mean |周長 平均值 |
| area_mean |面積 平均值 |
| smoothness_mean |平滑程度(半徑內的局部變化)平均值|
| compactness_mean |緊密度(=周長*周長/面積-1.0)平均值|
| concavity_mean |凹度(輪廓凹部的嚴重程度)平均值 |
| concave points_mean |凹縫(輪廓的凹部分)平均值|
| symmetry_mean |對稱性 平均值 |
| fractal_dimension_mean |分形維數(=海岸線近似-1)平均值 |
| radius_se |半徑(點中心到邊緣的距離)標準差 |
| texture_se |文理(灰度值的標準差)標準差 |
| perimeter_se |周長 標準差 |
| area_se |面積 標準差 |
| smoothness_se |平滑程度(半徑內的局部變化)標準差 |
| compactness_se |緊密度(=周長*周長/面積-1.0)標準差 |
| concavity_se |凹度(輪廓凹部的嚴重程度)標準差 |
| concave points_se |凹縫(輪廓的凹部分)標準差 |
| symmetry_se |對稱性標準差 |
| fractal_dimension_se |分形維數(=海岸線近似-1)標準差 |
| radius_worst |半徑(點中心到邊緣的距離)最大值 |
| texture_worst |文理(灰度值的標準差)最大值 |
| perimeter_worst |周長 最大值 |
| area_worst |面積 最大值 |
| smoothness_worst |平滑程度(半徑內的局部變化)最大值 |
| compactness_worst |緊密度(=周長*周長/面積-1.0)最大值 |
| concavity_worst |凹度(輪廓凹部的嚴重程度)最大值 |
| concave points_worst |凹縫(輪廓的凹部分)最大值 |
| symmetry_worst |對稱性 最大值 |
| fractal_dimension_worst |分形維數(=海岸線近似-1)最大值 |
字段中包含mean的代表平均值,包含se的代表標準差(standard error),包含worst代表最大值(3個最大值的平均值)。每張圖像都計算了相應的特征,得出了這30個特征值。(實際上是10個特征值的3個維度:平均、標準差、最大值)。
這些特征值都保留了4位數字。字段中沒有缺失的值。在整個569個患者中,一共有357個是良性,212個是惡性。