[TOC]
## 三、填空題
**1\. Pandas的兩大核心數據結構是\_\_\_和\_\_\_。** DataFrame ??Series
**2.在決策樹算法中用什么指標來選擇分裂屬性非常關鍵,其中ID3算法使用\_\_\_\_,C4.5算法使用\_\_\_,CART算法使用\_\_\_。**
信息增益率??基尼指數
**3.關聯規則的挖掘過程主要包含兩個階段:\_\_\_\_和\_\_\_\_。**
頻繁項集的獲取 ??強關系規則的發現
**4.回歸與分類的區別在于:\_\_\_可用于預測連續的目標變量,\_\_\_可用于預測離散的目標變量。**
回歸??分類
**5\. SVC在解決線性不可分問題時,主要采取了兩種方式來解決:忽略部分不可分數據,引入\_\_\_\_;應用升維的思想,引入了\_\_\_\_。**
松弛系數?? 核函數
**6.線性回歸最常見的兩種求解方法分別是\_\_\_\_和\_\_\_\_。**
梯度下降??最小二乘法
**7.在對文本進行處理時,首先需要對文本進行特征提取,最常用的兩種方法是\_\_\_\_和\_\_\_\_。**
單詞計數向量??TF-IDF
**8\. DBSCAN算法是一種基于密度的聚類算法,它是根據樣本在空間分布的稠密程度進行聚類,我們通過定義\_\_\_\_和來檢測稠密程度。**
Eps?? MinPts
**9.樸素貝葉斯算法成立的前提條件是\_\_\_\_\_\_\_\_\_\_\_。**
特征的類條件獨立假設
**10.為了可以把多個評估器鏈接成一個整體,sklearn中提供了PipeLine機制,管道中的所有評估器,除了最后一個評估器,管道的所有評估器必須都是轉換器,即要實現方法\_\_\_\_\_和\_\_\_。**
fit ??transform
**11.在sklearn中,要求數據都是數值化的,如果數據中有類別型數據,需要將其轉換成數據值,常用的轉換方式有\_\_\_\_和\_\_\_\_。**
標簽編碼??獨熱編碼
**12.回歸與分類的區別在于:分類可用于預測\_\_的目標變量,回歸可用于預測\_\_的目標變量。**
離散 ??連續
**13\. SelectFromModel是一個元轉換器,它根據特征的重要性選擇特征,要求使用的模型評估器經過fit后一定要帶有\_\_\_或者\_\_屬性。**
ceof\_?? feature\_importances
**14\. CF是協同過濾的簡稱,一般分為基于\_\_\_的協同過濾和基于\_\_\_\_的協同過濾。**
用戶 ??物品
**15.線性回歸最常見的兩種求解方法,一種是\_\_,另一種是\_\_。**
梯度下降 ??最小二乘法
**16.數據挖掘中計算向量之間相關性時一般會用到哪些距離?\_\_、\_\_\_、\_\_\_(答對3個即可)**
歐式距離 ??曼哈頓距離??閔科夫斯基距離