三、填空題 · 數據挖掘

[TOC] ## 三、填空題 **1\. Pandas的兩大核心數據結構是\_\_\_和\_\_\_。** DataFrame ??Series **2.在決策樹算法中用什么指標來選擇分裂屬性非常關鍵，其中ID3算法使用\_\_\_\_，C4.5算法使用\_\_\_，CART算法使用\_\_\_。** 信息增益率??基尼指數 **3.關聯規則的挖掘過程主要包含兩個階段：\_\_\_\_和\_\_\_\_。** 頻繁項集的獲取 ??強關系規則的發現 **4.回歸與分類的區別在于：\_\_\_可用于預測連續的目標變量，\_\_\_可用于預測離散的目標變量。** 回歸??分類 **5\. SVC在解決線性不可分問題時，主要采取了兩種方式來解決：忽略部分不可分數據，引入\_\_\_\_；應用升維的思想，引入了\_\_\_\_。** 松弛系數?? 核函數 **6.線性回歸最常見的兩種求解方法分別是\_\_\_\_和\_\_\_\_。** 梯度下降??最小二乘法 **7.在對文本進行處理時，首先需要對文本進行特征提取，最常用的兩種方法是\_\_\_\_和\_\_\_\_。** 單詞計數向量??TF-IDF **8\. DBSCAN算法是一種基于密度的聚類算法，它是根據樣本在空間分布的稠密程度進行聚類，我們通過定義\_\_\_\_和來檢測稠密程度。** Eps?? MinPts **9.樸素貝葉斯算法成立的前提條件是\_\_\_\_\_\_\_\_\_\_\_。** 特征的類條件獨立假設 **10.為了可以把多個評估器鏈接成一個整體，sklearn中提供了PipeLine機制,管道中的所有評估器，除了最后一個評估器，管道的所有評估器必須都是轉換器，即要實現方法\_\_\_\_\_和\_\_\_。** fit ??transform **11.在sklearn中，要求數據都是數值化的，如果數據中有類別型數據，需要將其轉換成數據值，常用的轉換方式有\_\_\_\_和\_\_\_\_。** 標簽編碼??獨熱編碼 **12.回歸與分類的區別在于：分類可用于預測\_\_的目標變量，回歸可用于預測\_\_的目標變量。** 離散 ??連續 **13\. SelectFromModel是一個元轉換器，它根據特征的重要性選擇特征，要求使用的模型評估器經過fit后一定要帶有\_\_\_或者\_\_屬性。** ceof\_?? feature\_importances **14\. CF是協同過濾的簡稱，一般分為基于\_\_\_的協同過濾和基于\_\_\_\_的協同過濾。** 用戶 ??物品 **15.線性回歸最常見的兩種求解方法，一種是\_\_，另一種是\_\_。** 梯度下降 ??最小二乘法 **16.數據挖掘中計算向量之間相關性時一般會用到哪些距離？\_\_、\_\_\_、\_\_\_（答對3個即可）** 歐式距離 ??曼哈頓距離??閔科夫斯基距離