1.4 Missing value · soton_數據分析

[TOC] ***** pandas使用numpy.nan來代表缺失值。缺失值不代表沒有值，它本身就是某種類型的值。PYTHON中一般用None代表沒有值，這與nan是兩回事。缺失值不會被程序計算。處理的方式： 1. 刪除含有缺失值的行 2. 填充缺失值 ![](https://img.kancloud.cn/d5/e5/d5e5e6fcc3c340942bac26565e1f53a2_325x247.png) ### 1.4.1. 檢測缺失值，返回布爾值有幾種方式檢測數據值是否為空或缺失 ``` pd.isnull(a) ``` ![](https://img.kancloud.cn/8f/77/8f774567e14b04c7608ac4d0b5d53dea_152x137.png) ![](https://img.kancloud.cn/5a/46/5a46c45d6c03d7d9f8751324e97e30de_181x190.png) ![](https://img.kancloud.cn/17/ae/17aecfe40ca073e1e6a62823c8011f24_234x363.png) ![](https://img.kancloud.cn/e8/9c/e89c62c0edad8c5464297d112de955a5_220x358.png) ![](https://img.kancloud.cn/f2/3d/f23d0cdcb8625b30898241d80f737585_264x301.png) 判斷數據框中的每個數據是否為空 ![](https://img.kancloud.cn/d4/91/d4917f875490fdbec6b5ae7c6f538be7_651x271.png) ### 1.4.2. 刪除與填充對于missing value可以刪除行或填充缺失值 ``` #根據二維數組構建dataFrame,用list('ABCD')構建四個列 df_test = pd.DataFrame([[np.nan, 2, np.nan, 0], [3, 4, np.nan, 1], [np.nan, np.nan, np.nan, 5]], columns=list('ABCD')) ``` ![](https://img.kancloud.cn/9b/a1/9ba164a192be58cfd76c5821913bd77b_192x156.png) ``` axis=0按行刪除，行里有nan類型數據就刪除整行 df_test.dropna(axis = 0) ``` ![](https://img.kancloud.cn/6d/90/6d901f83a88a7dfef1c4f607a320814f_160x52.png) 任意一列有nan值，刪除整列 ![](https://img.kancloud.cn/d6/44/d6447d6f06246cc3b4010caa95b9e3b3_270x200.png) #如果某列上的值全是nan,則刪除該列 df_test.dropna(axis = 1,how = "all") ![](https://img.kancloud.cn/37/db/37db01ee5c8e314d6b79a86a89a5344f_281x147.png) #按行刪除，每行與b列相交的數據值為nan，則刪除該行 df_test.dropna(axis = 0,subset=['B']) **填充缺失值** df.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs) ![](https://img.kancloud.cn/92/c2/92c2f38d686f1af4e74642ae3eb545b4_647x99.png) * backfill:根據后面的值填充缺失值 * bfill根據前面的值填充缺失值現在有例子: ![](https://img.kancloud.cn/9d/33/9d338c0549507f696867fda1f7ddd082_232x159.png) a.fillna(value=10) ![](https://img.kancloud.cn/21/e0/21e0a621ed4f79b92e6b0af691a48290_179x136.png) ***** 用后面的值填充 backfill/bfill ![](https://img.kancloud.cn/8f/fa/8ffa95d3bc58e7ac9ceab7812358288b_294x188.png) ***** 用前面一個最近的有效值填充 pad/ffill ![](https://img.kancloud.cn/97/4b/974b31bb517e64555acf2fde4d817483_267x185.png) ***** 將birth_city和birth_state兩列的缺失值替換為other和something df.fillna({"birth_city":"other","birth_state":"something"}) ![](https://img.kancloud.cn/2b/c9/2bc93ec92334dffa41168b972c15731f_924x248.png) ### 1.4.3. Missing value的計算 ![](https://img.kancloud.cn/b5/67/b567e8bbbcee07a57a0d3d39b9862cf3_231x167.png) **注意** nan之間不能比較 ***** a是series，nan+3仍然是nan ![](https://img.kancloud.cn/5c/a0/5ca0f6df1220dad736a3e0c2108ddffb_214x362.png) nan不參與任何數學計算，求和求平均數都不參與 ![](https://img.kancloud.cn/eb/06/eb06837218ba53dc31208b52115aa517_125x161.png)