2.2. 分組計算 · soton_數據分析

* 類似于SQL里面的group by 語句，不過pandas提供了更加復雜的函數方法 * 我們可以對index或者column進行分組，可以被一個元素，也可以是任意多個元素分組。分組后計算的方式是一樣的，無論是基于index還是column. ***** 讀文件 ![](https://img.kancloud.cn/3e/07/3e07cf56d206e079946c4fa53482f8e7_1367x383.png) ***** 對director_name列的每個數據值進行頻數統計 ![](https://img.kancloud.cn/5f/8c/5f8c5af89b1d0d7a7db84a9898e8a4ec_305x265.png) ***** ``` #將數據集按director_name分組 grouped = df.groupby("director_name") ``` ***** #分組后對各組進行頻數統計 ``` grouped.size() ``` ![](https://img.kancloud.cn/61/c2/61c26af7a86dcf66fee5f6ea9c5ef837_308x224.png) ***** ``` #可以看到每個分組的名字和在這個組下的各個索引 grouped.groups ``` ![](https://img.kancloud.cn/61/fc/61fc1faf3da6a3adfd7a77a6ff411ebb_775x182.png) ***** ``` # 可以看到各個分組的名字，和每個分組下組內的各個數據 for name,group in grouped: print(name) print(group) ``` ***** **把導演名字列作為索引，然后按照索引分組** ![](https://img.kancloud.cn/39/15/391514c76d079924b4b0ac0df4b6a5ca_1134x458.png) ``` # 按照第一層索引分組 #g2 = df1.groupby(level=0) g2 = df1.groupby(level=["director_name"]) ``` ![](https://img.kancloud.cn/4b/9a/4b9ad434350340c91ba724919289ed66_1039x148.png) ### 2.2.1. 統計計算 1. 單個統計量計算 mean/sum/std 2. 多個統計量計算 3. 不同列應用不同統計量分組計算很重要的一點是：**我們的每一個統計函數都是作用在每一個group上，不是單個樣本，也不是全部數據** ![](https://img.kancloud.cn/36/ee/36eee2b7121b1fad6c70a213edf5768a_1298x307.png) ***** 對每個導演電影的時長進行求和統計 ![](https://img.kancloud.cn/72/5d/725db3380df8dc95a612b7d4b7b48f07_355x287.png) ***** 對每組的兩列進行統計 ![](https://img.kancloud.cn/d9/dc/d9dc1d572a4da054d72af277d84c17d5_390x456.png) ***** 對多個列進行多個統計量的統計 ![](https://img.kancloud.cn/22/56/22569c0e0adc7cda8ce34474ff4d6edb_686x313.png) ***** ![](https://img.kancloud.cn/33/bc/33bc781a4330b460aa7314d2556f3fc2_581x367.png) ***** ### 2.2.2. Transformation 基于每個分組操作，對組內元素進行轉換 ``` #將缺失值都填充為0 df1 = df.fillna(0) #將數據集按導演名字分組 grouped = df1.groupby("director_name") #lambda表達式 z分數計算 z_score = lambda s : (s-s.mean())/ s.std() #將每個列的每個組內元素根據z_score進行計算轉換,s.mean()是每個組的平均值 grouped[['num_critic_for_reviews','duration','director_facebook_likes']].transform(z_score) ``` ***** ![](https://img.kancloud.cn/d4/fd/d4fd9451aba9097818e2d6d03467a2e2_475x233.png) ### 2.2.3. Filteration 分組過濾 ``` #選出duration平均值大于等于150的分組 grouped.filter(lambda g : g['duration'].mean() >= 150) ``` ![](https://img.kancloud.cn/12/fb/12fbacfcef6ce9bff5e2fdc24c76f5df_1176x236.png) ***** ``` #選出組內數據數目大于等于10的分組 grouped.filter(lambda g : len(g) >=10) ``` ![](https://img.kancloud.cn/27/ab/27ab670eb55e27a9199a4a3c10e6b6d0_1178x365.png)