# Pandas
> 原文:[https://www.bookbookmark.ds100.org/ch/20/ref_pandas.html](https://www.bookbookmark.ds100.org/ch/20/ref_pandas.html)
```
# HIDDEN
# Clear previously defined variables
%reset -f
# Set directory for data loading to work properly
import os
os.chdir(os.path.expanduser('~/notebooks/20'))
```
| 功能 | 第章 | 說明 |
| --- | --- | --- |
| [`pd.DataFrame(data)`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html) | 表格數據和 Pandas | 從二維數組或字典創建數據幀`data` |
| [`pd.read_csv(filepath)`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html) | Tabular Data and pandas | 將 csv 文件從`filepath`導入為 Pandas 數據幀 |
| 【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 | Tabular Data and pandas | 查看數據幀或序列的第一行`n` |
| 【HTG0】【HTG2】【HTG1】 | Tabular Data and pandas | 查看數據幀的索引和列值 |
| 【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 | 探索性數據分析 | 查看有關數據幀或序列的描述性統計信息 |
| [`pd.Series.unique()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.unique.html) | Exploratory Data Analysis | 查看序列中的唯一值 |
| [`pd.Series.value_counts()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.value_counts.html) | Exploratory Data Analysis | 查看序列中每個唯一值出現的次數 |
| `df[col]` | Tabular Data and pandas | 從數據幀`df`返回列`col`作為一個系列 |
| `df[[col]]` | Tabular Data and pandas | 從數據幀`df`返回列`col`作為數據幀 |
| `df.loc[row, col]` | Tabular Data and pandas | 從 dataframe`df`返回索引名為`row`和列名為`col`的行;`row`也可以是布爾序列 |
| `df.iloc[row, col]` | Tabular Data and pandas | 從數據幀`df`返回索引號為`row`和列號為`col`的行;`row`也可以是布爾序列 |
| 【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 | 數據清理 | 查看數據幀或序列中缺少的值 |
| 【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 | Data Cleaning | 用`value`填充數據幀或序列中缺少的值 |
| 【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 | Data Cleaning | 從數據幀或序列中刪除缺少值的行或列 |
| [`pd.DataFrame.drop(labels, axis)`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop.html) | Data Cleaning | 沿`axis`從數據框中刪除名為`labels`的行或列 |
| [`pd.DataFrame.rename()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.rename.html) | Data Cleaning | 重命名數據幀中的指定行或列 |
| [`pd.DataFrame.replace(to_replace, value)`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.replace.html) | Data Cleaning | 在數據幀中用`value`替換`to_replace`值 |
| [`pd.DataFrame.reset_index(drop=False)`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.reset_index.html) | Data Cleaning | 重置數據幀的索引;默認情況下,將舊索引保留為新列,除非指定了`drop=True` |
| [`pd.DataFrame.sort_values(by, ascending=True)`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sort_values.html) | Tabular Data and pandas | 按指定列`by`對數據幀排序,默認為升序 |
| [`pd.DataFrame.groupby(by)`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html) | Tabular Data and pandas | 返回 GroupBy 對象,該對象包含按指定列中的值分組的數據幀`by` |
| [`GroupBy.<function>`](https://pandas.pydata.org/pandas-docs/stable/api.html#id41) | Tabular Data and pandas | 將函數`<function>`應用于 groupby 對象`GroupBy`中的每個組,例如[`mean()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.core.groupby.GroupBy.mean.html),[`count()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.core.groupby.GroupBy.count.html) |
| [`pd.Series.<function>`](https://pandas.pydata.org/pandas-docs/stable/api.html#computations-descriptive-stats) | Tabular Data and pandas | 將函數`<function>`應用于具有數值的序列;例如[`mean()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.mean.html)、[`max()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.max.html)、[`median()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.median.html) |
| [`pd.Series.str.<function>`](https://pandas.pydata.org/pandas-docs/stable/api.html#string-handling) | Tabular Data and pandas | 將函數`<function>`應用于具有字符串值的序列;例如[`len()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.str.len.html)、[`lower()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.str.lower.html)、[`split()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.str.split.html) |
| [`pd.Series.dt.<property>`](https://pandas.pydata.org/pandas-docs/stable/api.html#datetimelike-properties) | Tabular Data and pandas | 從具有日期時間值的序列中提取屬性`<property>`,例如[`year`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.dt.year.html),[`month`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.dt.month.html),[`date`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.dt.date.html) |
| [`pd.get_dummies(columns, drop_first=False)`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html) | --- | 將分類變量`columns`轉換為虛擬變量;默認值保留所有變量,除非指定了`drop_first=True`。 |
| [`pd.merge(left, right, how, on)`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html) | 探索性數據分析;數據庫和 SQL | 在指定的列`on`上將兩個數據幀`left`和`right`合并在一起;連接類型取決于`how` |
| [`pd.read_sql(sql, con)`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_sql.html) | 數據庫和 SQL | 讀取數據庫連接`con`上的 SQL 查詢`sql`,并將結果作為 Pandas 數據幀返回 |
- 一、數據科學的生命周期
- 二、數據生成
- 三、處理表格數據
- 四、數據清理
- 五、探索性數據分析
- 六、數據可視化
- Web 技術
- 超文本傳輸協議
- 處理文本
- python 字符串方法
- 正則表達式
- regex 和 python
- 關系數據庫和 SQL
- 關系模型
- SQL
- SQL 連接
- 建模與估計
- 模型
- 損失函數
- 絕對損失和 Huber 損失
- 梯度下降與數值優化
- 使用程序最小化損失
- 梯度下降
- 凸性
- 隨機梯度下降法
- 概率與泛化
- 隨機變量
- 期望和方差
- 風險
- 線性模型
- 預測小費金額
- 用梯度下降擬合線性模型
- 多元線性回歸
- 最小二乘-幾何透視
- 線性回歸案例研究
- 特征工程
- 沃爾瑪數據集
- 預測冰淇淋評級
- 偏方差權衡
- 風險和損失最小化
- 模型偏差和方差
- 交叉驗證
- 正規化
- 正則化直覺
- L2 正則化:嶺回歸
- L1 正則化:LASSO 回歸
- 分類
- 概率回歸
- Logistic 模型
- Logistic 模型的損失函數
- 使用邏輯回歸
- 經驗概率分布的近似
- 擬合 Logistic 模型
- 評估 Logistic 模型
- 多類分類
- 統計推斷
- 假設檢驗和置信區間
- 置換檢驗
- 線性回歸的自舉(真系數的推斷)
- 學生化自舉
- P-HACKING
- 向量空間回顧
- 參考表
- Pandas
- Seaborn
- Matplotlib
- Scikit Learn