Pandas · UCB DS100 數據科學的原理與技巧

# Pandas > 原文：[https://www.bookbookmark.ds100.org/ch/20/ref_pandas.html](https://www.bookbookmark.ds100.org/ch/20/ref_pandas.html) ``` # HIDDEN # Clear previously defined variables %reset -f # Set directory for data loading to work properly import os os.chdir(os.path.expanduser('~/notebooks/20')) ``` | 功能 | 第章 | 說明 | | --- | --- | --- | | [`pd.DataFrame(data)`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html) | 表格數據和 Pandas | 從二維數組或字典創建數據幀`data` | | [`pd.read_csv(filepath)`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html) | Tabular Data and pandas | 將 csv 文件從`filepath`導入為 Pandas 數據幀 | | 【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 | Tabular Data and pandas | 查看數據幀或序列的第一行`n` | | 【HTG0】【HTG2】【HTG1】 | Tabular Data and pandas | 查看數據幀的索引和列值 | | 【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 | 探索性數據分析 | 查看有關數據幀或序列的描述性統計信息 | | [`pd.Series.unique()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.unique.html) | Exploratory Data Analysis | 查看序列中的唯一值 | | [`pd.Series.value_counts()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.value_counts.html) | Exploratory Data Analysis | 查看序列中每個唯一值出現的次數 | | `df[col]` | Tabular Data and pandas | 從數據幀`df`返回列`col`作為一個系列 | | `df[[col]]` | Tabular Data and pandas | 從數據幀`df`返回列`col`作為數據幀 | | `df.loc[row, col]` | Tabular Data and pandas | 從 dataframe`df`返回索引名為`row`和列名為`col`的行；`row`也可以是布爾序列 | | `df.iloc[row, col]` | Tabular Data and pandas | 從數據幀`df`返回索引號為`row`和列號為`col`的行；`row`也可以是布爾序列 | | 【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 | 數據清理 | 查看數據幀或序列中缺少的值 | | 【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 | Data Cleaning | 用`value`填充數據幀或序列中缺少的值 | | 【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 | Data Cleaning | 從數據幀或序列中刪除缺少值的行或列 | | [`pd.DataFrame.drop(labels, axis)`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop.html) | Data Cleaning | 沿`axis`從數據框中刪除名為`labels`的行或列 | | [`pd.DataFrame.rename()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.rename.html) | Data Cleaning | 重命名數據幀中的指定行或列 | | [`pd.DataFrame.replace(to_replace, value)`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.replace.html) | Data Cleaning | 在數據幀中用`value`替換`to_replace`值 | | [`pd.DataFrame.reset_index(drop=False)`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.reset_index.html) | Data Cleaning | 重置數據幀的索引；默認情況下，將舊索引保留為新列，除非指定了`drop=True` | | [`pd.DataFrame.sort_values(by, ascending=True)`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sort_values.html) | Tabular Data and pandas | 按指定列`by`對數據幀排序，默認為升序 | | [`pd.DataFrame.groupby(by)`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html) | Tabular Data and pandas | 返回 GroupBy 對象，該對象包含按指定列中的值分組的數據幀`by` | | [`GroupBy.<function>`](https://pandas.pydata.org/pandas-docs/stable/api.html#id41) | Tabular Data and pandas | 將函數`<function>`應用于 groupby 對象`GroupBy`中的每個組，例如[`mean()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.core.groupby.GroupBy.mean.html)，[`count()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.core.groupby.GroupBy.count.html) | | [`pd.Series.<function>`](https://pandas.pydata.org/pandas-docs/stable/api.html#computations-descriptive-stats) | Tabular Data and pandas | 將函數`<function>`應用于具有數值的序列；例如[`mean()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.mean.html)、[`max()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.max.html)、[`median()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.median.html) | | [`pd.Series.str.<function>`](https://pandas.pydata.org/pandas-docs/stable/api.html#string-handling) | Tabular Data and pandas | 將函數`<function>`應用于具有字符串值的序列；例如[`len()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.str.len.html)、[`lower()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.str.lower.html)、[`split()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.str.split.html) | | [`pd.Series.dt.<property>`](https://pandas.pydata.org/pandas-docs/stable/api.html#datetimelike-properties) | Tabular Data and pandas | 從具有日期時間值的序列中提取屬性`<property>`，例如[`year`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.dt.year.html)，[`month`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.dt.month.html)，[`date`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.dt.date.html) | | [`pd.get_dummies(columns, drop_first=False)`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html) | --- | 將分類變量`columns`轉換為虛擬變量；默認值保留所有變量，除非指定了`drop_first=True`。 | | [`pd.merge(left, right, how, on)`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html) | 探索性數據分析；數據庫和 SQL | 在指定的列`on`上將兩個數據幀`left`和`right`合并在一起；連接類型取決于`how` | | [`pd.read_sql(sql, con)`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_sql.html) | 數據庫和 SQL | 讀取數據庫連接`con`上的 SQL 查詢`sql`，并將結果作為 Pandas 數據幀返回 |