[TOC]
*****
**PANDAS的功能**
* 能夠很好的處理missing value(NaN)
* 可以對二維甚至高維的數據對象進行插入和刪除
* 支持將其它python數據結構簡單快捷的轉變為DataFrame
* 支持分組計算group by
* 支出數據重塑與數據透視表
* 支持智能的基于標簽的切片,索引選取等數據操作
* 支持多個數據集的組合操作:join與merge
* 支持從多個渠道讀取文本數據
* 支持時間序列time-series操作
* 支持可視化數據
## 1.1. 文件讀取
在之前的I/O章節中給我們學習了使用open函數來打開文件,read函數用來讀取數據。 但是讀取進來的數據都是str的格式,非常不方便我們進行分析。 pandas提供了read_csv函數可以將文件按照固定的格式進行讀取,函數能夠自動解析數據類型,添加列名與索引等很多功能,能夠以結構化的dataframe形式存儲數據。
一些注意點:
1. 不要嘗試去讀取excel文件,最好使用通用的csv或者txt格式
2. 注意編碼問題,使用encoding參數
3. 注意處理報錯行
**如果要處理excel文件,用另存為變為csv文件,不推薦使用excel格式**
```
import pandas as pd
import numpy as np
print(pandas.__version__) # 檢查版本,如果太低請在終端使用 conda update pandas 命令進行升級
#版本號
0.24.2
```
**讀文件**
~~~python
pd.read_csv
pd.read_excel
~~~
```
會顯示該方法的解釋文檔
?pd.read_csv
#\t是分隔符,比如一行數據有10列,每列之間用橫向制表符分割
df = pd.read_csv("C:\\Users\\ddupl\\Desktop\\python數據管理\\NBAPlayers.txt",sep = '\t')
```

```
#讀取xlsx文件中第一張sheet
movie = pd.read_excel("movie.xlsx",sheetname = 0 ) #不推薦
#顯示前三行數據
movie.head(3)
#根據索引顯示第一行數據
df.iloc[0]
```
**寫文件**
~~~python
df.to_csv(path_or_buf=None, sep=',', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, mode='w', encoding=None, compression=None, quoting=None, quotechar='"', line_terminator='\n', chunksize=None, tupleize_cols=None, date_format=None, doublequote=True, escapechar=None, decimal='.')
~~~
```
#將讀取數據寫入csv文件中,數據間的分隔符是橫向制表符,index=true表示顯示索引列
df.to_csv("movie_1.csv",sep = '\t',index = True)
```
- 第五節 Pandas數據管理
- 1.1 文件讀取
- 1.2 DataFrame 與 Series
- 1.3 常用操作
- 1.4 Missing value
- 1.5 文本數據
- 1.6 分類數據
- 第六節 pandas數據分析
- 2.1 索引選取
- 2.2. 分組計算
- 2.3. 表聯結
- 2.4. 數據透視與重塑(pivot table and reshape)
- 2.5 官方小結圖片
- 第七節 NUMPY科學計算
- 第八節 python可視化
- 第九節 統計學
- 01 單變量
- 02 雙變量
- 03 數值方法
- 第十節 概率
- 01 概率
- 02 離散概率分布
- 03 連續概率分布
- 第一節 抽樣與抽樣分布
- 01抽樣
- 02 點估計
- 03 抽樣分布
- 04 抽樣分布的性質
- 第十三節 區間估計
- 01總體均值的區間估計:??已知
- 02總體均值的區間估計:??未知
- 03總體容量的確定
- 04 總體比率