1.1 文件讀取 · soton_數據分析

[TOC] ***** **PANDAS的功能** * 能夠很好的處理missing value(NaN) * 可以對二維甚至高維的數據對象進行插入和刪除 * 支持將其它python數據結構簡單快捷的轉變為DataFrame * 支持分組計算group by * 支出數據重塑與數據透視表 * 支持智能的基于標簽的切片，索引選取等數據操作 * 支持多個數據集的組合操作：join與merge * 支持從多個渠道讀取文本數據 * 支持時間序列time-series操作 * 支持可視化數據 ## 1.1. 文件讀取在之前的I/O章節中給我們學習了使用open函數來打開文件，read函數用來讀取數據。但是讀取進來的數據都是str的格式，非常不方便我們進行分析。 pandas提供了read_csv函數可以將文件按照固定的格式進行讀取，函數能夠自動解析數據類型，添加列名與索引等很多功能，能夠以結構化的dataframe形式存儲數據。一些注意點： 1. 不要嘗試去讀取excel文件，最好使用通用的csv或者txt格式 2. 注意編碼問題，使用encoding參數 3. 注意處理報錯行 **如果要處理excel文件，用另存為變為csv文件，不推薦使用excel格式** ``` import pandas as pd import numpy as np print(pandas.__version__) # 檢查版本，如果太低請在終端使用 conda update pandas 命令進行升級 #版本號 0.24.2 ``` **讀文件** ~~~python pd.read_csv pd.read_excel ~~~ ``` 會顯示該方法的解釋文檔 ?pd.read_csv #\t是分隔符，比如一行數據有10列，每列之間用橫向制表符分割 df = pd.read_csv("C:\\Users\\ddupl\\Desktop\\python數據管理\\NBAPlayers.txt",sep = '\t') ``` ![](https://img.kancloud.cn/b1/70/b170a0be31f970481cac65e127c4c082_686x414.png) ``` #讀取xlsx文件中第一張sheet movie = pd.read_excel("movie.xlsx",sheetname = 0 ) #不推薦 #顯示前三行數據 movie.head(3) #根據索引顯示第一行數據 df.iloc[0] ``` **寫文件** ~~~python df.to_csv(path_or_buf=None, sep=',', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, mode='w', encoding=None, compression=None, quoting=None, quotechar='"', line_terminator='\n', chunksize=None, tupleize_cols=None, date_format=None, doublequote=True, escapechar=None, decimal='.') ~~~ ``` #將讀取數據寫入csv文件中，數據間的分隔符是橫向制表符，index=true表示顯示索引列 df.to_csv("movie_1.csv",sep = '\t',index = True) ```