### 6.4.2 文件操作
常用計算機的人都知道,許多應用軟件(如 Word、媒體播放器等)都需要處理文件, 并且都需要經過打開文件、讀寫文件、關閉文件的步驟,這其實是程序設計中文件處理的一 般過程的反映。
打開文件
在讀寫文件之前首先需要“打開”文件,這個步驟可以簡單地理解為對磁盤文件進行必 要的初始化,至于其底層細節則無需了解。
Python 提供了函數 open 用于文件打開,用法如下:
```
f = open(<文件名>,<打開方式>)
```
其含義是按指定的<打開方式>打開由<文件名>標識的磁盤文件,創建一個文件對象作為函 數的返回值,并使變量 f 引用這個文件對象。常用的打開方式包括"r"和"w",它們分別表示 “讀”方式和“寫”方式。
順便強調一下,Python 中的文件處理是面向對象風格的,即文件是一個對象,通過文 件對象的方法來實現文件操作。我們在第 5 章中初步介紹了對象概念,并且將在第 7 章詳細 討論面向對象。
為了讀取一個文件的內容,需要以讀方式打開文件。例如:
```
f = open("oldfile.dat","r")
```
成功執行后,就可以通過文件對象 f 來讀取文件 oldfile.dat 的內容了。若指定的文件不存在, 則 Python 將報錯(IOError)。
為了向一個文件中寫入內容,需要以寫方式打開文件。例如:
```
f = open("newfile.txt","w")
```
成功執行后,就可以通過文件對象 f 來向文件 oldfile.dat 中寫入內容了。注意,以寫方式打 開文件時,如果指定的文件不存在,則創建該文件;如果指定的文件已經存在,則會清除該 文件原來的內容,即相當于創建新文件。所以,以寫方式打開文件時一定要小心,不要把現 有文件破壞了。
讀文件
在介紹文件讀寫之前,先要理解文件“當前讀寫位置”的概念。讀者應該了解老式的錄 放機的錄放過程吧:錄放機有一個磁頭,用于讀取或錄入磁帶信息,隨著磁帶的轉動,磁頭 也就不斷改變著錄放位置。Python 中的文件采用類似的順序讀寫過程:打開文件后,當前 讀寫位置就是文件開始處;隨著讀寫命令的執行,當前讀寫位置不斷改變,直至到達文件末 尾。
Python 中的文件對象提供了 read()、readline()和 readlines()方法用于讀取文件內容。 read()的用法如下:
```
<變量> = <文件對象>.read()
```
含義是讀取從當前位置直到文件末尾的內容,并作為字符串返回。如果是剛打開的文件對象, 則返回的字符串包含文件的所有內容。
read()方法也可以帶有參數:
```
<變量> = <文件對象>.read(n)
```
含義是讀取從當前位置開始的 n 個字符,并以此字符串作為返回值。如果指定的 n 大于文件中從當前位置到末尾的字符數,則僅返回這些字符。如果當前位置已到達文件末尾,則 read 返回空串。
假設有一個文件 rhyme.txt,其文本內容是:
```
Good, better, best, Never let it rest, Till good is better, And better, best.
```
下面的語句序列對此文件進行讀取
```
>>> f = open("rhyme.txt","r")
>>> s = f.read(8)
>>> s
'Good, be'
>>> f.read(20)
'tter, best,\nNever le'
>>> print f.read()
t it rest,
Till good is better, And better, best.
>>> f.close()
```
readline()的用法如下:
```
<變量> = <文件對象>.readline()
```
含義是讀取從當前位置到行末(即下一個換行字符)的所有字符,并以此字符串作為返回值, 賦值給變量。通常用此方法來讀取文件的當前行。如果當前處于文件末尾,則 readline 返回 空串。例如:
```
>>> f = open("rhyme.txt","r")
>>> s = f.readline()
>>> s
'Good, better, best,\n'
>>> f.readline()
'Never let it rest,\n'
>>> print f.readline()
Till good is better,
>>> f.close()
```
readlines()的用法如下:
```
<變量> = <文件對象>.readlines()
```
其含義是讀取從當前位置直到文件末尾的所有行,并將這些行構成一個字符串列表作為返回 值,列表中的每個元素都是文件的一行。如果當前處于文件末尾,則 readlines 返回空列表。 例如:
```
>>> f = open("rhyme.txt","r")
>>> f.readline()
'Good, better, best,\n'
>>> f.readline()
'Never let it rest,\n'
>>> f.readlines()
['Till good is better,\n', 'And better, best.\n']
>>> f.readlines()
[]
```
寫文件
當文件以寫方式打開時,可以向文件中寫入文本內容。與讀文件一樣,寫入位置也是由 “當前讀寫位置”決定的。Python 文件對象提供兩種寫文件的方法:
```
<文件對象>.write(<字符串>)
<文件對象>.writelines(<字符串列表>)
```
其中,write 的含義是在文件當前位置處寫入字符串,writelines 的含義是在文件當前位置處依次寫入列表中的所有字符串。 下面的語句序列創建了一個新文件,并向其中寫入了李白的名詩:
```
>>> f = open("d:/libai.txt","w")
>>> f.write("窗前明月光")
>>> f.write("疑是地上霜\n")
>>> f.write("舉頭望明月\n 低頭思故鄉")
>>> f.close()
```
注意每一次 f.write()都是緊接著上次寫入的內容繼續的,并不會因為是另一條 f.write()就另 起一行。為了寫多行文本,必須人工添加換行字符“\n”。那么,上述語句序列所創建的文 件 libai.txt 有幾行文本呢?沒錯,只有 3 行,因為第一次調用 f.write 時并沒有寫入換行符, 這導致詩的前兩句被寫在同一行上了。如圖 6.2 所示。

圖 6.2 寫入多行文本
再次強調,寫方式打開文件會導致要么創建一個新文件,要么清除一個舊文件,總之文件的內容是全新的。那么有沒有辦法在現有文件內容基礎上再寫入一些新內容呢?答案是肯 定的。Python 還提供一種文件打開方式"a",表示“追加”。以追加方式打開文件后,當前位 置被定位在文件末尾,可以繼續寫入文本而不改變原有的文件內容。例如:
```
>>> f = open("d:/libai.txt","a")
>>> f.write("\n---- 李白《靜夜思》")
>>> f.close()
```
結果如圖 6.3 所示。

圖 6.3 向文件追加寫入內容
關閉文件
文件處理結束后需要關閉文件,這個步驟大體上涉及釋放分配給文件的系統資源,以便 分配給其他文件使用。通過調用文件對象的 close 方法來關閉文件:
```
<文件對象>.close()
```
注意,即使程序中沒有關閉文件,Python 程序結束時也會自動關閉所有打開的文件。
然而好的做法是由程序自己關閉文件,否則有可能因程序意外終止而導致文件數據丟失。例 如,以寫方式打開文件時,如果向文件中寫入了文本但還沒有關閉文件,那么所寫內容是不 會存盤的。這時再以讀方式打開同一文件,read()命令返回的是空串。下面的語句序列演示 了這種情況。
```
>>> f = open("d:/test","w")
>>> f.write("some words")
>>> g = open("d:/test","r")
>>> g.read()
''
>>> f.close()
>>> g.seek(0)
>>> g.read()
'some words'
```
所以,強烈建議讀者在程序中一旦結束對文件的讀寫,就立即關閉文件。
文件處理程序的常見結構
許多應用程序的算法結構都屬于直接了當的 IPO(輸入-處理-輸出)模式,當輸入輸 出都是文件時,程序的結構大體如下:
```
infile = open("input.dat","r")
outfile = open("output.dat","w")
while True:
text = infile.readline()
if text == "":
break
do something with text ...
outfile.write(data)
infile.close()
outfile.close()
```
此代碼的核心是一個 while 循環,循環的每一步利用 readline()讀取輸入文件的一行,然后對該行進行處理,并將處理結果寫入輸出文件。當某次循環讀到空行(視為文件尾),則利用 break 跳出循環體,從而結束對文件的處理。
除了“while 循環+readline()”的結構,還可以利用“for 循環+readlines()”的結構。readlines() 一次性讀出所有行,形成一個列表,然后針對這個列表進行循環。
```
for line in infile.readlines():
do something with line
...
```
實際上,Python 語言甚至允許直接將打開的文件與 for 循環結合使用,達到和“for 循 環+readlines()”同樣的效果。代碼如下:
```
infile = open("input.dat","r")
for line in infile:
do something with line
...
```
這種用法有個好處是無需考慮內存大小,而 readlines()要求內存足夠大,以便容納它返回的 列表。
向文件追加數據
前述讀方式打開的文件只能讀取不能寫入,寫方式打開的文件是新建文件(寫打開現存文件的話將清除內容),只能寫入不能讀取。有沒有辦法保留現存文件的內容并加入新內容 呢?
一種做法是先將文件的現有數據利用 readlines()讀出來存入一個列表,然后向該列表添 加數據,最后再把新列表寫入文件。這種做法對小文件沒有問題,但當文件大小為數百 MB 或若干 GB 時,為了保存所有行的列表需要消耗大量內存。
其實 Python 還提供了一種打開方式"a",稱為“追加”方式,可以用于在現存文件的尾 部追加新數據。當然,如果請求打開的文件不存在,"a"方式就和"w"方式一樣,創建一個新 文件。下面的語句演示了追加方式的用法:
```
>>> f = open("oldfile.txt","a")
>>> f.write("something new\n")
>>> f.close()
```
- 前言
- 第 1 章 計算與計算思維
- 1.1 什么是計算?
- 1.1.1 計算機與計算
- 1.1.2 計算機語言
- 1.1.3 算法
- 1.1.4 實現
- 1.2 什么是計算思維?
- 1.2.1 計算思維的基本原則
- 1.2.2 計算思維的具體例子
- 1.2.3 日常生活中的計算思維
- 1.2.4 計算思維對其他學科的影響
- 1.3 初識 Python
- 1.3.1 Python 簡介
- 1.3.2 第一個程序
- 1.3.3 程序的執行方式
- 1.3.4 Python 語言的基本成分
- 1.4 程序排錯
- 1.5 練習
- 第 2 章 用數據表示現實世界
- 2.1 數據和數據類型
- 2.1.1 數據是對現實的抽象
- 2.1.1 常量與變量
- 2.1.2 數據類型
- 2.1.3 Python 的動態類型*
- 2.2 數值類型
- 2.2.1 整數類型 int
- 2.2.2 長整數類型 long
- 2.2.3 浮點數類型 float
- 2.2.4 數學庫模塊 math
- 2.2.5 復數類型 complex*
- 2.3 字符串類型 str
- 2.3.1 字符串類型的字面值形式
- 2.3.2 字符串類型的操作
- 2.3.3 字符的機內表示
- 2.3.4 字符串類型與其他類型的轉換
- 2.3.5 字符串庫 string
- 2.4 布爾類型 bool
- 2.4.1 關系運算
- 2.4.2 邏輯運算
- 2.4.3 布爾代數運算定律*
- 2.4.4 Python 中真假的表示與計算*
- 2.5 列表和元組類型
- 2.5.1 列表類型 list
- 2.5.2 元組類型 tuple
- 2.6 數據的輸入和輸出
- 2.6.1 數據的輸入
- 2.6.2 數據的輸出
- 2.6.3 格式化輸出
- 2.7 編程案例:查找問題
- 2.8 練習
- 第 3 章 數據處理的流程控制
- 3.1 順序控制結構
- 3.2 分支控制結構
- 3.2.1 單分支結構
- 3.2.2 兩路分支結構
- 3.2.3 多路分支結構
- 3.3 異常處理
- 3.3.1 傳統的錯誤檢測方法
- 3.3.2 傳統錯誤檢測方法的缺點
- 3.3.3 異常處理機制
- 3.4 循環控制結構
- 3.4.1 for 循環
- 3.4.2 while 循環
- 3.4.3 循環的非正常中斷
- 3.4.4 嵌套循環
- 3.5 結構化程序設計
- 3.5.1 程序開發過程
- 3.5.2 結構化程序設計的基本內容
- 3.6 編程案例:如何求 n 個數據的最大值?
- 3.6.1 幾種解題策略
- 3.6.2 經驗總結
- 3.7 Python 布爾表達式用作控制結構*
- 3.8 練習
- 第 4 章 模塊化編程
- 4.1 模塊化編程基本概念
- 4.1.1 模塊化設計概述
- 4.1.2 模塊化編程
- 4.1.3 編程語言對模塊化編程的支持
- 4.2 Python 語言中的函數
- 4.2.1 用函數減少重復代碼 首先看一個簡單的用字符畫一棵樹的程序:
- 4.2.2 用函數改善程序結構
- 4.2.3 用函數增強程序的通用性
- 4.2.4 小結:函數的定義與調用
- 4.2.5 變量的作用域
- 4.2.6 函數的返回值
- 4.3 自頂向下設計
- 4.3.1 頂層設計
- 4.3.2 第二層設計
- 4.3.3 第三層設計
- 4.3.4 第四層設計
- 4.3.5 自底向上實現與單元測試
- 4.3.6 開發過程小結
- 4.4 Python 模塊*
- 4.4.1 模塊的創建和使用
- 4.4.2 Python 程序架構
- 4.4.3 標準庫模塊
- 4.4.4 模塊的有條件執行
- 4.5 練習
- 第 5 章 圖形編程
- 5.1 概述
- 5.1.1 計算可視化
- 5.1.2 圖形是復雜數據
- 5.1.3 用對象表示復雜數據
- 5.2 Tkinter 圖形編程
- 5.2.1 導入模塊及創建根窗口
- 5.2.2 創建畫布
- 5.2.3 在畫布上繪圖
- 5.2.4 圖形的事件處理
- 5.3 編程案例
- 5.3.1 統計圖表
- 5.3.2 計算機動畫
- 5.4 軟件的層次化設計:一個案例
- 5.4.1 層次化體系結構
- 5.4.2 案例:圖形庫 graphics
- 5.4.3 graphics 與面向對象
- 5.5 練習
- 第 6 章 大量數據的表示和處理
- 6.1 概述
- 6.2 有序的數據集合體
- 6.2.1 字符串
- 6.2.2 列表
- 6.2.3 元組
- 6.3 無序的數據集合體
- 6.3.1 集合
- 6.3.2 字典
- 6.4 文件
- 6.4.1 文件的基本概念
- 6.4.2 文件操作
- 6.4.3 編程案例:文本文件分析
- 6.4.4 緩沖
- 6.4.5 二進制文件與隨機存取*
- 6.5 幾種高級數據結構*
- 6.5.1 鏈表
- 6.5.2 堆棧
- 6.5.3 隊列
- 6.6 練習
- 第 7 章 面向對象思想與編程
- 7.1 數據與操作:兩種觀點
- 7.1.1 面向過程觀點
- 7.1.2 面向對象觀點
- 7.1.3 類是類型概念的發展
- 7.2 面向對象編程
- 7.2.1 類的定義
- 7.2.2 對象的創建
- 7.2.3 對象方法的調用
- 7.2.4 編程實例:模擬炮彈飛行
- 7.2.5 類與模塊化
- 7.2.6 對象的集合體
- 7.3 超類與子類*
- 7.3.1 繼承
- 7.3.2 覆寫
- 7.3.3 多態性
- 7.4 面向對象設計*
- 7.5 練習
- 第 8 章 圖形用戶界面
- 8.1 圖形用戶界面概述
- 8.1.1 程序的用戶界面
- 8.1.2 圖形界面的組成
- 8.1.3 事件驅動
- 8.2 GUI 編程
- 8.2.1 UI 編程概述
- 8.2.2 初識 Tkinter
- 8.2.3 常見 GUI 構件的用法
- 8.2.4 布局
- 8.2.5 對話框*
- 8.3 Tkinter 事件驅動編程
- 8.3.1 事件和事件對象
- 8.3.2 事件處理
- 8.4 模型-視圖設計方法
- 8.4.1 將 GUI 應用程序封裝成對象
- 8.4.2 模型與視圖
- 8.4.3 編程案例:匯率換算器
- 8.5 練習
- 第 9 章 模擬與并發
- 9.1 模擬
- 9.1.1 計算機建模
- 9.1.2 隨機問題的建模與模擬
- 9.1.3 編程案例:乒乓球比賽模擬
- 9.2 原型法
- 9.3 并行計算*
- 9.3.1 串行、并發與并行
- 9.3.2 進程與線程
- 9.3.3 多線程編程的應用
- 9.3.4 Python 多線程編程
- 9.3.5 小結
- 9.4 練習
- 第 10 章 算法設計和分析
- 10.1 枚舉法
- 10.2 遞歸
- 10.3 分治法
- 10.4 貪心法
- 10.5 算法分析
- 10.5.1 算法復雜度
- 10.5.2 算法分析實例
- 10.6 不可計算的問題
- 10.7 練習
- 第 11 章 計算+X
- 11.1 計算數學
- 11.2 生物信息學
- 11.3 計算物理學
- 11.4 計算化學
- 11.5 計算經濟學
- 11.6 練習
- 附錄
- 1 Python 異常處理參考
- 2 Tkinter 畫布方法
- 3 Tkinter 編程參考
- 3.1 構件屬性值的設置
- 3.2 構件的標準屬性
- 3.3 各種構件的屬性
- 3.4 對話框
- 3.5 事件
- 參考文獻