### 6.4.5 二進制文件與隨機存取*
前面介紹的文件處理是針對文本文件的,并且主要是順序存取文件。本節簡單介紹二進 制文件的處理以及文件的隨機存取。
二進制文件
任何文件在底層都是字節序列。文本文件的字節可解釋成字符的編碼:如果是 ASCII 編碼,則每個字節表示一個字符;如果是 GBK 編碼,則每兩個字節表示一個漢字。對文本 文件的處理完全基于這種字符解釋。而二進制文件的字節序列表示任意的二進制數據,不能 解釋為字符序列。對二進制文件的處理也必須基于特定的解釋來進行。
Python 語言支持對二進制文件的處理,處理過程仍然是“打開-讀寫-關閉”三部曲。 打開二進制文件時必須指明“以二進制方式打開”,具體就是用"rb"、"wb"和"ab"分別表
示讀打開、寫打開和追加打開。例如:
```
>>> bf1 = open("c:/windows/notepad.exe","rb")
>>> bf1.read(10)
'MZ\x90\x00\x03\x00\x00\x00\x04\x00'
>>> bf2 = open("c:/windows/explorer.exe","rb")
>>> bf2.read(10)
'MZ\x90\x00\x03\x00\x00\x00\x04\x00'
```
這里我們分別打開了兩個常用的 Windows 應用程序文件:記事本和資源管理器,并且各讀 了頭 10 個字節的內容。從輸出結果可見,這些字節一般不能解釋成字符①。細心的讀者還可 以發現,notepad.exe 和 explorer.exe 這兩個文件的頭 10 個字符是一樣的。這一點都不奇怪, 因為它們都是 exe 文件,而 exe 文件是有規定的文件頭格式的。作為練習,讀者不妨以二進 制方式打開幾個.jpg 文件,并讀取文件頭若干字節的數據,看看有什么發現。
當然我們還可以將二進制文件以"wb"和"ab"方式打開,從而可以修改二進制文件。不過 除非你知道自己在做什么,一般不要嘗試修改二進制文件,因為可能破壞文件格式。
關閉二進制文件和關閉文本文件是一樣的,調用文件對象的 close 方法即可。
文件的隨機存取
文件一般都是順序讀寫的,即從文件開始處按順序讀寫文件內容直至文件尾。然而,有時候也需要對文件進行隨機讀寫,即直接定位到文件的特定位置進行讀寫,不需要讀寫從文 件頭到目標位置之間的內容。以讀書作類比,順序讀寫就像從第一頁逐詞逐行讀到最后一頁 一樣,而隨機讀寫則像跳躍式讀書,略過中間所有內容直接翻到某一頁。
我們說過,讀寫文件時可以想象有一個“讀寫頭”,就像磁帶錄音機的磁頭一樣,當前 讀寫頭所在位置決定了讀寫的內容是什么。剛打開文件時,讀寫頭位于文件開始處;隨著讀 寫語句的執行,讀寫頭不斷移動。順序讀寫就像磁帶錄放機在進行正常的回放或錄音,而隨 機讀寫就像快進和快倒。
Python 文件對象提供的 seek()方法可用于文件的隨機存取,其用法形如
```
<文件對象>.seek(n)
<文件對象>.seek(n,m)
```
其中,seek(n)的含義是將文件當前位置移到偏移為 n 的地方,這里的偏移是相對于文件開始位置的,即文件的第 1 個字節偏移為 0,第 2 個字節偏移為 1,依此類推。seek(n,m)的含義 是將文件當前位置移到偏移為 n 的地方,這里的偏移要依 m 值來定:m 為 0 時相對于文件 開始位置(即與 seek(n)相同),m 為 1 時相對于文件當前位置,m 為 2 時相對于文件末尾。 偏移為正數表示朝文件尾方向移動,偏移為負數表示向文件頭方向移動。
> ① 二進制文件中也可以含有字符數據,例如 exe 文件的頭兩個字節是字母 MZ,這是 exe 文件的標志。
下面的語句序列首先創建一個漢字文本文件 ccfile.txt,其中每個漢字(包括標點符號) 占用 2 字節。其次,以讀方式打開 ccfile.txt,然后文件當前位置移到偏移 12 處(即略過前 5 個漢字和 1 個逗號)并讀取 4 個字節(即“處處”);然后倒退 16 個字節并讀取 2 個字節(即“春”);最后向前移動 26 個字節并讀 2 個字節(即“風”),最后顯示三次讀的內容所聯接 而成的字符串“處處春風”。
```
>>> f = open("ccfile.txt","w")
>>> f.write("春眠不覺曉,處處聞啼鳥。夜來風雨聲,花落知多少。")
>>> f.close()
>>> f = open("ccfile.txt","r")
>>> f.seek(12)
>>> s = f.read(4)
>>> f.seek(-16,1)
>>> s = s + f.read(2)
>>> f.seek(26,1)
>>> s = s + f.read(2)
>>> print s
處處春風
>>> f.tell()
30L
```
順便說一下,文件對象還提供 tell()方法,用于確定當前讀寫位置。具體用法見上面演 示的最后兩行,顯然讀完“風”后,讀寫頭即停留在 30 號字節處。
- 前言
- 第 1 章 計算與計算思維
- 1.1 什么是計算?
- 1.1.1 計算機與計算
- 1.1.2 計算機語言
- 1.1.3 算法
- 1.1.4 實現
- 1.2 什么是計算思維?
- 1.2.1 計算思維的基本原則
- 1.2.2 計算思維的具體例子
- 1.2.3 日常生活中的計算思維
- 1.2.4 計算思維對其他學科的影響
- 1.3 初識 Python
- 1.3.1 Python 簡介
- 1.3.2 第一個程序
- 1.3.3 程序的執行方式
- 1.3.4 Python 語言的基本成分
- 1.4 程序排錯
- 1.5 練習
- 第 2 章 用數據表示現實世界
- 2.1 數據和數據類型
- 2.1.1 數據是對現實的抽象
- 2.1.1 常量與變量
- 2.1.2 數據類型
- 2.1.3 Python 的動態類型*
- 2.2 數值類型
- 2.2.1 整數類型 int
- 2.2.2 長整數類型 long
- 2.2.3 浮點數類型 float
- 2.2.4 數學庫模塊 math
- 2.2.5 復數類型 complex*
- 2.3 字符串類型 str
- 2.3.1 字符串類型的字面值形式
- 2.3.2 字符串類型的操作
- 2.3.3 字符的機內表示
- 2.3.4 字符串類型與其他類型的轉換
- 2.3.5 字符串庫 string
- 2.4 布爾類型 bool
- 2.4.1 關系運算
- 2.4.2 邏輯運算
- 2.4.3 布爾代數運算定律*
- 2.4.4 Python 中真假的表示與計算*
- 2.5 列表和元組類型
- 2.5.1 列表類型 list
- 2.5.2 元組類型 tuple
- 2.6 數據的輸入和輸出
- 2.6.1 數據的輸入
- 2.6.2 數據的輸出
- 2.6.3 格式化輸出
- 2.7 編程案例:查找問題
- 2.8 練習
- 第 3 章 數據處理的流程控制
- 3.1 順序控制結構
- 3.2 分支控制結構
- 3.2.1 單分支結構
- 3.2.2 兩路分支結構
- 3.2.3 多路分支結構
- 3.3 異常處理
- 3.3.1 傳統的錯誤檢測方法
- 3.3.2 傳統錯誤檢測方法的缺點
- 3.3.3 異常處理機制
- 3.4 循環控制結構
- 3.4.1 for 循環
- 3.4.2 while 循環
- 3.4.3 循環的非正常中斷
- 3.4.4 嵌套循環
- 3.5 結構化程序設計
- 3.5.1 程序開發過程
- 3.5.2 結構化程序設計的基本內容
- 3.6 編程案例:如何求 n 個數據的最大值?
- 3.6.1 幾種解題策略
- 3.6.2 經驗總結
- 3.7 Python 布爾表達式用作控制結構*
- 3.8 練習
- 第 4 章 模塊化編程
- 4.1 模塊化編程基本概念
- 4.1.1 模塊化設計概述
- 4.1.2 模塊化編程
- 4.1.3 編程語言對模塊化編程的支持
- 4.2 Python 語言中的函數
- 4.2.1 用函數減少重復代碼 首先看一個簡單的用字符畫一棵樹的程序:
- 4.2.2 用函數改善程序結構
- 4.2.3 用函數增強程序的通用性
- 4.2.4 小結:函數的定義與調用
- 4.2.5 變量的作用域
- 4.2.6 函數的返回值
- 4.3 自頂向下設計
- 4.3.1 頂層設計
- 4.3.2 第二層設計
- 4.3.3 第三層設計
- 4.3.4 第四層設計
- 4.3.5 自底向上實現與單元測試
- 4.3.6 開發過程小結
- 4.4 Python 模塊*
- 4.4.1 模塊的創建和使用
- 4.4.2 Python 程序架構
- 4.4.3 標準庫模塊
- 4.4.4 模塊的有條件執行
- 4.5 練習
- 第 5 章 圖形編程
- 5.1 概述
- 5.1.1 計算可視化
- 5.1.2 圖形是復雜數據
- 5.1.3 用對象表示復雜數據
- 5.2 Tkinter 圖形編程
- 5.2.1 導入模塊及創建根窗口
- 5.2.2 創建畫布
- 5.2.3 在畫布上繪圖
- 5.2.4 圖形的事件處理
- 5.3 編程案例
- 5.3.1 統計圖表
- 5.3.2 計算機動畫
- 5.4 軟件的層次化設計:一個案例
- 5.4.1 層次化體系結構
- 5.4.2 案例:圖形庫 graphics
- 5.4.3 graphics 與面向對象
- 5.5 練習
- 第 6 章 大量數據的表示和處理
- 6.1 概述
- 6.2 有序的數據集合體
- 6.2.1 字符串
- 6.2.2 列表
- 6.2.3 元組
- 6.3 無序的數據集合體
- 6.3.1 集合
- 6.3.2 字典
- 6.4 文件
- 6.4.1 文件的基本概念
- 6.4.2 文件操作
- 6.4.3 編程案例:文本文件分析
- 6.4.4 緩沖
- 6.4.5 二進制文件與隨機存取*
- 6.5 幾種高級數據結構*
- 6.5.1 鏈表
- 6.5.2 堆棧
- 6.5.3 隊列
- 6.6 練習
- 第 7 章 面向對象思想與編程
- 7.1 數據與操作:兩種觀點
- 7.1.1 面向過程觀點
- 7.1.2 面向對象觀點
- 7.1.3 類是類型概念的發展
- 7.2 面向對象編程
- 7.2.1 類的定義
- 7.2.2 對象的創建
- 7.2.3 對象方法的調用
- 7.2.4 編程實例:模擬炮彈飛行
- 7.2.5 類與模塊化
- 7.2.6 對象的集合體
- 7.3 超類與子類*
- 7.3.1 繼承
- 7.3.2 覆寫
- 7.3.3 多態性
- 7.4 面向對象設計*
- 7.5 練習
- 第 8 章 圖形用戶界面
- 8.1 圖形用戶界面概述
- 8.1.1 程序的用戶界面
- 8.1.2 圖形界面的組成
- 8.1.3 事件驅動
- 8.2 GUI 編程
- 8.2.1 UI 編程概述
- 8.2.2 初識 Tkinter
- 8.2.3 常見 GUI 構件的用法
- 8.2.4 布局
- 8.2.5 對話框*
- 8.3 Tkinter 事件驅動編程
- 8.3.1 事件和事件對象
- 8.3.2 事件處理
- 8.4 模型-視圖設計方法
- 8.4.1 將 GUI 應用程序封裝成對象
- 8.4.2 模型與視圖
- 8.4.3 編程案例:匯率換算器
- 8.5 練習
- 第 9 章 模擬與并發
- 9.1 模擬
- 9.1.1 計算機建模
- 9.1.2 隨機問題的建模與模擬
- 9.1.3 編程案例:乒乓球比賽模擬
- 9.2 原型法
- 9.3 并行計算*
- 9.3.1 串行、并發與并行
- 9.3.2 進程與線程
- 9.3.3 多線程編程的應用
- 9.3.4 Python 多線程編程
- 9.3.5 小結
- 9.4 練習
- 第 10 章 算法設計和分析
- 10.1 枚舉法
- 10.2 遞歸
- 10.3 分治法
- 10.4 貪心法
- 10.5 算法分析
- 10.5.1 算法復雜度
- 10.5.2 算法分析實例
- 10.6 不可計算的問題
- 10.7 練習
- 第 11 章 計算+X
- 11.1 計算數學
- 11.2 生物信息學
- 11.3 計算物理學
- 11.4 計算化學
- 11.5 計算經濟學
- 11.6 練習
- 附錄
- 1 Python 異常處理參考
- 2 Tkinter 畫布方法
- 3 Tkinter 編程參考
- 3.1 構件屬性值的設置
- 3.2 構件的標準屬性
- 3.3 各種構件的屬性
- 3.4 對話框
- 3.5 事件
- 參考文獻