### 6.4.3 編程案例:文本文件分析
本節討論一個文件分析程序,其功能是輸入一個文本文件,對文件內容進行分詞(將字符流劃分為單詞),然后統計文件中的字符數、單詞數、每個單詞的出現次數以及行數,最 后輸出統計結果。按出現頻率前 n 名的單詞。這種分析在很多應用中都會用到,例如自然語 言處理、文檔相似性比較、搜索引擎等。
分析程序的算法設計是直接了當的,其核心是對多個指標進行累積計數。其中,對字符 數和行數的計數可以利用文件操作的結果直接得到:read()可將整個文件的內容作為一個字 符串返回,字符串長度就是字符總數;readlines()將文件的所有行構成一個列表返回,列表 長度就是行數。至于單詞總數,需要先將文件內容(字符串)劃分成單詞,這可以利用 string 庫中的 split 函數實現。既可以對 read()返回的整個字符串分詞,也可以通過循環來對 readlines() 返回的每一行字符串分詞,我們將采用更簡單的前一種方法。下面是實現這一部分工作的示 意代碼,其中 f 表示被分析的文件對象:
```
numchars = len(f.read())
numlines = len(f.readlines())
numwords = len(string.split(f.read()))
```
分析程序中最麻煩的是對每個單詞出現次數的累積計數。按照過去介紹的累積算法模式,需要為每一個累積量定義一個累積變量,并在循環中不斷更新該變量。然而,這種做法 并不適合現在的場合,因為為文件中可能出現的成千上萬個單詞各定義一個累積變量顯然太 笨拙了,更何況文件中到底有哪些單詞是不能預知的。編程解決問題的訣竅之一是使用合適 的數據類型,6.1.2 中介紹的字典正可以在這個場合派上用場。
我們將建立一個字典 worddict,其關鍵字是文件中出現的單詞,值是該單詞在文件中出 現的次數,即 worddict[w]等于 w 在文件中出現的次數。在讀文件單詞的過程中,每當遇到 單詞 w,就用下面的語句遞增 w 的計數值:
```
worddict[w] = worddict[w] + 1
```
不過這里還有一個小麻煩:當首次遇到單詞 w 時,字典 worddict 中尚未建立相應的詞條, 即 worddict[w]無定義,因此上述遞增計數的語句將導致錯誤(KeyError)。為解決這個小麻 煩,最容易想到的是用條件語句來檢測單詞 w 是否已經存在于字典中,代碼如下:
```
if worddict.has_key(w):
worddict[w] = worddict[w] + 1
else:
worddict[w] = 1
```
另一種做法是利用例外處理,通過捕獲關鍵字錯誤(KeyError)來決定是遞增計數還是 首次建立詞條。代碼如下:
```
try:
worddict[w] = worddict[w] + 1
except KeyError:
worddict[w] = 1
```
這個做法在使用字典的程序中很常用,我們的分析程序也采用了這個做法。 除了核心代碼,還需補充一些在分詞之前對文件字符串進行預處理的代碼。其一,將文件內容中的字母都轉換成小寫,以使單詞"WORD"和"word"被識別為同一單詞;其二,將文 件內容中的各種標點符號都替換成空格,以使單詞"one,two"能被正確地劃分為兩個單詞 "one"和"two",以及"one, two"不被劃分為"one,"和"two"①。做這兩件事的代碼如下:
```
text = string.lower(text)
for ch in "`~!@#$%^&*()-_=+[{]}\\|;:'\",<.>/?":
text = string.replace(text,ch," ")
```
接下來即可劃分單詞,并對所有單詞進行循環,在循環過程中構造字典 worddict。代碼如下:
```
wordlist = string.split(text)
worddict = {}
for w in wordlist:
try:
worddict[w] = worddict[w] + 1
except KeyError:
worddict[w] = 1
```
最后輸出分析結果。由于單詞可能很多,我們的分析程序只示意性地輸出了 5 個單詞及 其出現次數。更好的做法是根據出現次數對單詞排名,并輸出最頻繁的前 n 名單詞,有興趣 的讀者可以試著完善這個功能。
將以上討論綜合起來,即得完整的文件分析程序。
> ① 這里的細微差別在于逗號后是否有空格。
【程序 6.2】textanalysis.py
```
import string
def main():
fname = raw_input("File to analyze: ") f = open(fname,"r")
text = f.read() numchars = len(text) f.seek(0)
numlines = len(f.readlines()) text = string.lower(text)
for ch in "`~!@#$%^&*()-_=+[{]}\\|;:'\",<.>/?":
text = string.replace(text,ch," ")
wordlist = string.split(text) numwords = len(wordlist) worddict = {}
for w in wordlist:
try:
worddict[w] = worddict[w] + 1
except KeyError:
worddict[w] = 1
print "Number of characters:",numchars print "Number of lines:",numlines print "Number of words:",numwords pairlist = worddict.items()
for i in range(10):
print pairlist[i],
main()
```
注意,由于需要兩次讀文件(read 和 readlines),所以在第二次讀文件之前應將“讀寫頭” 移動到文件開始處,這就是第 8 行的 f.seek(0)所做的事情。
假設有文件 yours.txt,其內容如下:
```
The life that I have Is all that I have,
And the life that I have Is yours.
The love that I have Of the life that I have
Is yours, and yours, and yours.
A sleep I shall have, A rest I shall have,
Yet death will be but a pause. For the peace of my years
In the long green grass,
Will be yours, and yours, and yours.
```
則運行程序 6.2 后,將得到如下結果:
```
File to analyze: yours.txt Number of characters: 315
Number of lines: 14 Number of words: 70
('and', 5) ('all', 1) ('peace', 1) ('love', 1) ('is', 3)
```
- 前言
- 第 1 章 計算與計算思維
- 1.1 什么是計算?
- 1.1.1 計算機與計算
- 1.1.2 計算機語言
- 1.1.3 算法
- 1.1.4 實現
- 1.2 什么是計算思維?
- 1.2.1 計算思維的基本原則
- 1.2.2 計算思維的具體例子
- 1.2.3 日常生活中的計算思維
- 1.2.4 計算思維對其他學科的影響
- 1.3 初識 Python
- 1.3.1 Python 簡介
- 1.3.2 第一個程序
- 1.3.3 程序的執行方式
- 1.3.4 Python 語言的基本成分
- 1.4 程序排錯
- 1.5 練習
- 第 2 章 用數據表示現實世界
- 2.1 數據和數據類型
- 2.1.1 數據是對現實的抽象
- 2.1.1 常量與變量
- 2.1.2 數據類型
- 2.1.3 Python 的動態類型*
- 2.2 數值類型
- 2.2.1 整數類型 int
- 2.2.2 長整數類型 long
- 2.2.3 浮點數類型 float
- 2.2.4 數學庫模塊 math
- 2.2.5 復數類型 complex*
- 2.3 字符串類型 str
- 2.3.1 字符串類型的字面值形式
- 2.3.2 字符串類型的操作
- 2.3.3 字符的機內表示
- 2.3.4 字符串類型與其他類型的轉換
- 2.3.5 字符串庫 string
- 2.4 布爾類型 bool
- 2.4.1 關系運算
- 2.4.2 邏輯運算
- 2.4.3 布爾代數運算定律*
- 2.4.4 Python 中真假的表示與計算*
- 2.5 列表和元組類型
- 2.5.1 列表類型 list
- 2.5.2 元組類型 tuple
- 2.6 數據的輸入和輸出
- 2.6.1 數據的輸入
- 2.6.2 數據的輸出
- 2.6.3 格式化輸出
- 2.7 編程案例:查找問題
- 2.8 練習
- 第 3 章 數據處理的流程控制
- 3.1 順序控制結構
- 3.2 分支控制結構
- 3.2.1 單分支結構
- 3.2.2 兩路分支結構
- 3.2.3 多路分支結構
- 3.3 異常處理
- 3.3.1 傳統的錯誤檢測方法
- 3.3.2 傳統錯誤檢測方法的缺點
- 3.3.3 異常處理機制
- 3.4 循環控制結構
- 3.4.1 for 循環
- 3.4.2 while 循環
- 3.4.3 循環的非正常中斷
- 3.4.4 嵌套循環
- 3.5 結構化程序設計
- 3.5.1 程序開發過程
- 3.5.2 結構化程序設計的基本內容
- 3.6 編程案例:如何求 n 個數據的最大值?
- 3.6.1 幾種解題策略
- 3.6.2 經驗總結
- 3.7 Python 布爾表達式用作控制結構*
- 3.8 練習
- 第 4 章 模塊化編程
- 4.1 模塊化編程基本概念
- 4.1.1 模塊化設計概述
- 4.1.2 模塊化編程
- 4.1.3 編程語言對模塊化編程的支持
- 4.2 Python 語言中的函數
- 4.2.1 用函數減少重復代碼 首先看一個簡單的用字符畫一棵樹的程序:
- 4.2.2 用函數改善程序結構
- 4.2.3 用函數增強程序的通用性
- 4.2.4 小結:函數的定義與調用
- 4.2.5 變量的作用域
- 4.2.6 函數的返回值
- 4.3 自頂向下設計
- 4.3.1 頂層設計
- 4.3.2 第二層設計
- 4.3.3 第三層設計
- 4.3.4 第四層設計
- 4.3.5 自底向上實現與單元測試
- 4.3.6 開發過程小結
- 4.4 Python 模塊*
- 4.4.1 模塊的創建和使用
- 4.4.2 Python 程序架構
- 4.4.3 標準庫模塊
- 4.4.4 模塊的有條件執行
- 4.5 練習
- 第 5 章 圖形編程
- 5.1 概述
- 5.1.1 計算可視化
- 5.1.2 圖形是復雜數據
- 5.1.3 用對象表示復雜數據
- 5.2 Tkinter 圖形編程
- 5.2.1 導入模塊及創建根窗口
- 5.2.2 創建畫布
- 5.2.3 在畫布上繪圖
- 5.2.4 圖形的事件處理
- 5.3 編程案例
- 5.3.1 統計圖表
- 5.3.2 計算機動畫
- 5.4 軟件的層次化設計:一個案例
- 5.4.1 層次化體系結構
- 5.4.2 案例:圖形庫 graphics
- 5.4.3 graphics 與面向對象
- 5.5 練習
- 第 6 章 大量數據的表示和處理
- 6.1 概述
- 6.2 有序的數據集合體
- 6.2.1 字符串
- 6.2.2 列表
- 6.2.3 元組
- 6.3 無序的數據集合體
- 6.3.1 集合
- 6.3.2 字典
- 6.4 文件
- 6.4.1 文件的基本概念
- 6.4.2 文件操作
- 6.4.3 編程案例:文本文件分析
- 6.4.4 緩沖
- 6.4.5 二進制文件與隨機存取*
- 6.5 幾種高級數據結構*
- 6.5.1 鏈表
- 6.5.2 堆棧
- 6.5.3 隊列
- 6.6 練習
- 第 7 章 面向對象思想與編程
- 7.1 數據與操作:兩種觀點
- 7.1.1 面向過程觀點
- 7.1.2 面向對象觀點
- 7.1.3 類是類型概念的發展
- 7.2 面向對象編程
- 7.2.1 類的定義
- 7.2.2 對象的創建
- 7.2.3 對象方法的調用
- 7.2.4 編程實例:模擬炮彈飛行
- 7.2.5 類與模塊化
- 7.2.6 對象的集合體
- 7.3 超類與子類*
- 7.3.1 繼承
- 7.3.2 覆寫
- 7.3.3 多態性
- 7.4 面向對象設計*
- 7.5 練習
- 第 8 章 圖形用戶界面
- 8.1 圖形用戶界面概述
- 8.1.1 程序的用戶界面
- 8.1.2 圖形界面的組成
- 8.1.3 事件驅動
- 8.2 GUI 編程
- 8.2.1 UI 編程概述
- 8.2.2 初識 Tkinter
- 8.2.3 常見 GUI 構件的用法
- 8.2.4 布局
- 8.2.5 對話框*
- 8.3 Tkinter 事件驅動編程
- 8.3.1 事件和事件對象
- 8.3.2 事件處理
- 8.4 模型-視圖設計方法
- 8.4.1 將 GUI 應用程序封裝成對象
- 8.4.2 模型與視圖
- 8.4.3 編程案例:匯率換算器
- 8.5 練習
- 第 9 章 模擬與并發
- 9.1 模擬
- 9.1.1 計算機建模
- 9.1.2 隨機問題的建模與模擬
- 9.1.3 編程案例:乒乓球比賽模擬
- 9.2 原型法
- 9.3 并行計算*
- 9.3.1 串行、并發與并行
- 9.3.2 進程與線程
- 9.3.3 多線程編程的應用
- 9.3.4 Python 多線程編程
- 9.3.5 小結
- 9.4 練習
- 第 10 章 算法設計和分析
- 10.1 枚舉法
- 10.2 遞歸
- 10.3 分治法
- 10.4 貪心法
- 10.5 算法分析
- 10.5.1 算法復雜度
- 10.5.2 算法分析實例
- 10.6 不可計算的問題
- 10.7 練習
- 第 11 章 計算+X
- 11.1 計算數學
- 11.2 生物信息學
- 11.3 計算物理學
- 11.4 計算化學
- 11.5 計算經濟學
- 11.6 練習
- 附錄
- 1 Python 異常處理參考
- 2 Tkinter 畫布方法
- 3 Tkinter 編程參考
- 3.1 構件屬性值的設置
- 3.2 構件的標準屬性
- 3.3 各種構件的屬性
- 3.4 對話框
- 3.5 事件
- 參考文獻