### 2.3.3 字符的機內表示
和數值一樣,字符在計算機內部也是用二進制數表示的,這個二進制數稱為該字符的編碼。于是,字符串在計算機內自然就用二進制數的序列表示。可以推知,對字符和字符串的 所有操作,實質上都是對二進制數的運算。我們在屏幕上看到各個字符有各自的形狀,這只 是計算機的顯示系統將字符的編碼映射到特定屏幕像素組合的結果。
表示每個字符的二進制編碼具體等于幾并不重要,我們可以用(1111)2 表示字符 A,也可 以用(0000)2 表示字符 A,這不會帶來什么本質的不同,事實上只要確保不同字符有不同的 編碼即可。但是,為了在不同計算機之間能夠交換信息,避免發生一臺計算機上的字符 A(假設編碼是(0000)2)傳給另一臺計算機后被解釋成字符 B(假設(0000)2 在這臺機器上恰 好是 B 的編碼),我們需要統一字符編碼。基于這個思想,人們制定了字符集編碼標準—— 定義所支持的字符集以及每個字符的二進制編碼。
由于計算機是美國人發明的,所以較早出現的一個編碼標準是根據美國的使用情況制定 的標準,稱為 ASCII①。這個標準也是最重要的,幾乎所有計算機都支持 ASCII 的字符編碼。 ASCII 使用一個字節的 7 位二進制位來表示字符(最高位恒為 0),這樣就只能支持 27 = 128 個字符,各字符的編碼如果用十進制表示就是 0~127。ASCII 所定義的字符包括大小寫英 文字母、阿拉伯數字、標點符號、空格、回車、換行等,它們分為可打印字符和控制字符兩 類。
> ① American Standard Code for Information Interchange 的首字母縮寫。
Python 中提供了兩個與字符編碼有關的函數:ord()函數用于從字符得到其編碼,chr() 函數用于從編碼得出對應的字符。例如:
```
>>> ord('A')
65
>>> ord('a')
97
>>> ord('8')
56
>>> ord(' ')
32
>>> chr(64)
'@'
>>> chr(10) '\n'
>>> chr(13)
'\r'
```
對此例有幾點說明:第四個例子是求空格字符的編碼(32);第六個例子說明編碼 10 對應的 字符可以用轉義字符\n 表示,它其實就是換行字符;第七個例子說明編碼 13 對應的字符可 以用轉義字符\r 表示,它其實就是回車字符。換行和回車都是控制字符的例子,控制字符 不像字母數字那樣有可打印、顯示的形狀,但在程序中可以用轉義字符來表示某些控制字符。
ASCII 編碼的一個問題是支持的字符太少,對美國人來說夠用,但對其他國家來說遠遠 不夠。因此產生了各種對 ASCII 的擴充標準。例如針對歐洲語言的 Latin-1 標準將一個字節 的最高位也用上,從而在 ASCII 的基礎上增加了 128 個字符。
中國的漢字也是字符,并且數量很大,用一個字節編碼是遠遠不夠的。較早的國家標準 GB2312 采用兩個字節來對漢字編碼,共定義了 6763 個漢字。后來產生了 GBK 規范,仍然 用兩個字節編碼,但支持 2 萬多個漢字。最新的國家標準是 GB18030,它最多可用四個字 節編碼,支持 7 萬多個漢字。
為了將全世界的字符編碼統一起來,國際標準化組織 ISO 制定了一個龐大的字符編碼 標準 Unicode。Unicode 最多用四個字節的編碼,因此可以囊括地球上所有語言所用到的所 有字符,目前已經得到廣泛支持。較新版本的 Python 語言(包括 2.7 版)都支持 Unicode。 下面我們舉例說明 Python 對非 ASCII 字符的處理方法。最簡單的方法是使用 Unicode 字符串。Python 語言中,在字符串前面加個前綴 u 就表示 Unicode 字符串,其中可以使用
任意 Unicode 字符。例如:
```
>>> print u'A\xc4B'
A?B
```
在這個例子中,字符串由三個字符構成:頭尾兩個字符分別是 A、B,可以從鍵盤直接 輸入;中間的字符是 Latin-1 字符集中的字符 ?,無法從鍵盤直接輸入,但可以通過輸入十 六進制編碼(即 c4,另外\x 是十六進制數的標志)的方式來輸入。
再看漢字的例子:
```
>>> '漢'
\xba\xba
>>> print '漢'
漢
>>> print '\xba\xba'
漢
```
從第一條語句可以看出,我們輸入的“漢”字在機器內部被表示成了兩個字節的編碼,該編碼按十六進制表示等于 baba,亦即 GBK 規范中“漢”的編碼①。接下來兩條 print 語句 表明,字符“漢”和編碼“\xba\xba”作用是一樣的。
如果需要將漢字和 ASCII 字符、Latin-1 字符等混合在一起構成字符串,那就只能用 Unicode 字符串。例如,“漢”在 Unicode 中的編碼是 6c49,在 Unicode 字符串中可以用\u6c49 代表“漢”。結合前面的例子,讀者應能理解下面這條語句的結果:
```
>>> print u'A\u6c49\xc4B'
A 漢 腂
```
如果希望 Python 程序能夠處理包含漢字的字符串,用 Unicode 字符串是最可靠的做法。
具體細節在此從略。
- 前言
- 第 1 章 計算與計算思維
- 1.1 什么是計算?
- 1.1.1 計算機與計算
- 1.1.2 計算機語言
- 1.1.3 算法
- 1.1.4 實現
- 1.2 什么是計算思維?
- 1.2.1 計算思維的基本原則
- 1.2.2 計算思維的具體例子
- 1.2.3 日常生活中的計算思維
- 1.2.4 計算思維對其他學科的影響
- 1.3 初識 Python
- 1.3.1 Python 簡介
- 1.3.2 第一個程序
- 1.3.3 程序的執行方式
- 1.3.4 Python 語言的基本成分
- 1.4 程序排錯
- 1.5 練習
- 第 2 章 用數據表示現實世界
- 2.1 數據和數據類型
- 2.1.1 數據是對現實的抽象
- 2.1.1 常量與變量
- 2.1.2 數據類型
- 2.1.3 Python 的動態類型*
- 2.2 數值類型
- 2.2.1 整數類型 int
- 2.2.2 長整數類型 long
- 2.2.3 浮點數類型 float
- 2.2.4 數學庫模塊 math
- 2.2.5 復數類型 complex*
- 2.3 字符串類型 str
- 2.3.1 字符串類型的字面值形式
- 2.3.2 字符串類型的操作
- 2.3.3 字符的機內表示
- 2.3.4 字符串類型與其他類型的轉換
- 2.3.5 字符串庫 string
- 2.4 布爾類型 bool
- 2.4.1 關系運算
- 2.4.2 邏輯運算
- 2.4.3 布爾代數運算定律*
- 2.4.4 Python 中真假的表示與計算*
- 2.5 列表和元組類型
- 2.5.1 列表類型 list
- 2.5.2 元組類型 tuple
- 2.6 數據的輸入和輸出
- 2.6.1 數據的輸入
- 2.6.2 數據的輸出
- 2.6.3 格式化輸出
- 2.7 編程案例:查找問題
- 2.8 練習
- 第 3 章 數據處理的流程控制
- 3.1 順序控制結構
- 3.2 分支控制結構
- 3.2.1 單分支結構
- 3.2.2 兩路分支結構
- 3.2.3 多路分支結構
- 3.3 異常處理
- 3.3.1 傳統的錯誤檢測方法
- 3.3.2 傳統錯誤檢測方法的缺點
- 3.3.3 異常處理機制
- 3.4 循環控制結構
- 3.4.1 for 循環
- 3.4.2 while 循環
- 3.4.3 循環的非正常中斷
- 3.4.4 嵌套循環
- 3.5 結構化程序設計
- 3.5.1 程序開發過程
- 3.5.2 結構化程序設計的基本內容
- 3.6 編程案例:如何求 n 個數據的最大值?
- 3.6.1 幾種解題策略
- 3.6.2 經驗總結
- 3.7 Python 布爾表達式用作控制結構*
- 3.8 練習
- 第 4 章 模塊化編程
- 4.1 模塊化編程基本概念
- 4.1.1 模塊化設計概述
- 4.1.2 模塊化編程
- 4.1.3 編程語言對模塊化編程的支持
- 4.2 Python 語言中的函數
- 4.2.1 用函數減少重復代碼 首先看一個簡單的用字符畫一棵樹的程序:
- 4.2.2 用函數改善程序結構
- 4.2.3 用函數增強程序的通用性
- 4.2.4 小結:函數的定義與調用
- 4.2.5 變量的作用域
- 4.2.6 函數的返回值
- 4.3 自頂向下設計
- 4.3.1 頂層設計
- 4.3.2 第二層設計
- 4.3.3 第三層設計
- 4.3.4 第四層設計
- 4.3.5 自底向上實現與單元測試
- 4.3.6 開發過程小結
- 4.4 Python 模塊*
- 4.4.1 模塊的創建和使用
- 4.4.2 Python 程序架構
- 4.4.3 標準庫模塊
- 4.4.4 模塊的有條件執行
- 4.5 練習
- 第 5 章 圖形編程
- 5.1 概述
- 5.1.1 計算可視化
- 5.1.2 圖形是復雜數據
- 5.1.3 用對象表示復雜數據
- 5.2 Tkinter 圖形編程
- 5.2.1 導入模塊及創建根窗口
- 5.2.2 創建畫布
- 5.2.3 在畫布上繪圖
- 5.2.4 圖形的事件處理
- 5.3 編程案例
- 5.3.1 統計圖表
- 5.3.2 計算機動畫
- 5.4 軟件的層次化設計:一個案例
- 5.4.1 層次化體系結構
- 5.4.2 案例:圖形庫 graphics
- 5.4.3 graphics 與面向對象
- 5.5 練習
- 第 6 章 大量數據的表示和處理
- 6.1 概述
- 6.2 有序的數據集合體
- 6.2.1 字符串
- 6.2.2 列表
- 6.2.3 元組
- 6.3 無序的數據集合體
- 6.3.1 集合
- 6.3.2 字典
- 6.4 文件
- 6.4.1 文件的基本概念
- 6.4.2 文件操作
- 6.4.3 編程案例:文本文件分析
- 6.4.4 緩沖
- 6.4.5 二進制文件與隨機存取*
- 6.5 幾種高級數據結構*
- 6.5.1 鏈表
- 6.5.2 堆棧
- 6.5.3 隊列
- 6.6 練習
- 第 7 章 面向對象思想與編程
- 7.1 數據與操作:兩種觀點
- 7.1.1 面向過程觀點
- 7.1.2 面向對象觀點
- 7.1.3 類是類型概念的發展
- 7.2 面向對象編程
- 7.2.1 類的定義
- 7.2.2 對象的創建
- 7.2.3 對象方法的調用
- 7.2.4 編程實例:模擬炮彈飛行
- 7.2.5 類與模塊化
- 7.2.6 對象的集合體
- 7.3 超類與子類*
- 7.3.1 繼承
- 7.3.2 覆寫
- 7.3.3 多態性
- 7.4 面向對象設計*
- 7.5 練習
- 第 8 章 圖形用戶界面
- 8.1 圖形用戶界面概述
- 8.1.1 程序的用戶界面
- 8.1.2 圖形界面的組成
- 8.1.3 事件驅動
- 8.2 GUI 編程
- 8.2.1 UI 編程概述
- 8.2.2 初識 Tkinter
- 8.2.3 常見 GUI 構件的用法
- 8.2.4 布局
- 8.2.5 對話框*
- 8.3 Tkinter 事件驅動編程
- 8.3.1 事件和事件對象
- 8.3.2 事件處理
- 8.4 模型-視圖設計方法
- 8.4.1 將 GUI 應用程序封裝成對象
- 8.4.2 模型與視圖
- 8.4.3 編程案例:匯率換算器
- 8.5 練習
- 第 9 章 模擬與并發
- 9.1 模擬
- 9.1.1 計算機建模
- 9.1.2 隨機問題的建模與模擬
- 9.1.3 編程案例:乒乓球比賽模擬
- 9.2 原型法
- 9.3 并行計算*
- 9.3.1 串行、并發與并行
- 9.3.2 進程與線程
- 9.3.3 多線程編程的應用
- 9.3.4 Python 多線程編程
- 9.3.5 小結
- 9.4 練習
- 第 10 章 算法設計和分析
- 10.1 枚舉法
- 10.2 遞歸
- 10.3 分治法
- 10.4 貪心法
- 10.5 算法分析
- 10.5.1 算法復雜度
- 10.5.2 算法分析實例
- 10.6 不可計算的問題
- 10.7 練習
- 第 11 章 計算+X
- 11.1 計算數學
- 11.2 生物信息學
- 11.3 計算物理學
- 11.4 計算化學
- 11.5 計算經濟學
- 11.6 練習
- 附錄
- 1 Python 異常處理參考
- 2 Tkinter 畫布方法
- 3 Tkinter 編程參考
- 3.1 構件屬性值的設置
- 3.2 構件的標準屬性
- 3.3 各種構件的屬性
- 3.4 對話框
- 3.5 事件
- 參考文獻