# 第?32?章?正則表達式
**目錄**
+ [1\. 引言](ch32s01.html)
+ [2\. 基本語法](ch32s02.html)
+ [3\. sed](ch32s03.html)
+ [4\. awk](ch32s04.html)
+ [5\. 練習:在C語言中使用正則表達式](ch32s05.html)
## 1.?引言
以前我們用`grep`在一個文件中找出包含某些字符串的行,比如在頭文件中找出一個宏定義。其實`grep`還可以找出_符合某個模式(Pattern)的一類字符串_。例如找出所有符合`xxxxx@xxxx.xxx`模式的字符串(也就是email地址),要求x字符可以是字母、數字、下劃線、小數點或減號,email地址的每一部分可以有一個或多個x字符,例如`abc.d@ef.com`、`1_2@987-6.54`,當然符合這個模式的不全是合法的email地址,但至少可以做一次初步篩選,篩掉`a.b`、`c@d`等肯定不是email地址的字符串。再比如,找出所有符合`yyy.yyy.yyy.yyy`模式的字符串(也就是IP地址),要求y是0-9的數字,IP地址的每一部分可以有1-3個y字符。
如果要用`grep`查找一個模式,如何表示這個模式,這一類字符串,而不是一個特定的字符串呢?從這兩個簡單的例子可以看出,要表示一個模式至少應該包含以下信息:
* 字符類(Character Class):如上例的x和y,它們在模式中表示一個字符,但是取值范圍是一類字符中的任意一個。
* 數量限定符(Quantifier): 郵件地址的每一部分可以有_一個或多個_x字符,IP地址的每一部分可以有_1-3個_y字符
* 各種字符類以及普通字符之間的位置關系:例如郵件地址分三部分,用普通字符`@`和`.`隔開,IP地址分四部分,用`.`隔開,每一部分都可以用字符類和數量限定符描述。為了表示位置關系,還有位置限定符(Anchor)的概念,將在下面介紹。
規定一些特殊語法表示字符類、數量限定符和位置關系,然后用這些特殊語法和普通字符一起表示一個模式,這就是正則表達式(Regular Expression)。例如email地址的正則表達式可以寫成`[a-zA-Z0-9_.-]+@[a-zA-Z0-9_.-]+\.[a-zA-Z0-9_.-]+`,IP地址的正則表達式可以寫成`[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}`。下一節介紹正則表達式的語法,我們先看看正則表達式在`grep`中怎么用。例如有這樣一個文本文件`testfile`:
```
192.168.1.1
1234.234.04.5678
123.4234.045.678
abcde
```
查找其中包含IP地址的行:
```
$ egrep '[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}' testfile
192.168.1.1
1234.234.04.5678
```
`egrep`相當于`grep -E`,表示采用Extended正則表達式語法。`grep`的正則表達式有Basic和Extended兩種規范,它們之間的區別下一節再解釋。另外還有`fgrep`命令,相當于`grep -F`,表示只搜索固定字符串而不搜索正則表達式模式,不會按正則表達式的語法解釋后面的參數。
注意正則表達式參數用單引號括起來了,因為正則表達式中用到的很多特殊字符在Shell中也有特殊含義(例如\),只有用單引號括起來才能保證這些字符原封不動地傳給`grep`命令,而不會被Shell解釋掉。
`192.168.1.1`符合上述模式,由三個`.`隔開的四段組成,每段都是1到3個數字,所以這一行被找出來了,可為什么`1234.234.04.5678`也被找出來了呢?因為`grep`找的是_包含_某一模式的行,這一行包含一個符合模式的字符串`234.234.04.567`。相反,`123.4234.045.678`這一行不包含符合模式的字符串,所以不會被找出來。
`grep`是一種查找過濾工具,正則表達式在`grep`中用來查找符合模式的字符串。其實正則表達式還有一個重要的應用是驗證用戶輸入是否合法,例如用戶通過網頁表單提交自己的email地址,就需要用程序驗證一下是不是合法的email地址,這個工作可以在網頁的Javascript中做,也可以在網站后臺的程序中做,例如PHP、Perl、Python、Ruby、Java或C,所有這些語言都支持正則表達式,可以說,目前不支持正則表達式的編程語言實在很少見。除了編程語言之外,很多UNIX命令和工具也都支持正則表達式,例如grep、vi、sed、awk、emacs等等。“正則表達式”就像“變量”一樣,它是一個廣泛的概念,而不是某一種工具或編程語言的特性。
## 2.?基本語法
我們知道C的變量和Shell腳本變量的定義和使用方法很不相同,表達能力也不相同,C的變量有各種類型,而Shell腳本變量都是字符串。同樣道理,各種工具和編程語言所使用的正則表達式規范的語法并不相同,表達能力也各不相同,有的正則表達式規范引入很多擴展,能表達更復雜的模式,但各種正則表達式規范的基本概念都是相通的。本節介紹`egrep(1)`所使用的正則表達式,它大致上符合POSIX正則表達式規范,詳見`regex(7)`(看這個man page對你的英文絕對是很好的鍛煉)。希望讀者仿照上一節的例子,一邊學習語法,一邊用`egrep`命令做實驗。
**表?32.1.?字符類**
| 字符 | 含義 | 舉例 |
| --- | --- | --- |
| `.` | 匹配任意一個字符 | `abc.`可以匹配`abcd`、`abc9`等 |
| `[]` | 匹配括號中的任意一個字符 | `[abc]d`可以匹配`ad`、`bd`或`cd` |
| `-` | 在`[]`括號內表示字符范圍 | `[0-9a-fA-F]`可以匹配一位十六進制數字 |
| `^` | 位于`[]`括號內的開頭,匹配除括號中的字符之外的任意一個字符 | `[^xy]`匹配除`xy`之外的任一字符,因此`[^xy]1`可以匹配`a1`、`b1`但不匹配`x1`、`y1` |
| `[[:xxx:]]` | `grep`工具預定義的一些命名字符類 | `[[:alpha:]]`匹配一個字母,`[[:digit:]]`匹配一個數字 |
**表?32.2.?數量限定符**
| 字符 | 含義 | 舉例 |
| --- | --- | --- |
| `?` | 緊跟在它前面的單元應匹配零次或一次 | `[0-9]?\.[0-9]`匹配`0.0`、`2.3`、`.5`等,由于`.`在正則表達式中是一個特殊字符,所以需要用`\`轉義一下,取字面值 |
| `+` | 緊跟在它前面的單元應匹配一次或多次 | `[a-zA-Z0-9_.-]+@[a-zA-Z0-9_.-]+\.[a-zA-Z0-9_.-]+`匹配email地址 |
| `*` | 緊跟在它前面的單元應匹配零次或多次 | `[0-9][0-9]*`匹配至少一位數字,等價于`[0-9]+`,`[a-zA-Z_]+[a-zA-Z_0-9]*`匹配C語言的標識符 |
| `{N}` | 緊跟在它前面的單元應精確匹配`N次` | `[1-9][0-9]{2}`匹配從`100`到`999`的整數 |
| `{N,}` | 緊跟在它前面的單元應匹配至少`N`次 | `[1-9][0-9]{2,}`匹配三位以上(含三位)的整數 |
| `{,M}` | 緊跟在它前面的單元應匹配最多`M`次 | `[0-9]{,1}`相當于`[0-9]?` |
| `{N,M}` | 緊跟在它前面的單元應匹配至少`N`次,最多`M`次 | `[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}`匹配IP地址 |
再次注意`grep`找的是包含某一模式的行,而不是完全匹配某一模式的行。再舉個例子,如果文本文件的內容是
```
aaabc
aad
efg
```
查找`a*`這個模式的結果是三行都被找出來了
```
$ egrep 'a*' testfile
aabc
aad
efg
```
`a*`匹配0個或多個`a`,而第三行包含0個`a`,所以也包含了這一模式。單獨用`a*`這樣的正則表達式做查找沒什么意義,一般是把`a*`作為正則表達式的一部分來用。
**表?32.3.?位置限定符**
| 字符 | 含義 | 舉例 |
| --- | --- | --- |
| `^` | 匹配行首的位置 | `^Content`匹配位于一行開頭的`Content` |
| `$` | 匹配行末的位置 | `;$`匹配位于一行結尾的`;`號,`^$`匹配空行 |
| `\<` | 匹配單詞開頭的位置 | `\<th`匹配`... this`,但不匹配`ethernet`、`tenth` |
| `\>` | 匹配單詞結尾的位置 | `p\>`匹配`leap ...`,但不匹配`parent`、`sleepy` |
| `\b` | 匹配單詞開頭或結尾的位置 | `\bat\b`匹配`... at ...`,但不匹配`cat`、`atexit`、`batch` |
| `\B` | 匹配非單詞開頭和結尾的位置 | `\Bat\B`匹配`battery`,但不匹配`... attend`、`hat ...` |
位置限定符可以幫助`grep`更準確地查找,例如上一節我們用`[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}`查找IP地址,找到這兩行
```
192.168.1.1
1234.234.04.5678
```
如果用`^[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}$`查找,就可以把`1234.234.04.5678`這一行過濾掉了。
**表?32.4.?其它特殊字符**
| 字符 | 含義 | 舉例 |
| --- | --- | --- |
| `\` | 轉義字符,普通字符轉義為特殊字符,特殊字符轉義為普通字符 | 普通字符`<`寫成`\<`表示單詞開頭的位置,特殊字符`.`寫成`\.`以及`\`寫成`\\`就當作普通字符來匹配 |
| `()` | 將正則表達式的一部分括起來組成一個單元,可以對整個單元使用數量限定符 | `([0-9]{1,3}\.){3}[0-9]{1,3}`匹配IP地址 |
| `|` | 連接兩個子表達式,表示或的關系 | `n(o|either)`匹配`no`或`neither` |
以上介紹的是`grep`正則表達式的Extended規范,Basic規范也有這些語法,只是字符`?+{}|()`應解釋為普通字符,要表示上述特殊含義則需要加`\`轉義。如果用`grep`而不是`egrep`,并且不加`-E`參數,則應該遵照Basic規范來寫正則表達式。
## 3.?sed
`sed`意為流編輯器(Stream Editor),在Shell腳本和Makefile中作為過濾器使用非常普遍,也就是把前一個程序的輸出引入sed的輸入,經過一系列編輯命令轉換為另一種格式輸出。`sed`和`vi`都源于早期UNIX的`ed`工具,所以很多`sed`命令和`vi`的末行命令是相同的。
`sed`命令行的基本格式為
```
sed option 'script' file1 file2 ...
sed option -f scriptfile file1 file2 ...
```
`sed`處理的文件既可以由標準輸入重定向得到,也可以當命令行參數傳入,命令行參數可以一次傳入多個文件,`sed`會依次處理。`sed`的編輯命令可以直接當命令行參數傳入,也可以寫成一個腳本文件然后用`-f`參數指定,編輯命令的格式為
```
/pattern/action
```
其中`pattern`是正則表達式,`action`是編輯操作。`sed`程序一行一行讀出待處理文件,如果某一行與`pattern`匹配,則執行相應的`action`,如果一條命令沒有`pattern`而只有`action`,這個`action`將作用于待處理文件的每一行。
**表?32.5.?常用的sed命令**
| | |
| --- | --- |
| `/pattern/p` | 打印匹配`pattern`的行 |
| `/pattern/d` | 刪除匹配`pattern`的行 |
| `/pattern/s/pattern1/pattern2/` | 查找符合`pattern`的行,將該行第一個匹配`pattern1`的字符串替換為`pattern2` |
| `/pattern/s/pattern1/pattern2/g` | 查找符合`pattern`的行,將該行所有匹配`pattern1`的字符串替換為`pattern2` |
使用`p`命令需要注意,`sed`是把待處理文件的內容連同處理結果一起輸出到標準輸出的,因此`p`命令表示除了把文件內容打印出來之外還額外打印一遍匹配`pattern`的行。比如一個文件`testfile`的內容是
```
123
abc
456
```
打印其中包含`abc`的行
```
$ sed '/abc/p' testfile
123
abc
abc
456
```
要想只輸出處理結果,應加上`-n`選項,這種用法相當于`grep`命令
```
$ sed -n '/abc/p' testfile
abc
```
使用`d`命令就不需要`-n`參數了,比如刪除含有`abc`的行
```
$ sed '/abc/d' testfile
123
456
```
注意,`sed`命令不會修改原文件,刪除命令只表示某些行不打印輸出,而不是從原文件中刪去。
使用查找替換命令時,可以把匹配`pattern1`的字符串復制到`pattern2`中,比如:
```
$ sed 's/bc/-&-/' testfile
123
a-bc-
456
```
`pattern2`中的`&`表示原文件的當前行中與`pattern1`相匹配的字符串,再比如:
```
$ sed 's/\([0-9]\)\([0-9]\)/-\1-~\2~/' testfile
-1-~2~3
abc
-4-~5~6
```
`pattern2`中的`\1`表示與`pattern1`的第一個`()`括號相匹配的內容,`\2`表示與`pattern1`的第二個`()`括號相匹配的內容。`sed`默認使用Basic正則表達式規范,如果指定了`-r`選項則使用Extended規范,那么`()`括號就不必轉義了。
如果`testfile`的內容是
```
<html><head><title>Hello World</title>
<body>Welcome to the world of regexp!</body></html>
```
現在要去掉所有的HTML標簽,使輸出結果為
```
Hello World
Welcome to the world of regexp!
```
怎么做呢?如果用下面的命令
```
$ sed 's/<.*>//g' testfile
```
結果是兩個空行,把所有字符都過濾掉了。這是因為,正則表達式中的數量限定符會匹配盡可能長的字符串,這稱為貪心的(Greedy)<sup>[[39](#ftn.id2880730)]</sup>。比如`sed`在處理第一行時,`<.*>`匹配的并不是`<html>`或`<head>`這樣的標簽,而是
```
<html><head><title>Hello World</title>
```
這樣一整行,因為這一行開頭是`<`,中間是若干個任意字符,末尾是`>`。那么這條命令怎么改才對呢?留給讀者思考。
* * *
<sup>[[39](#id2880730)]</sup> 有些正則表達式規范支持Non-greedy的數量限定符,匹配盡可能短的字符串,例如在Python中`*?`和`*`一樣表示0個或任意多個,但前者是Non-greedy的。
## 4.?awk
`sed`以行為單位處理文件,`awk`比`sed`強的地方在于不僅能以行為單位還能以列為單位處理文件。`awk`缺省的行分隔符是換行,缺省的列分隔符是連續的空格和Tab,但是行分隔符和列分隔符都可以自定義,比如`/etc/passwd`文件的每一行有若干個字段,字段之間以`:`分隔,就可以重新定義`awk`的列分隔符為`:`并以列為單位處理這個文件。`awk`實際上是一門很復雜的腳本語言,還有像C語言一樣的分支和循環結構,但是基本用法和`sed`類似,`awk`命令行的基本形式為:
```
awk option 'script' file1 file2 ...
awk option -f scriptfile file1 file2 ...
```
和`sed`一樣,`awk`處理的文件既可以由標準輸入重定向得到,也可以當命令行參數傳入,編輯命令可以直接當命令行參數傳入,也可以用`-f`參數指定一個腳本文件,編輯命令的格式為:
```
/pattern/{actions}
condition{actions}
```
和`sed`類似,`pattern`是正則表達式,`actions`是一系列操作。`awk`程序一行一行讀出待處理文件,如果某一行與`pattern`匹配,或者滿足`condition`條件,則執行相應的`actions`,如果一條`awk`命令只有`actions`部分,則`actions`作用于待處理文件的每一行。比如文件`testfile`的內容表示某商店的庫存量:
```
ProductA 30
ProductB 76
ProductC 55
```
打印每一行的第二列:
```
$ awk '{print $2;}' testfile
30
76
55
```
自動變量`$1`、`$2`分別表示第一列、第二列等,類似于Shell腳本的位置參數,而`$0`表示整個當前行。再比如,如果某種產品的庫存量低于75則在行末標注需要訂貨:
```
$ awk '$2<75 {printf "%s\t%s\n", $0, "REORDER";} $2>=75 {print $0;}' testfile
ProductA 30 REORDER
ProductB 76
ProductC 55 REORDER
```
可見`awk`也有和C語言非常相似的`printf`函數。`awk`命令的`condition`部分還可以是兩個特殊的`condition`-`BEGIN`和`END`,對于每個待處理文件,`BEGIN`后面的`actions`在處理整個文件之前執行一次,`END`后面的`actions`在整個文件處理完之后執行一次。
`awk`命令可以像C語言一樣使用變量(但不需要定義變量),比如統計一個文件中的空行數
```
$ awk '/^ *$/ {x=x+1;} END {print x;}' testfile
```
就像Shell的環境變量一樣,有些`awk`變量是預定義的有特殊含義的:
**表?32.6.?awk常用的內建變量**
| | |
| --- | --- |
| FILENAME | 當前輸入文件的文件名,該變量是只讀的 |
| NR | 當前行的行號,該變量是只讀的,`R`代表record |
| NF | 當前行所擁有的列數,該變量是只讀的,`F`代表field |
| OFS | 輸出格式的列分隔符,缺省是空格 |
| FS | 輸入文件的列分融符,缺省是連續的空格和Tab |
| ORS | 輸出格式的行分隔符,缺省是換行符 |
| RS | 輸入文件的行分隔符,缺省是換行符 |
例如打印系統中的用戶帳號列表
```
$ awk 'BEGIN {FS=":"} {print $1;}' /etc/passwd
```
`awk`還可以像C語言一樣使用`if`/`else`、`while`、`for`控制結構,此處從略。
## 5.?練習:在C語言中使用正則表達式
POSIX規定了正則表達式的C語言庫函數,詳見`regex(3)`。我們已經學習了很多C語言庫函數的用法,讀者應該具備自己看懂man手冊的能力了。本章介紹了正則表達式在`grep`、`sed`、`awk`中的用法,學習要能夠舉一反三,請讀者根據`regex(3)`自己總結正則表達式在C語言中的用法,寫一些簡單的程序,例如驗證用戶輸入的IP地址或email地址格式是否正確。
- Linux C編程一站式學習
- 歷史
- 前言
- 部分?I.?C語言入門
- 第?1?章?程序的基本概念
- 第?2?章?常量、變量和表達式
- 第?3?章?簡單函數
- 第?4?章?分支語句
- 第?5?章?深入理解函數
- 第?6?章?循環語句
- 第?7?章?結構體
- 第?8?章?數組
- 第?9?章?編碼風格
- 第?10?章?gdb
- 第?11?章?排序與查找
- 第?12?章?棧與隊列
- 第?13?章?本階段總結
- 部分?II.?C語言本質
- 第?14?章?計算機中數的表示
- 第?15?章?數據類型詳解
- 第?16?章?運算符詳解
- 第?17?章?計算機體系結構基礎
- 第?18?章?x86匯編程序基礎
- 第?19?章?匯編與C之間的關系
- 第?20?章?鏈接詳解
- 第?21?章?預處理
- 第?22?章?Makefile基礎
- 第?23?章?指針
- 第?24?章?函數接口
- 第?25?章?C標準庫
- 第?26?章?鏈表、二叉樹和哈希表
- 第?27?章?本階段總結
- 部分?III.?Linux系統編程
- 第?28?章?文件與I/O
- 第?29?章?文件系統
- 第?30?章?進程
- 第?31?章?Shell腳本
- 第?32?章?正則表達式
- 第?33?章?信號
- 第?34?章?終端、作業控制與守護進程
- 第?35?章?線程
- 第?36?章?TCP/IP協議基礎
- 第?37?章?socket編程
- 附錄?A.?字符編碼
- 附錄?B.?GNU Free Documentation License Version 1.3, 3 November 2008
- 參考書目
- 索引