11.2 基礎正則表達式 · 鳥哥的 Linux 私房菜：基礎學習篇第四版

## 11.2 基礎正則表達式既然正則表達式是處理字串的一種表示方式，那么對字符排序有影響的語系數據就會對正則表達式的結果有影響！此外，正則表達式也需要支持工具程序來輔助才行！所以，我們這里就先介紹一個最簡單的字串擷取功能的工具程序，那就是 grep 啰！前一章已經介紹過 grep 的相關選項與參數，本章著重在較進階的 grep 選項說明啰！介紹完 grep 的功能之后，就進入正則表達式的特殊字符的處理能力了。 ### 11.2.1 語系對正則表達式的影響為什么語系的數據會影響到正則表達式的輸出結果呢？我們在[第零章計算機概論的文字編碼系統](../Text/index.html#data_word)里面談到，文件其實記錄的僅有 0 與 1，我們看到的字符文字與數字都是通過編碼表轉換來的。由于不同語系的編碼數據并不相同，所以就會造成數據擷取結果的差異了。舉例來說，在英文大小寫的編碼順序中，zh_TW.big5 及 C 這兩種語系的輸出結果分別如下： * LANG=C ? ? 時：0 1 2 3 4 ... A B C D ... Z a b c d ...z * LANG=zh_TW 時：0 1 2 3 4 ... a A b B c C d D ... z Z 上面的順序是編碼的順序，我們可以很清楚的發現這兩種語系明顯就是不一樣！如果你想要擷取大寫字符而使用 [A-Z] 時，會發現 LANG=C 確實可以僅捉到大寫字符（因為是連續的），但是如果 LANG=zh_TW.big5 時，就會發現到，連同小寫的 b-z 也會被擷取出來！因為就編碼的順序來看， big5 語系可以擷取到“ A b B c C ... z Z ”這一堆字符哩！所以，使用正則表達式時，需要特別留意當時環境的語系為何，否則可能會發現與別人不相同的擷取結果喔！由于一般我們在練習正則表達式時，使用的是相容于 POSIX 的標準，因此就使用“ C ”這個語系[[1]](#ps1)！因此，下面的很多練習都是使用“ LANG=C ”這個語系數據來進行的喔！另外，為了要避免這樣編碼所造成的英文與數字的擷取問題，因此有些特殊的符號我們得要了解一下的！這些符號主要有下面這些意義： | 特殊符號 | 代表意義 | | --- | --- | | [:alnum:] | 代表英文大小寫字符及數字，亦即 0-9, A-Z, a-z | | [:alpha:] | 代表任何英文大小寫字符，亦即 A-Z, a-z | | [:blank:] | 代表空白鍵與 [Tab] 按鍵兩者 | | [:cntrl:] | 代表鍵盤上面的控制按鍵，亦即包括 CR, LF, Tab, Del.. 等等 | | [:digit:] | 代表數字而已，亦即 0-9 | | [:graph:] | 除了空白字符（空白鍵與 [Tab] 按鍵）外的其他所有按鍵 | | [:lower:] | 代表小寫字符，亦即 a-z | | [:print:] | 代表任何可以被打印出來的字符 | | [:punct:] | 代表標點符號（punctuation symbol），亦即：" ' ? ! ; : # $... | | [:upper:] | 代表大寫字符，亦即 A-Z | | [:space:] | 任何會產生空白的字符，包括空白鍵, [Tab], CR 等等 | | [:xdigit:] | 代表 16 進位的數字類型，因此包括： 0-9, A-F, a-f 的數字與字符 | 尤其上表中的[:alnum:], [:alpha:], [:upper:], [:lower:], [:digit:] 這幾個一定要知道代表什么意思，因為他要比 a-z 或 A-Z 的用途要確定的很！好了，下面就讓我們開始來玩玩進階版的 grep 吧！ ### 11.2.2 grep 的一些進階選項我們在[第十章 BASH 里面的 grep](../Text/index.html#grep) 談論過一些基礎用法，但其實 grep 還有不少的進階用法喔！下面我們僅列出較進階的 grep 選項與參數給大家參考， [基礎的 grep 用法](../Text/index.html#grep)請參考前一章的說明啰！ ``` [dmtsai@study ~]$ grep [-A] [-B] [--color=auto] '搜尋字串' filename 選項與參數： -A ：后面可加數字，為 after 的意思，除了列出該行外，后續的 n 行也列出來； -B ：后面可加數字，為 befer 的意思，除了列出該行外，前面的 n 行也列出來； --color=auto 可將正確的那個擷取數據列出顏色范例一：用 dmesg 列出核心訊息，再以 grep 找出內含 qxl 那行 [dmtsai@study ~]$ dmesg | grep 'qxl' [ 0.522749] [drm] qxl: 16M of VRAM memory size [ 0.522750] [drm] qxl: 63M of IO pages memory ready （VRAM domain） [ 0.522750] [drm] qxl: 32M of Surface memory size [ 0.650714] fbcon: qxldrmfb （fb0） is primary device [ 0.668487] qxl 0000:00:02.0: fb0: qxldrmfb frame buffer device # dmesg 可列出核心產生的訊息！包括硬件偵測的流程也會顯示出來。 # 鳥哥使用的顯卡是 QXL 這個虛擬卡，通過 grep 來 qxl 的相關信息，可發現如上信息。范例二：承上題，要將捉到的關鍵字顯色，且加上行號來表示： [dmtsai@study ~]$ dmesg | grep -n --color=auto 'qxl' 515:[ 0.522749] [drm] qxl: 16M of VRAM memory size 516:[ 0.522750] [drm] qxl: 63M of IO pages memory ready （VRAM domain） 517:[ 0.522750] [drm] qxl: 32M of Surface memory size 529:[ 0.650714] fbcon: qxldrmfb （fb0） is primary device 539:[ 0.668487] qxl 0000:00:02.0: fb0: qxldrmfb frame buffer device # 除了 qxl 會有特殊顏色來表示之外，最前面還有行號喔！其實顏色顯示已經是默認在 alias 當中了！范例三：承上題，在關鍵字所在行的前兩行與后三行也一起捉出來顯示 [dmtsai@study ~]$ dmesg | grep -n -A3 -B2 --color=auto 'qxl' # 你會發現關鍵字之前與之后的數行也被顯示出來！這樣可以讓你將關鍵字前后數據捉出來進行分析啦！ ``` grep 是一個很常見也很常用的指令，他最重要的功能就是進行字串數據的比對，然后將符合使用者需求的字串行印出來。需要說明的是“grep 在數據中查尋一個字串時，是以 "整行" 為單位來進行數據的擷取的！”也就是說，假如一個文件內有 10 行，其中有兩行具有你所搜尋的字串，則將那兩行顯示在屏幕上，其他的就丟棄了！在 CentOS 7 當中，默認已經將 --color=auto 加入在 alias 當中了！使用者就可以直接使用有關鍵字顯色的 grep 啰！非常方便！ ### 11.2.3 基礎正則表達式練習要了解正則表達式最簡單的方法就是由實際練習去感受啦！所以在匯整正則表達式特殊符號前，我們先以下面這個文件的內容來進行正則表達式的理解吧！先說明一下，下面的練習大前提是： * 語系已經使用“ export LANG=C; export LC_ALL=C ”的設置值； * grep 已經使用 alias 設置成為“ grep --color=auto ” 至于本章的練習用文件請由下面的鏈接來下載。需要特別注意的是，下面這個文件是鳥哥在 MS Windows 系統下編輯的，并且已經特殊處理過，因此，他雖然是純文本文件，但是內含一些 Windows 系統下的軟件常常自行加入的一些特殊字符，例如斷行字符（^M）就是一例！所以，你可以直接將下面的文字以 vi 儲存成 regular_express.txt 這個文件，不過，還是比較建議直接點下面的鏈接： > [http://linux.vbird.org/linux_basic/0330regularex/regular_express.txt](http://linux.vbird.org/linux_basic/0330regularex/regular_express.txt) 如果你的 Linux 可以直接連上 Internet 的話，那么使用如下的指令來捉取即可： > wget http://linux.vbird.org/linux_basic/0330regularex/regular_express.txt 至于這個文件的內容如下： ``` [dmtsai@study ~]$ vi regular_express.txt "Open Source" is a good mechanism to develop programs. apple is my favorite food. Football game is not use feet only. this dress doesn't fit me. However, this dress is about $ 3183 dollars.^M GNU is free air not free beer.^M Her hair is very beauty.^M I can't finish the test.^M Oh! The soup taste good.^M motorcycle is cheap than car. This window is clear. the symbol '*' is represented as start. Oh! My god! The gd software is a library for drafting programs.^M You are the best is mean you are the no. 1. The world <Happy> is the same with "glad". I like dog. google is the best tools for search keyword. goooooogle yes! go! go! Let's go. # I am VBird ``` 這文件共有 22 行，最下面一行為空白行！現在開始我們一個案例一個案例的來介紹吧！ * 例題一、搜尋特定字串搜尋特定字串很簡單吧？假設我們要從剛剛的文件當中取得 the 這個特定字串，最簡單的方式就是這樣： ``` [dmtsai@study ~]$ grep -n 'the' regular_express.txt 8:I can't finish the test. 12:the symbol '*' is represented as start. 15:You are the best is mean you are the no. 1. 16:The world <Happy> is the same with "glad". 18:google is the best tools for search keyword. ``` 那如果想要“反向選擇”呢？也就是說，當該行沒有 'the' 這個字串時才顯示在屏幕上，那就直接使用： ``` [dmtsai@study ~]$ grep -vn 'the' regular_express.txt ``` 你會發現，屏幕上出現的行列為除了 8,12,15,16,18 五行之外的其他行列！接下來，如果你想要取得不論大小寫的 the 這個字串，則： ``` [dmtsai@study ~]$ grep -in 'the' regular_express.txt 8:I can't finish the test. 9:Oh! The soup taste good. 12:the symbol '*' is represented as start. 14:The gd software is a library for drafting programs. 15:You are the best is mean you are the no. 1. 16:The world <Happy> is the same with "glad". 18:google is the best tools for search keyword. ``` 除了多兩行（9, 14行）之外，第 16 行也多了一個 The 的關鍵字被擷取到喔！ * 例題二、利用中括號 [] 來搜尋集合字符如果我想要搜尋 test 或 taste 這兩個單字時，可以發現到，其實她們有共通的 't?st' 存在～這個時候，我可以這樣來搜尋： ``` [dmtsai@study ~]$ grep -n 't[ae]st' regular_express.txt 8:I can't finish the test. 9:Oh! The soup taste good. ``` 了解了吧？其實 [] 里面不論有幾個字符，他都僅代表某“一個”字符，所以，上面的例子說明了，我需要的字串是“tast”或“test”兩個字串而已！而如果想要搜尋到有 oo 的字符時，則使用： ``` [dmtsai@study ~]$ grep -n 'oo' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 2:apple is my favorite food. 3:Football game is not use feet only. 9:Oh! The soup taste good. 18:google is the best tools for search keyword. 19:goooooogle yes! ``` 但是，如果我不想要 oo 前面有 g 的話呢？此時，可以利用在集合字符的反向選擇 [^] 來達成： ``` [dmtsai@study ~]$ grep -n '[^g]oo' regular_express.txt 2:apple is my favorite food. 3:Football game is not use feet only. 18:google is the best tools for search keyword. 19:goooooogle yes! ``` 意思就是說，我需要的是 oo ，但是 oo 前面不能是 g 就是了！仔細比較上面兩個表格，你會發現，第 1,9 行不見了，因為 oo 前面出現了 g 所致！第 2,3 行沒有疑問，因為 foo 與 Foo 均可被接受！但是第 18 行明明有 google 的 goo 啊～別忘記了，因為該行后面出現了 tool 的 too 啊！所以該行也被列出來～也就是說， 18 行里面雖然出現了我們所不要的項目（goo）但是由于有需要的項目（too），因此，是符合字串搜尋的喔！至于第 19 行，同樣的，因為 goooooogle 里面的 oo 前面可能是 o ，例如： go（ooo）oogle ，所以，這一行也是符合需求的！再來，假設我 oo 前面不想要有小寫字符，所以，我可以這樣寫 [^abcd....z]oo ，但是這樣似乎不怎么方便，由于小寫字符的 ASCII 上編碼的順序是連續的，因此，我們可以將之簡化為下面這樣： ``` [dmtsai@study ~]$ grep -n '[^a-z]oo' regular_express.txt 3:Football game is not use feet only. ``` 也就是說，當我們在一組集合字符中，如果該字符組是連續的，例如大寫英文/小寫英文/數字等等，就可以使用[a-z],[A-Z],[0-9]等方式來書寫，那么如果我們的要求字串是數字與英文呢？呵呵！就將他全部寫在一起，變成：[a-zA-Z0-9]。例如，我們要取得有數字的那一行，就這樣： ``` [dmtsai@study ~]$ grep -n '[0-9]' regular_express.txt 5:However, this dress is about $ 3183 dollars. 15:You are the best is mean you are the no. 1. ``` 但由于考慮到語系對于編碼順序的影響，因此除了連續編碼使用減號“ - ”之外，你也可以使用如下的方法來取得前面兩個測試的結果： ``` [dmtsai@study ~]$ grep -n '[^[:lower:]]oo' regular_express.txt # 那個 [:lower:] 代表的就是 a-z 的意思！請參考前兩小節的說明表格 [dmtsai@study ~]$ grep -n '[[:digit:]]' regular_express.txt ``` 啥？上頭在寫啥東西呢？不要害怕！分開來瞧一瞧。我們知道 [:lower:] 就是 a-z 的意思，那么 [a-z] 當然就是 [[:lower:]] 啰！鳥哥第一次接觸正則表達式的時候，看到兩層中括號差點昏倒～完全看不懂！現在，請注意那個疊代的意義，自然就能夠比較清楚了解啰！這樣對于 [] 以及 [^] 以及 [] 當中的 - ，還有關于前面表格提到的特殊關鍵字有了解了嗎？^_^！ * 例題三、行首與行尾字符 ^ $ 我們在例題一當中，可以查詢到一行字串里面有 the 的，那如果我想要讓 the 只在行首列出呢？這個時候就得要使用定位字符了！我們可以這樣做： ``` [dmtsai@study ~]$ grep -n '^the' regular_express.txt 12:the symbol '*' is represented as start. ``` 此時，就只剩下第 12 行，因為只有第 12 行的行首是 the 開頭啊～此外，如果我想要開頭是小寫字符的那一行就列出呢？可以這樣： ``` [dmtsai@study ~]$ grep -n '^[a-z]' regular_express.txt 2:apple is my favorite food. 4:this dress doesn't fit me. 10:motorcycle is cheap than car. 12:the symbol '*' is represented as start. 18:google is the best tools for search keyword. 19:goooooogle yes! 20:go! go! Let's go. ``` 你可以發現我們可以捉到第一個字符都不是大寫的！上面的指令也可以用如下的方式來取代的： ``` [dmtsai@study ~]$ grep -n '^[[:lower:]]' regular_express.txt ``` 好！那如果我不想要開頭是英文字母，則可以是這樣： ``` [dmtsai@study ~]$ grep -n '^[^a-zA-Z]' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 21:# I am VBird # 指令也可以是： grep -n '^[^[:alpha:]]' regular_express.txt ``` 注意到了吧？那個 ^ 符號，在字符集合符號（括號[]）之內與之外是不同的！在 [] 內代表“反向選擇”，在 [] 之外則代表定位在行首的意義！要分清楚喔！反過來思考，那如果我想要找出來，行尾結束為小數點（.）的那一行，該如何處理： ``` [dmtsai@study ~]$ grep -n '\.$' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 2:apple is my favorite food. 3:Football game is not use feet only. 4:this dress doesn't fit me. 10:motorcycle is cheap than car. 11:This window is clear. 12:the symbol '*' is represented as start. 15:You are the best is mean you are the no. 1. 16:The world <Happy> is the same with "glad". 17:I like dog. 18:google is the best tools for search keyword. 20:go! go! Let's go. ``` 特別注意到，因為小數點具有其他意義（下面會介紹），所以必須要使用跳脫字符（\）來加以解除其特殊意義！不過，你或許會覺得奇怪，但是第 5~9 行最后面也是 . 啊～怎么無法打印出來？這里就牽涉到 Windows 平臺的軟件對于斷行字符的判斷問題了！我們使用 cat -A 將第五行拿出來看，你會發現： ``` [dmtsai@study ~]$ cat -An regular_express.txt | head -n 10 | tail -n 6 5 However, this dress is about $ 3183 dollars.^M$ 6 GNU is free air not free beer.^M$ 7 Her hair is very beauty.^M$ 8 I can't finish the test.^M$ 9 Oh! The soup taste good.^M$ 10 motorcycle is cheap than car.$ ``` 我們在[第九章內談到過斷行字符](../Text/index.html#tips_dos)在 Linux 與 Windows 上的差異，在上面的表格中我們可以發現 5~9 行為 Windows 的斷行字符（^M$），而正常的 Linux 應該僅有第 10 行顯示的那樣（$）。所以啰，那個 . 自然就不是緊接在 $ 之前喔！也就捉不到 5~9 行了！這樣可以了解 ^ 與 $ 的意義嗎？好了，先不要看下面的解答，自己想一想，那么如果我想要找出來，哪一行是“空白行”，也就是說，該行并沒有輸入任何數據，該如何搜尋？ ``` [dmtsai@study ~]$ grep -n '^$' regular_express.txt 22: ``` 因為只有行首跟行尾（^$），所以，這樣就可以找出空白行啦！再來，假設你已經知道在一個程序腳本（shell script）或者是配置文件當中，空白行與開頭為 # 的那一行是注解，因此如果你要將數據列出給別人參考時，可以將這些數據省略掉以節省保貴的紙張，那么你可以怎么作呢？我們以 /etc/rsyslog.conf 這個文件來作范例，你可以自行參考一下輸出的結果： ``` [dmtsai@study ~]$ cat -n /etc/rsyslog.conf # 在 CentOS 7 中，結果可以發現有 91 行的輸出，很多空白行與 # 開頭的注解行 [dmtsai@study ~]$ grep -v '^$' /etc/rsyslog.conf | grep -v '^#' # 結果僅有 14 行，其中第一個“ -v '^$' ”代表“不要空白行”， # 第二個“ -v '^#' ”代表“不要開頭是 # 的那行”喔！ ``` 是否節省很多版面啊？另外，你可能也會問，那為何不要出現 # 的符號的那行就直接舍棄呢？沒辦法！因為某些注解是與設置寫在同一行的后面，如果你只是抓 # 就予以去除，那就會將某些設置也同時移除了！那錯誤就大了～ * 例題四、任意一個字符 . 與重復字符 * 在[第十章 bash](../Text/index.html) 當中，我們知道[萬用字符 *](../Text/index.html#settings_wildcard) 可以用來代表任意（0或多個）字符，但是正則表達式并不是萬用字符，兩者之間是不相同的！至于正則表達式當中的“ . ”則代表“絕對有一個任意字符”的意思！這兩個符號在正則表達式的意義如下： * . （小數點）：代表“一定有一個任意字符”的意思； * * （星星號）：代表“重復前一個字符， 0 到無窮多次”的意思，為組合形態這樣講不好懂，我們直接做個練習吧！假設我需要找出 g??d 的字串，亦即共有四個字符，起頭是 g 而結束是 d ，我可以這樣做： ``` [dmtsai@study ~]$ grep -n 'g..d' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 9:Oh! The soup taste good. 16:The world <Happy> is the same with "glad". ``` 因為強調 g 與 d 之間一定要存在兩個字符，因此，第 13 行的 god 與第 14 行的 gd 就不會被列出來啦！再來，如果我想要列出有 oo, ooo, oooo 等等的數據，也就是說，至少要有兩個（含） o 以上，該如何是好？是 o* 還是 oo* 還是 ooo* 呢？雖然你可以試看看結果，不過結果太占版面了 @_@ ，所以，我這里就直接說明。因為 * 代表的是“重復 0 個或多個前面的 RE 字符”的意義，因此，“o*”代表的是：“擁有空字符或一個 o 以上的字符”，特別注意，因為允許空字符（就是有沒有字符都可以的意思），因此，“ grep -n 'o*' regular_express.txt ”將會把所有的數據都打印出來屏幕上！那如果是“oo*”呢？則第一個 o 肯定必須要存在，第二個 o 則是可有可無的多個 o ，所以，凡是含有 o, oo, ooo, oooo 等等，都可以被列出來～同理，當我們需要“至少兩個 o 以上的字串”時，就需要 ooo* ，亦即是： ``` [dmtsai@study ~]$ grep -n 'ooo*' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 2:apple is my favorite food. 3:Football game is not use feet only. 9:Oh! The soup taste good. 18:google is the best tools for search keyword. 19:goooooogle yes! ``` 這樣理解 * 的意義了嗎？好了，現在出個練習，如果我想要字串開頭與結尾都是 g，但是兩個 g 之間僅能存在至少一個 o ，亦即是 gog, goog, gooog.... 等等，那該如何？ ``` [dmtsai@study ~]$ grep -n 'goo*g' regular_express.txt 18:google is the best tools for search keyword. 19:goooooogle yes! ``` 如此了解了嗎？再來一題，如果我想要找出 g 開頭與 g 結尾的字串，當中的字符可有可無，那該如何是好？是“g*g”嗎？ ``` [dmtsai@study ~]$ grep -n 'g*g' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 3:Football game is not use feet only. 9:Oh! The soup taste good. 13:Oh! My god! 14:The gd software is a library for drafting programs. 16:The world <Happy> is the same with "glad". 17:I like dog. 18:google is the best tools for search keyword. 19:goooooogle yes! 20:go! go! Let's go. ``` 但測試的結果竟然出現這么多行？太詭異了吧？其實一點也不詭異，因為 g*g 里面的 g* 代表“空字符或一個以上的 g” 在加上后面的 g ，因此，整個 RE 的內容就是 g, gg, ggg, gggg ，因此，只要該行當中擁有一個以上的 g 就符合所需了！那該如何得到我們的 g....g 的需求呢？呵呵！就利用任意一個字符“.”啊！亦即是：“g.*g”的作法，因為 * 可以是 0 或多個重復前面的字符，而 . 是任意字符，所以： “.* 就代表零個或多個任意字符”的意思啦！ ``` [dmtsai@study ~]$ grep -n 'g.*g' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 14:The gd software is a library for drafting programs. 18:google is the best tools for search keyword. 19:goooooogle yes! 20:go! go! Let's go. ``` 因為是代表 g 開頭與 g 結尾，中間任意字符均可接受，所以，第 1, 14, 20 行是可接受的喔！這個 .* 的 RE 表示任意字符是很常見的，希望大家能夠理解并且熟悉！再出一題，如果我想要找出“任意數字”的行列呢？因為僅有數字，所以就成為： ``` [dmtsai@study ~]$ grep -n '[0-9][0-9]*' regular_express.txt 5:However, this dress is about $ 3183 dollars. 15:You are the best is mean you are the no. 1. ``` 雖然使用 grep -n '[0-9]' regular_express.txt 也可以得到相同的結果，但鳥哥希望大家能夠理解上面指令當中 RE 表達式的意義才好！ * 例題五、限定連續 RE 字符范圍 {} 在上個例題當中，我們可以利用 . 與 RE 字符及 * 來設置 0 個到無限多個重復字符，那如果我想要限制一個范圍區間內的重復字符數呢？舉例來說，我想要找出兩個到五個 o 的連續字串，該如何作？這時候就得要使用到限定范圍的字符 {} 了。但因為 { 與 } 的符號在 shell 是有特殊意義的，因此，我們必須要使用跳脫字符 \ 來讓他失去特殊意義才行。至于 {} 的語法是這樣的，假設我要找到兩個 o 的字串，可以是： ``` [dmtsai@study ~]$ grep -n 'o\{2\}' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 2:apple is my favorite food. 3:Football game is not use feet only. 9:Oh! The soup taste good. 18:google is the best tools for search keyword. 19:goooooogle yes! ``` 這樣看似乎與 ooo* 的字符沒有什么差異啊？因為第 19 行有多個 o 依舊也出現了！好，那么換個搜尋的字串，假設我們要找出 g 后面接 2 到 5 個 o ，然后再接一個 g 的字串，他會是這樣： ``` [dmtsai@study ~]$ grep -n 'go\{2,5\}g' regular_express.txt 18:google is the best tools for search keyword. ``` 嗯！很好！第 19 行終于沒有被取用了（因為 19 行有 6 個 o 啊！）。那么，如果我想要的是 2 個 o 以上的 goooo....g 呢？除了可以是 gooo*g ，也可以是： ``` [dmtsai@study ~]$ grep -n 'go\{2,\}g' regular_express.txt 18:google is the best tools for search keyword. 19:goooooogle yes! ``` 呵呵！就可以找出來啦～ ### 11.2.4 基礎正則表達式字符匯整（characters）經過了上面的幾個簡單的范例，我們可以將基礎的正則表達式特殊字符匯整如下： | RE 字符 | 意義與范例 | | --- | --- | | ^word | 意義：待搜尋的字串（word）在行首！范例：搜尋行首為 # 開始的那一行，并列出行號 `> grep -n '^#' regular_express.txt` | | word$ | 意義：待搜尋的字串（word）在行尾！范例：將行尾為 ! 的那一行打印出來，并列出行號 `> grep -n '!$' regular_express.txt` | | . | 意義：代表“一定有一個任意字符”的字符！范例：搜尋的字串可以是（eve）（eae）（eee）（e e），但不能僅有（ee）！亦即 e 與 e 中間“一定”僅有一個字符，而空白字符也是字符！ `> grep -n 'e.e' regular_express.txt` | | \ | 意義：跳脫字符，將特殊符號的特殊意義去除！范例：搜尋含有單引號 ' 的那一行！ `> grep -n \' regular_express.txt` | | * | 意義：重復零個到無窮多個的前一個 RE 字符范例：找出含有（es）（ess）（esss）等等的字串，注意，因為 * 可以是 0 個，所以 es 也是符合帶搜尋字串。另外，因為 * 為重復“前一個 RE 字符”的符號，因此，在 * 之前必須要緊接著一個 RE 字符喔！例如任意字符則為 “.*” ！ `> grep -n 'ess*' regular_express.txt` | | [list] | 意義：字符集合的 RE 字符，里面列出想要擷取的字符！范例：搜尋含有（gl）或（gd）的那一行，需要特別留意的是，在 [] 當中“謹代表一個待搜尋的字符”，例如“ a[afl]y ”代表搜尋的字串可以是 aay, afy, aly 即 [afl] 代表 a 或 f 或 l 的意思！ `> grep -n 'g[ld]' regular_express.txt` | | [n1-n2] | 意義：字符集合的 RE 字符，里面列出想要擷取的字符范圍！范例：搜尋含有任意數字的那一行！需特別留意，在字符集合 [] 中的減號 - 是有特殊意義的，他代表兩個字符之間的所有連續字符！但這個連續與否與 ASCII 編碼有關，因此，你的編碼需要設置正確（在 bash 當中，需要確定 LANG 與 LANGUAGE 的變量是否正確！）例如所有大寫字符則為 [A-Z] `> grep -n '[A-Z]' regular_express.txt` | [^list] | 意義：字符集合的 RE 字符，里面列出不要的字串或范圍！范例：搜尋的字串可以是（oog）（ood）但不能是（oot），那個 ^ 在 [] 內時，代表的意義是“反向選擇”的意思。例如，我不要大寫字符，則為 [^A-Z]。但是，需要特別注意的是，如果以 grep -n [^A-Z] regular_express.txt 來搜尋，卻發現該文件內的所有行都被列出，為什么？因為這個 [^A-Z] 是“非大寫字符”的意思，因為每一行均有非大寫字符，例如第一行的 "Open Source" 就有 p,e,n,o.... 等等的小寫字 `> grep -n 'oo[^t]' regular_express.txt` | | \{n,m\} | 意義：連續 n 到 m 個的“前一個 RE 字符” 意義：若為 \{n\} 則是連續 n 個的前一個 RE 字符，意義：若是 \{n,\} 則是連續 n 個以上的前一個 RE 字符！范例：在 g 與 g 之間有 2 個到 3 個的 o 存在的字串，亦即（goog）（gooog） `> grep -n 'go\{2,3\}g' regular_express.txt` | 再次強調：“正則表達式的特殊字符”與一般在命令行輸入指令的“萬用字符”并不相同，例如，在萬用字符當中的 * 代表的是“ 0 ~ 無限多個字符”的意思，但是在正則表達式當中， * 則是“重復 0 到無窮多個的前一個 RE 字符”的意思～使用的意義并不相同，不要搞混了！舉例來說，不支持正則表達式的 ls 這個工具中，若我們使用 “ls -l * ” 代表的是任意文件名的文件，而 “ls -l a* ”代表的是以 a 為開頭的任何文件名的文件，但在正則表達式中，我們要找到含有以 a 為開頭的文件，則必須要這樣：（需搭配支持正則表達式的工具） > ls | grep -n '^a.*' 例題：以 ls -l 配合 grep 找出 /etc/ 下面文件類型為鏈接文件屬性的文件名答：由于 ls -l 列出鏈接文件時標頭會是“ lrwxrwxrwx ”，因此使用如下的指令即可找出結果： > ls -l /etc | grep '^l' 若僅想要列出幾個文件，再以“ |wc -l ” 來累加處理即可。 ### 11.2.5 sed 工具在了解了一些正則表達式的基礎應用之后，再來呢？呵呵～兩個東西可以玩一玩的，那就是 sed 跟下面會介紹的 awk 了！這兩個家伙可是相當的有用的啊！舉例來說，鳥哥寫的 [logfile.sh 分析登錄文件的小程序](../Text/index.html) （第十八章會談到），絕大部分分析關鍵字的取用、統計等等，就是用這兩個寶貝蛋來幫我完成的！那么你說，要不要玩一玩啊？^_^ 我們先來談一談 sed 好了， sed 本身也是一個管線命令，可以分析 standard input 的啦！而且 sed 還可以將數據進行取代、刪除、新增、擷取特定行等等的功能呢！很不錯吧～我們先來了解一下 sed 的用法，再來聊他的用途好了！ ``` [dmtsai@study ~]$ sed [-nefr] [動作] 選項與參數： -n ：使用安靜（silent）模式。在一般 sed 的用法中，所有來自 STDIN 的數據一般都會被列出到屏幕上。但如果加上 -n 參數后，則只有經過 sed 特殊處理的那一行（或者動作）才會被列出來。 -e ：直接在命令行界面上進行 sed 的動作編輯； -f ：直接將 sed 的動作寫在一個文件內， -f filename 則可以執行 filename 內的 sed 動作； -r ：sed 的動作支持的是延伸型正則表達式的語法。（默認是基礎正則表達式語法） -i ：直接修改讀取的文件內容，而不是由屏幕輸出。動作說明： [n1[,n2]]function n1, n2 ：不見得會存在，一般代表“選擇進行動作的行數”，舉例來說，如果我的動作是需要在 10 到 20 行之間進行的，則“ 10,20[動作行為] ” function 有下面這些咚咚： a ：新增， a 的后面可以接字串，而這些字串會在新的一行出現（目前的下一行）～ c ：取代， c 的后面可以接字串，這些字串可以取代 n1,n2 之間的行！ d ：刪除，因為是刪除啊，所以 d 后面通常不接任何咚咚； i ：插入， i 的后面可以接字串，而這些字串會在新的一行出現（目前的上一行）； p ：打印，亦即將某個選擇的數據印出。通常 p 會與參數 sed -n 一起運行～ s ：取代，可以直接進行取代的工作哩！通常這個 s 的動作可以搭配正則表達式！例如 1,20s/old/new/g 就是啦！ ``` * 以行為單位的新增/刪除功能 sed 光是用看的是看不懂的啦！所以又要來練習了！先來玩玩刪除與新增的功能吧！ ``` 范例一：將 /etc/passwd 的內容列出并且打印行號，同時，請將第 2~5 行刪除！ [dmtsai@study ~]$ nl /etc/passwd | sed '2,5d' 1 root:x:0:0:root:/root:/bin/bash 6 sync:x:5:0:sync:/sbin:/bin/sync 7 shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown .....（后面省略）..... ``` 看到了吧？sed 的動作為 '2,5d' ，那個 d 就是刪除！因為 2-5 行給他刪除了，所以顯示的數據就沒有 2-5 行啰～另外，注意一下，原本應該是要下達 sed -e 才對，沒有 -e 也行啦！同時也要注意的是， sed 后面接的動作，請務必以 '' 兩個單引號括住喔！如果題型變化一下，舉例來說，如果只要刪除第 2 行，可以使用“ nl /etc/passwd | sed '2d' ”來達成，至于若是要刪除第 3 到最后一行，則是“ nl /etc/passwd | sed '3,$d' ”的啦，那個錢字號“ $ ”代表最后一行！ ``` 范例二：承上題，在第二行后（亦即是加在第三行）加上“drink tea?”字樣！ [dmtsai@study ~]$ nl /etc/passwd | sed '2a drink tea' 1 root:x:0:0:root:/root:/bin/bash 2 bin:x:1:1:bin:/bin:/sbin/nologin drink tea 3 daemon:x:2:2:daemon:/sbin:/sbin/nologin .....（后面省略）..... ``` 嘿嘿！在 a 后面加上的字串就已將出現在第二行后面啰！那如果是要在第二行前呢？“ nl /etc/passwd | sed '2i drink tea' ”就對啦！就是將“ a ”變成“ i ”即可。增加一行很簡單，那如果是要增將兩行以上呢？ ``` 范例三：在第二行后面加入兩行字，例如“Drink tea or .....”與“drink beer?” [dmtsai@study ~]$ nl /etc/passwd | sed '2a Drink tea or ......\ > drink beer ?' 1 root:x:0:0:root:/root:/bin/bash 2 bin:x:1:1:bin:/bin:/sbin/nologin Drink tea or ...... drink beer ? 3 daemon:x:2:2:daemon:/sbin:/sbin/nologin .....（后面省略）..... ``` 這個范例的重點是“我們可以新增不只一行喔！可以新增好幾行”但是每一行之間都必須要以反斜線“ \ ”來進行新行的增加喔！所以，上面的例子中，我們可以發現在第一行的最后面就有 \ 存在啦！在多行新增的情況下， \ 是一定要的喔！ * 以行為單位的取代與顯示功能剛剛是介紹如何新增與刪除，那么如果要整行取代呢？看看下面的范例吧： ``` 范例四：我想將第2-5行的內容取代成為“No 2-5 number”呢？ [dmtsai@study ~]$ nl /etc/passwd | sed '2,5c No 2-5 number' 1 root:x:0:0:root:/root:/bin/bash No 2-5 number 6 sync:x:5:0:sync:/sbin:/bin/sync .....（后面省略）..... ``` 通過這個方法我們就能夠將數據整行取代了！非常容易吧！sed 還有更好用的東東！我們以前想要列出第 11~20 行，得要通過“head -n 20 | tail -n 10”之類的方法來處理，很麻煩啦～ sed 則可以簡單的直接取出你想要的那幾行！是通過行號來捉的喔！看看下面的范例先： ``` 范例五：僅列出 /etc/passwd 文件內的第 5-7 行 [dmtsai@study ~]$ nl /etc/passwd | sed -n '5,7p' 5 lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin 6 sync:x:5:0:sync:/sbin:/bin/sync 7 shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown ``` 上述的指令中有個重要的選項“ -n ”，按照說明文檔，這個 -n 代表的是“安靜模式”！那么為什么要使用安靜模式呢？你可以自行下達 sed '5,7p' 就知道了（5-7 行會重復輸出）！有沒有加上 -n 的參數時，輸出的數據可是差很多的喔！你可以通過這個 sed 的以行為單位的顯示功能，就能夠將某一個文件內的某些行號捉出來查閱！很棒的功能！不是嗎？ * 部分數據的搜尋并取代的功能除了整行的處理模式之外， sed 還可以用行為單位進行部分數據的搜尋并取代的功能喔！基本上 sed 的搜尋與取代的與 vi 相當的類似！他有點像這樣： ``` sed 's/要被取代的字串/新的字串/g' ``` 上表中特殊字體的部分為關鍵字，請記下來！至于三個斜線分成兩欄就是新舊字串的替換啦！我們使用下面這個取得 IP 數據的范例，一段一段的來處理給您瞧瞧，讓你了解一下什么是咱們所謂的搜尋并取代吧！ ``` 步驟一：先觀察原始訊息，利用 /sbin/ifconfig 查詢 IP 為何？ [dmtsai@study ~]$ /sbin/ifconfig eth0 eth0: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500 inet 192.168.1.100 netmask 255.255.255.0 broadcast 192.168.1.255 inet6 fe80::5054:ff:fedf:e174 prefixlen 64 scopeid 0x20<link> ether 52:54:00:df:e1:74 txqueuelen 1000 （Ethernet） .....（以下省略）..... # 因為我們還沒有講到 IP ，這里你先有個概念即可啊！我們的重點在第二行， # 也就是 192.168.1.100 那一行而已！先利用關鍵字捉出那一行！步驟二：利用關鍵字配合 grep 擷取出關鍵的一行數據 [dmtsai@study ~]$ /sbin/ifconfig eth0 | grep 'inet ' inet 192.168.1.100 netmask 255.255.255.0 broadcast 192.168.1.255 # 當場僅剩下一行！要注意， CentOS 7 與 CentOS 6 以前的 ifconfig 指令輸出結果不太相同， # 鳥哥這個范例主要是針對 CentOS 7 以后的喔！接下來，我們要將開始到 addr: 通通刪除， # 就是像下面這樣： # inet 192.168.1.100 netmask 255.255.255.0 broadcast 192.168.1.255 # 上面的刪除關鍵在于“ ^.*inet ”啦！正則表達式出現！ ^_^ 步驟三：將 IP 前面的部分予以刪除 [dmtsai@study ~]$ /sbin/ifconfig eth0 | grep 'inet ' | sed 's/^.*inet //g' 192.168.1.100 netmask 255.255.255.0 broadcast 192.168.1.255 # 仔細與上個步驟比較一下，前面的部分不見了！接下來則是刪除后續的部分，亦即： 192.168.1.100 netmask 255.255.255.0 broadcast 192.168.1.255 # 此時所需的正則表達式為：“ ' *netmask.*$ ”就是啦！步驟四：將 IP 后面的部分予以刪除 [dmtsai@study ~]$ /sbin/ifconfig eth0 | grep 'inet ' | sed 's/^.*inet //g' \ > | sed 's/ *netmask.*$//g' 192.168.1.100 ``` 通過這個范例的練習也建議您依據此一步驟來研究你的指令！就是先觀察，然后再一層一層的試做，如果有做不對的地方，就先予以修改，改完之后測試，成功后再往下繼續測試。以鳥哥上面的介紹中，那一大串指令就做了四個步驟！對吧！ ^_^ 讓我們再來繼續研究 sed 與正則表達式的配合練習！假設我只要 MAN 存在的那幾行數據，但是含有 # 在內的注解我不想要，而且空白行我也不要！此時該如何處理呢？可以通過這幾個步驟來實作看看： ``` 步驟一：先使用 grep 將關鍵字 MAN 所在行取出來 [dmtsai@study ~]$ cat /etc/man_db.conf | grep 'MAN' # MANDATORY_MANPATH manpath_element # MANPATH_MAP path_element manpath_element # MANDB_MAP global_manpath [relative_catpath] # every automatically generated MANPATH includes these fields ....（后面省略）.... 步驟二：刪除掉注解之后的數據！ [dmtsai@study ~]$ cat /etc/man_db.conf | grep 'MAN'| sed 's/#.*$//g' MANDATORY_MANPATH /usr/man ....（后面省略）.... # 從上面可以看出來，原本注解的數據都變成空白行啦！所以，接下來要刪除掉空白行 [dmtsai@study ~]$ cat /etc/man_db.conf | grep 'MAN'| sed 's/#.*$//g' | sed '/^$/d' MANDATORY_MANPATH /usr/man MANDATORY_MANPATH /usr/share/man MANDATORY_MANPATH /usr/local/share/man ....（后面省略）.... ``` * 直接修改文件內容（危險動作）你以為 sed 只有這樣的能耐嗎？那可不！ sed 甚至可以直接修改文件的內容呢！而不必使用管線命令或數據流重導向！不過，由于這個動作會直接修改到原始的文件，所以請你千萬不要隨便拿系統配置文件來測試喔！我們還是使用你下載的 regular_express.txt 文件來測試看看吧！ ``` 范例六：利用 sed 將 regular_express.txt 內每一行結尾若為 . 則換成 ! [dmtsai@study ~]$ sed -i 's/\.$/\!/g' regular_express.txt # 上頭的 -i 選項可以讓你的 sed 直接去修改后面接的文件內容而不是由屏幕輸出喔！ # 這個范例是用在取代！請您自行 cat 該文件去查閱結果啰！范例七：利用 sed 直接在 regular_express.txt 最后一行加入“# This is a test” [dmtsai@study ~]$ sed -i '$a # This is a test' regular_express.txt # 由于 $ 代表的是最后一行，而 a 的動作是新增，因此該文件最后新增啰！ ``` sed 的“ -i ”選項可以直接修改文件內容，這功能非常有幫助！舉例來說，如果你有一個 100 萬行的文件，你要在第 100 行加某些文字，此時使用 vim 可能會瘋掉！因為文件太大了！那怎辦？就利用 sed 啊！通過 sed 直接修改/取代的功能，你甚至不需要使用 vim 去修訂！很棒吧！總之，這個 sed 不錯用啦！而且很多的 shell script 都會使用到這個指令的功能～ sed 可以幫助系統管理員管理好日常的工作喔！要仔細的學習呢！