<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                ThinkChat2.0新版上線,更智能更精彩,支持會話、畫圖、視頻、閱讀、搜索等,送10W Token,即刻開啟你的AI之旅 廣告
                ## 11.2 基礎正則表達式 既然正則表達式是處理字串的一種表示方式,那么對字符排序有影響的語系數據就會對正則表達式的結果有影響! 此外,正則表達式也需要支持工具程序來輔助才行!所以,我們這里就先介紹一個最簡單的字串擷取功能的工具程序,那就是 grep 啰! 前一章已經介紹過 grep 的相關選項與參數,本章著重在較進階的 grep 選項說明啰! 介紹完 grep 的功能之后,就進入正則表達式的特殊字符的處理能力了。 ### 11.2.1 語系對正則表達式的影響 為什么語系的數據會影響到正則表達式的輸出結果呢?我們在[第零章計算機概論的文字編碼系統](../Text/index.html#data_word)里面談到,文件其實記錄的僅有 0 與 1,我們看到的字符文字與數字都是通過編碼表轉換來的。由于不同語系的編碼數據并不相同,所以就會造成數據擷取結果的差異了。 舉例來說,在英文大小寫的編碼順序中,zh_TW.big5 及 C 這兩種語系的輸出結果分別如下: * LANG=C ? ? 時:0 1 2 3 4 ... A B C D ... Z a b c d ...z * LANG=zh_TW 時:0 1 2 3 4 ... a A b B c C d D ... z Z 上面的順序是編碼的順序,我們可以很清楚的發現這兩種語系明顯就是不一樣!如果你想要擷取大寫字符而使用 [A-Z] 時, 會發現 LANG=C 確實可以僅捉到大寫字符 (因為是連續的) ,但是如果 LANG=zh_TW.big5 時,就會發現到, 連同小寫的 b-z 也會被擷取出來!因為就編碼的順序來看, big5 語系可以擷取到“ A b B c C ... z Z ”這一堆字符哩! 所以,使用正則表達式時,需要特別留意當時環境的語系為何, 否則可能會發現與別人不相同的擷取結果喔! 由于一般我們在練習正則表達式時,使用的是相容于 POSIX 的標準,因此就使用“ C ”這個語系[[1]](#ps1)! 因此,下面的很多練習都是使用“ LANG=C ”這個語系數據來進行的喔! 另外,為了要避免這樣編碼所造成的英文與數字的擷取問題,因此有些特殊的符號我們得要了解一下的! 這些符號主要有下面這些意義: | 特殊符號 | 代表意義 | | --- | --- | | [:alnum:] | 代表英文大小寫字符及數字,亦即 0-9, A-Z, a-z | | [:alpha:] | 代表任何英文大小寫字符,亦即 A-Z, a-z | | [:blank:] | 代表空白鍵與 [Tab] 按鍵兩者 | | [:cntrl:] | 代表鍵盤上面的控制按鍵,亦即包括 CR, LF, Tab, Del.. 等等 | | [:digit:] | 代表數字而已,亦即 0-9 | | [:graph:] | 除了空白字符 (空白鍵與 [Tab] 按鍵) 外的其他所有按鍵 | | [:lower:] | 代表小寫字符,亦即 a-z | | [:print:] | 代表任何可以被打印出來的字符 | | [:punct:] | 代表標點符號 (punctuation symbol),亦即:" ' ? ! ; : # $... | | [:upper:] | 代表大寫字符,亦即 A-Z | | [:space:] | 任何會產生空白的字符,包括空白鍵, [Tab], CR 等等 | | [:xdigit:] | 代表 16 進位的數字類型,因此包括: 0-9, A-F, a-f 的數字與字符 | 尤其上表中的[:alnum:], [:alpha:], [:upper:], [:lower:], [:digit:] 這幾個一定要知道代表什么意思,因為他要比 a-z 或 A-Z 的用途要確定的很!好了,下面就讓我們開始來玩玩進階版的 grep 吧! ### 11.2.2 grep 的一些進階選項 我們在[第十章 BASH 里面的 grep](../Text/index.html#grep) 談論過一些基礎用法, 但其實 grep 還有不少的進階用法喔!下面我們僅列出較進階的 grep 選項與參數給大家參考, [基礎的 grep 用法](../Text/index.html#grep)請參考前一章的說明啰! ``` [dmtsai@study ~]$ grep [-A] [-B] [--color=auto] '搜尋字串' filename 選項與參數: -A :后面可加數字,為 after 的意思,除了列出該行外,后續的 n 行也列出來; -B :后面可加數字,為 befer 的意思,除了列出該行外,前面的 n 行也列出來; --color=auto 可將正確的那個擷取數據列出顏色 范例一:用 dmesg 列出核心訊息,再以 grep 找出內含 qxl 那行 [dmtsai@study ~]$ dmesg &#124; grep 'qxl' [ 0.522749] [drm] qxl: 16M of VRAM memory size [ 0.522750] [drm] qxl: 63M of IO pages memory ready (VRAM domain) [ 0.522750] [drm] qxl: 32M of Surface memory size [ 0.650714] fbcon: qxldrmfb (fb0) is primary device [ 0.668487] qxl 0000:00:02.0: fb0: qxldrmfb frame buffer device # dmesg 可列出核心產生的訊息!包括硬件偵測的流程也會顯示出來。 # 鳥哥使用的顯卡是 QXL 這個虛擬卡,通過 grep 來 qxl 的相關信息,可發現如上信息。 范例二:承上題,要將捉到的關鍵字顯色,且加上行號來表示: [dmtsai@study ~]$ dmesg &#124; grep -n --color=auto 'qxl' 515:[ 0.522749] [drm] qxl: 16M of VRAM memory size 516:[ 0.522750] [drm] qxl: 63M of IO pages memory ready (VRAM domain) 517:[ 0.522750] [drm] qxl: 32M of Surface memory size 529:[ 0.650714] fbcon: qxldrmfb (fb0) is primary device 539:[ 0.668487] qxl 0000:00:02.0: fb0: qxldrmfb frame buffer device # 除了 qxl 會有特殊顏色來表示之外,最前面還有行號喔!其實顏色顯示已經是默認在 alias 當中了! 范例三:承上題,在關鍵字所在行的前兩行與后三行也一起捉出來顯示 [dmtsai@study ~]$ dmesg &#124; grep -n -A3 -B2 --color=auto 'qxl' # 你會發現關鍵字之前與之后的數行也被顯示出來!這樣可以讓你將關鍵字前后數據捉出來進行分析啦! ``` grep 是一個很常見也很常用的指令,他最重要的功能就是進行字串數據的比對,然后將符合使用者需求的字串行印出來。 需要說明的是“grep 在數據中查尋一個字串時,是以 "整行" 為單位來進行數據的擷取的!”也就是說,假如一個文件內有 10 行,其中有兩行具有你所搜尋的字串,則將那兩行顯示在屏幕上,其他的就丟棄了! 在 CentOS 7 當中,默認已經將 --color=auto 加入在 alias 當中了!使用者就可以直接使用有關鍵字顯色的 grep 啰!非常方便! ### 11.2.3 基礎正則表達式練習 要了解正則表達式最簡單的方法就是由實際練習去感受啦!所以在匯整正則表達式特殊符號前, 我們先以下面這個文件的內容來進行正則表達式的理解吧!先說明一下,下面的練習大前提是: * 語系已經使用“ export LANG=C; export LC_ALL=C ”的設置值; * grep 已經使用 alias 設置成為“ grep --color=auto ” 至于本章的練習用文件請由下面的鏈接來下載。需要特別注意的是,下面這個文件是鳥哥在 MS Windows 系統下編輯的, 并且已經特殊處理過,因此,他雖然是純文本文件,但是內含一些 Windows 系統下的軟件常常自行加入的一些特殊字符,例如斷行字符 (^M) 就是一例! 所以,你可以直接將下面的文字以 vi 儲存成 regular_express.txt 這個文件, 不過,還是比較建議直接點下面的鏈接: > [http://linux.vbird.org/linux_basic/0330regularex/regular_express.txt](http://linux.vbird.org/linux_basic/0330regularex/regular_express.txt) 如果你的 Linux 可以直接連上 Internet 的話,那么使用如下的指令來捉取即可: > wget http://linux.vbird.org/linux_basic/0330regularex/regular_express.txt 至于這個文件的內容如下: ``` [dmtsai@study ~]$ vi regular_express.txt "Open Source" is a good mechanism to develop programs. apple is my favorite food. Football game is not use feet only. this dress doesn't fit me. However, this dress is about $ 3183 dollars.^M GNU is free air not free beer.^M Her hair is very beauty.^M I can't finish the test.^M Oh! The soup taste good.^M motorcycle is cheap than car. This window is clear. the symbol '*' is represented as start. Oh! My god! The gd software is a library for drafting programs.^M You are the best is mean you are the no. 1. The world &lt;Happy&gt; is the same with "glad". I like dog. google is the best tools for search keyword. goooooogle yes! go! go! Let's go. # I am VBird ``` 這文件共有 22 行,最下面一行為空白行!現在開始我們一個案例一個案例的來介紹吧! * 例題一、搜尋特定字串 搜尋特定字串很簡單吧?假設我們要從剛剛的文件當中取得 the 這個特定字串,最簡單的方式就是這樣: ``` [dmtsai@study ~]$ grep -n 'the' regular_express.txt 8:I can't finish the test. 12:the symbol '*' is represented as start. 15:You are the best is mean you are the no. 1. 16:The world &lt;Happy&gt; is the same with "glad". 18:google is the best tools for search keyword. ``` 那如果想要“反向選擇”呢?也就是說,當該行沒有 'the' 這個字串時才顯示在屏幕上,那就直接使用: ``` [dmtsai@study ~]$ grep -vn 'the' regular_express.txt ``` 你會發現,屏幕上出現的行列為除了 8,12,15,16,18 五行之外的其他行列! 接下來,如果你想要取得不論大小寫的 the 這個字串,則: ``` [dmtsai@study ~]$ grep -in 'the' regular_express.txt 8:I can't finish the test. 9:Oh! The soup taste good. 12:the symbol '*' is represented as start. 14:The gd software is a library for drafting programs. 15:You are the best is mean you are the no. 1. 16:The world &lt;Happy&gt; is the same with "glad". 18:google is the best tools for search keyword. ``` 除了多兩行 (9, 14行) 之外,第 16 行也多了一個 The 的關鍵字被擷取到喔! * 例題二、利用中括號 [] 來搜尋集合字符 如果我想要搜尋 test 或 taste 這兩個單字時,可以發現到,其實她們有共通的 't?st' 存在~這個時候,我可以這樣來搜尋: ``` [dmtsai@study ~]$ grep -n 't[ae]st' regular_express.txt 8:I can't finish the test. 9:Oh! The soup taste good. ``` 了解了吧?其實 [] 里面不論有幾個字符,他都僅代表某“一個”字符, 所以,上面的例子說明了,我需要的字串是“tast”或“test”兩個字串而已! 而如果想要搜尋到有 oo 的字符時,則使用: ``` [dmtsai@study ~]$ grep -n 'oo' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 2:apple is my favorite food. 3:Football game is not use feet only. 9:Oh! The soup taste good. 18:google is the best tools for search keyword. 19:goooooogle yes! ``` 但是,如果我不想要 oo 前面有 g 的話呢?此時,可以利用在集合字符的反向選擇 [^] 來達成: ``` [dmtsai@study ~]$ grep -n '[^g]oo' regular_express.txt 2:apple is my favorite food. 3:Football game is not use feet only. 18:google is the best tools for search keyword. 19:goooooogle yes! ``` 意思就是說,我需要的是 oo ,但是 oo 前面不能是 g 就是了!仔細比較上面兩個表格,你會發現,第 1,9 行不見了,因為 oo 前面出現了 g 所致!第 2,3 行沒有疑問,因為 foo 與 Foo 均可被接受!但是第 18 行明明有 google 的 goo 啊~別忘記了,因為該行后面出現了 tool 的 too 啊!所以該行也被列出來~ 也就是說, 18 行里面雖然出現了我們所不要的項目 (goo) 但是由于有需要的項目 (too) , 因此,是符合字串搜尋的喔! 至于第 19 行,同樣的,因為 goooooogle 里面的 oo 前面可能是 o ,例如: go(ooo)oogle ,所以,這一行也是符合需求的! 再來,假設我 oo 前面不想要有小寫字符,所以,我可以這樣寫 [^abcd....z]oo , 但是這樣似乎不怎么方便,由于小寫字符的 ASCII 上編碼的順序是連續的, 因此,我們可以將之簡化為下面這樣: ``` [dmtsai@study ~]$ grep -n '[^a-z]oo' regular_express.txt 3:Football game is not use feet only. ``` 也就是說,當我們在一組集合字符中,如果該字符組是連續的,例如大寫英文/小寫英文/數字等等, 就可以使用[a-z],[A-Z],[0-9]等方式來書寫,那么如果我們的要求字串是數字與英文呢? 呵呵!就將他全部寫在一起,變成:[a-zA-Z0-9]。例如,我們要取得有數字的那一行,就這樣: ``` [dmtsai@study ~]$ grep -n '[0-9]' regular_express.txt 5:However, this dress is about $ 3183 dollars. 15:You are the best is mean you are the no. 1. ``` 但由于考慮到語系對于編碼順序的影響,因此除了連續編碼使用減號“ - ”之外, 你也可以使用如下的方法來取得前面兩個測試的結果: ``` [dmtsai@study ~]$ grep -n '[^[:lower:]]oo' regular_express.txt # 那個 [:lower:] 代表的就是 a-z 的意思!請參考前兩小節的說明表格 [dmtsai@study ~]$ grep -n '[[:digit:]]' regular_express.txt ``` 啥?上頭在寫啥東西呢?不要害怕!分開來瞧一瞧。我們知道 [:lower:] 就是 a-z 的意思,那么 [a-z] 當然就是 [[:lower:]] 啰!鳥哥第一次接觸正則表達式的時候,看到兩層中括號差點昏倒~完全看不懂!現在,請注意那個疊代的意義, 自然就能夠比較清楚了解啰! 這樣對于 [] 以及 [^] 以及 [] 當中的 - ,還有關于前面表格提到的特殊關鍵字有了解了嗎?^_^! * 例題三、行首與行尾字符 ^ $ 我們在例題一當中,可以查詢到一行字串里面有 the 的,那如果我想要讓 the 只在行首列出呢? 這個時候就得要使用定位字符了!我們可以這樣做: ``` [dmtsai@study ~]$ grep -n '^the' regular_express.txt 12:the symbol '*' is represented as start. ``` 此時,就只剩下第 12 行,因為只有第 12 行的行首是 the 開頭啊~此外, 如果我想要開頭是小寫字符的那一行就列出呢?可以這樣: ``` [dmtsai@study ~]$ grep -n '^[a-z]' regular_express.txt 2:apple is my favorite food. 4:this dress doesn't fit me. 10:motorcycle is cheap than car. 12:the symbol '*' is represented as start. 18:google is the best tools for search keyword. 19:goooooogle yes! 20:go! go! Let's go. ``` 你可以發現我們可以捉到第一個字符都不是大寫的!上面的指令也可以用如下的方式來取代的: ``` [dmtsai@study ~]$ grep -n '^[[:lower:]]' regular_express.txt ``` 好!那如果我不想要開頭是英文字母,則可以是這樣: ``` [dmtsai@study ~]$ grep -n '^[^a-zA-Z]' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 21:# I am VBird # 指令也可以是: grep -n '^[^[:alpha:]]' regular_express.txt ``` 注意到了吧?那個 ^ 符號,在字符集合符號(括號[])之內與之外是不同的! 在 [] 內代表“反向選擇”,在 [] 之外則代表定位在行首的意義!要分清楚喔! 反過來思考,那如果我想要找出來,行尾結束為小數點 (.) 的那一行,該如何處理: ``` [dmtsai@study ~]$ grep -n '\.$' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 2:apple is my favorite food. 3:Football game is not use feet only. 4:this dress doesn't fit me. 10:motorcycle is cheap than car. 11:This window is clear. 12:the symbol '*' is represented as start. 15:You are the best is mean you are the no. 1. 16:The world &lt;Happy&gt; is the same with "glad". 17:I like dog. 18:google is the best tools for search keyword. 20:go! go! Let's go. ``` 特別注意到,因為小數點具有其他意義(下面會介紹),所以必須要使用跳脫字符(\)來加以解除其特殊意義! 不過,你或許會覺得奇怪,但是第 5~9 行最后面也是 . 啊~怎么無法打印出來? 這里就牽涉到 Windows 平臺的軟件對于斷行字符的判斷問題了!我們使用 cat -A 將第五行拿出來看, 你會發現: ``` [dmtsai@study ~]$ cat -An regular_express.txt &#124; head -n 10 &#124; tail -n 6 5 However, this dress is about $ 3183 dollars.^M$ 6 GNU is free air not free beer.^M$ 7 Her hair is very beauty.^M$ 8 I can't finish the test.^M$ 9 Oh! The soup taste good.^M$ 10 motorcycle is cheap than car.$ ``` 我們在[第九章內談到過斷行字符](../Text/index.html#tips_dos)在 Linux 與 Windows 上的差異, 在上面的表格中我們可以發現 5~9 行為 Windows 的斷行字符 (^M$) ,而正常的 Linux 應該僅有第 10 行顯示的那樣 ($) 。所以啰,那個 . 自然就不是緊接在 $ 之前喔!也就捉不到 5~9 行了!這樣可以了解 ^ 與 $ 的意義嗎? 好了,先不要看下面的解答,自己想一想,那么如果我想要找出來,哪一行是“空白行”, 也就是說,該行并沒有輸入任何數據,該如何搜尋? ``` [dmtsai@study ~]$ grep -n '^$' regular_express.txt 22: ``` 因為只有行首跟行尾 (^$),所以,這樣就可以找出空白行啦!再來,假設你已經知道在一個程序腳本 (shell script) 或者是配置文件當中,空白行與開頭為 # 的那一行是注解,因此如果你要將數據列出給別人參考時, 可以將這些數據省略掉以節省保貴的紙張,那么你可以怎么作呢? 我們以 /etc/rsyslog.conf 這個文件來作范例,你可以自行參考一下輸出的結果: ``` [dmtsai@study ~]$ cat -n /etc/rsyslog.conf # 在 CentOS 7 中,結果可以發現有 91 行的輸出,很多空白行與 # 開頭的注解行 [dmtsai@study ~]$ grep -v '^$' /etc/rsyslog.conf &#124; grep -v '^#' # 結果僅有 14 行,其中第一個“ -v '^$' ”代表“不要空白行”, # 第二個“ -v '^#' ”代表“不要開頭是 # 的那行”喔! ``` 是否節省很多版面啊?另外,你可能也會問,那為何不要出現 # 的符號的那行就直接舍棄呢?沒辦法!因為某些注解是與設置寫在同一行的后面, 如果你只是抓 # 就予以去除,那就會將某些設置也同時移除了!那錯誤就大了~ * 例題四、任意一個字符 . 與重復字符 * 在[第十章 bash](../Text/index.html) 當中,我們知道[萬用字符 *](../Text/index.html#settings_wildcard) 可以用來代表任意(0或多個)字符, 但是正則表達式并不是萬用字符,兩者之間是不相同的! 至于正則表達式當中的“ . ”則代表“絕對有一個任意字符”的意思!這兩個符號在正則表達式的意義如下: * . (小數點):代表“一定有一個任意字符”的意思; * * (星星號):代表“重復前一個字符, 0 到無窮多次”的意思,為組合形態 這樣講不好懂,我們直接做個練習吧!假設我需要找出 g??d 的字串,亦即共有四個字符, 起頭是 g 而結束是 d ,我可以這樣做: ``` [dmtsai@study ~]$ grep -n 'g..d' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 9:Oh! The soup taste good. 16:The world &lt;Happy&gt; is the same with "glad". ``` 因為強調 g 與 d 之間一定要存在兩個字符,因此,第 13 行的 god 與第 14 行的 gd 就不會被列出來啦!再來,如果我想要列出有 oo, ooo, oooo 等等的數據, 也就是說,至少要有兩個(含) o 以上,該如何是好?是 o* 還是 oo* 還是 ooo* 呢? 雖然你可以試看看結果, 不過結果太占版面了 @_@ ,所以,我這里就直接說明。 因為 * 代表的是“重復 0 個或多個前面的 RE 字符”的意義, 因此,“o*”代表的是:“擁有空字符或一個 o 以上的字符”, 特別注意,因為允許空字符(就是有沒有字符都可以的意思),因此,“ grep -n 'o*' regular_express.txt ”將會把所有的數據都打印出來屏幕上! 那如果是“oo*”呢?則第一個 o 肯定必須要存在,第二個 o 則是可有可無的多個 o , 所以,凡是含有 o, oo, ooo, oooo 等等,都可以被列出來~ 同理,當我們需要“至少兩個 o 以上的字串”時,就需要 ooo* ,亦即是: ``` [dmtsai@study ~]$ grep -n 'ooo*' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 2:apple is my favorite food. 3:Football game is not use feet only. 9:Oh! The soup taste good. 18:google is the best tools for search keyword. 19:goooooogle yes! ``` 這樣理解 * 的意義了嗎?好了,現在出個練習,如果我想要字串開頭與結尾都是 g,但是兩個 g 之間僅能存在至少一個 o ,亦即是 gog, goog, gooog.... 等等,那該如何? ``` [dmtsai@study ~]$ grep -n 'goo*g' regular_express.txt 18:google is the best tools for search keyword. 19:goooooogle yes! ``` 如此了解了嗎?再來一題,如果我想要找出 g 開頭與 g 結尾的字串,當中的字符可有可無,那該如何是好?是“g*g”嗎? ``` [dmtsai@study ~]$ grep -n 'g*g' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 3:Football game is not use feet only. 9:Oh! The soup taste good. 13:Oh! My god! 14:The gd software is a library for drafting programs. 16:The world &lt;Happy&gt; is the same with "glad". 17:I like dog. 18:google is the best tools for search keyword. 19:goooooogle yes! 20:go! go! Let's go. ``` 但測試的結果竟然出現這么多行?太詭異了吧?其實一點也不詭異,因為 g*g 里面的 g* 代表“空字符或一個以上的 g” 在加上后面的 g ,因此,整個 RE 的內容就是 g, gg, ggg, gggg , 因此,只要該行當中擁有一個以上的 g 就符合所需了! 那該如何得到我們的 g....g 的需求呢?呵呵!就利用任意一個字符“.”啊! 亦即是:“g.*g”的作法,因為 * 可以是 0 或多個重復前面的字符,而 . 是任意字符,所以: “.* 就代表零個或多個任意字符”的意思啦! ``` [dmtsai@study ~]$ grep -n 'g.*g' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 14:The gd software is a library for drafting programs. 18:google is the best tools for search keyword. 19:goooooogle yes! 20:go! go! Let's go. ``` 因為是代表 g 開頭與 g 結尾,中間任意字符均可接受,所以,第 1, 14, 20 行是可接受的喔! 這個 .* 的 RE 表示任意字符是很常見的,希望大家能夠理解并且熟悉! 再出一題,如果我想要找出“任意數字”的行列呢?因為僅有數字,所以就成為: ``` [dmtsai@study ~]$ grep -n '[0-9][0-9]*' regular_express.txt 5:However, this dress is about $ 3183 dollars. 15:You are the best is mean you are the no. 1. ``` 雖然使用 grep -n '[0-9]' regular_express.txt 也可以得到相同的結果, 但鳥哥希望大家能夠理解上面指令當中 RE 表達式的意義才好! * 例題五、限定連續 RE 字符范圍 {} 在上個例題當中,我們可以利用 . 與 RE 字符及 * 來設置 0 個到無限多個重復字符, 那如果我想要限制一個范圍區間內的重復字符數呢?舉例來說,我想要找出兩個到五個 o 的連續字串,該如何作?這時候就得要使用到限定范圍的字符 {} 了。 但因為 { 與 } 的符號在 shell 是有特殊意義的,因此, 我們必須要使用跳脫字符 \ 來讓他失去特殊意義才行。 至于 {} 的語法是這樣的,假設我要找到兩個 o 的字串,可以是: ``` [dmtsai@study ~]$ grep -n 'o\{2\}' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 2:apple is my favorite food. 3:Football game is not use feet only. 9:Oh! The soup taste good. 18:google is the best tools for search keyword. 19:goooooogle yes! ``` 這樣看似乎與 ooo* 的字符沒有什么差異啊?因為第 19 行有多個 o 依舊也出現了! 好,那么換個搜尋的字串,假設我們要找出 g 后面接 2 到 5 個 o ,然后再接一個 g 的字串,他會是這樣: ``` [dmtsai@study ~]$ grep -n 'go\{2,5\}g' regular_express.txt 18:google is the best tools for search keyword. ``` 嗯!很好!第 19 行終于沒有被取用了(因為 19 行有 6 個 o 啊!)。 那么,如果我想要的是 2 個 o 以上的 goooo....g 呢?除了可以是 gooo*g ,也可以是: ``` [dmtsai@study ~]$ grep -n 'go\{2,\}g' regular_express.txt 18:google is the best tools for search keyword. 19:goooooogle yes! ``` 呵呵!就可以找出來啦~ ### 11.2.4 基礎正則表達式字符匯整 (characters) 經過了上面的幾個簡單的范例,我們可以將基礎的正則表達式特殊字符匯整如下: | RE 字符 | 意義與范例 | | --- | --- | | ^word | 意義:待搜尋的字串(word)在行首!范例:搜尋行首為 # 開始的那一行,并列出行號 `> grep -n '^#' regular_express.txt` | | word$ | 意義:待搜尋的字串(word)在行尾!范例:將行尾為 ! 的那一行打印出來,并列出行號 `> grep -n '!$' regular_express.txt` | | . | 意義:代表“一定有一個任意字符”的字符!范例:搜尋的字串可以是 (eve) (eae) (eee) (e e), 但不能僅有 (ee) !亦即 e 與 e 中間“一定”僅有一個字符,而空白字符也是字符! `> grep -n 'e.e' regular_express.txt` | | \ | 意義:跳脫字符,將特殊符號的特殊意義去除!范例:搜尋含有單引號 ' 的那一行! `> grep -n \' regular_express.txt` | | * | 意義:重復零個到無窮多個的前一個 RE 字符 范例:找出含有 (es) (ess) (esss) 等等的字串,注意,因為 * 可以是 0 個,所以 es 也是符合帶搜尋字串。另外,因為 * 為重復“前一個 RE 字符”的符號, 因此,在 * 之前必須要緊接著一個 RE 字符喔!例如任意字符則為 “.*” ! `> grep -n 'ess*' regular_express.txt` | | [list] | 意義:字符集合的 RE 字符,里面列出想要擷取的字符!范例:搜尋含有 (gl) 或 (gd) 的那一行,需要特別留意的是,在 [] 當中“謹代表一個待搜尋的字符”, 例如“ a[afl]y ”代表搜尋的字串可以是 aay, afy, aly 即 [afl] 代表 a 或 f 或 l 的意思! `> grep -n 'g[ld]' regular_express.txt` | | [n1-n2] | 意義:字符集合的 RE 字符,里面列出想要擷取的字符范圍!范例:搜尋含有任意數字的那一行!需特別留意,在字符集合 [] 中的減號 - 是有特殊意義的,他代表兩個字符之間的所有連續字符!但這個連續與否與 ASCII 編碼有關,因此,你的編碼需要設置正確(在 bash 當中,需要確定 LANG 與 LANGUAGE 的變量是否正確!) 例如所有大寫字符則為 [A-Z] `> grep -n '[A-Z]' regular_express.txt` | [&#94;list] | 意義:字符集合的 RE 字符,里面列出不要的字串或范圍!范例:搜尋的字串可以是 (oog) (ood) 但不能是 (oot) ,那個 ^ 在 [] 內時,代表的意義是“反向選擇”的意思。 例如,我不要大寫字符,則為 [&#94;A-Z]。但是,需要特別注意的是,如果以 grep -n [&#94;A-Z] regular_express.txt 來搜尋,卻發現該文件內的所有行都被列出,為什么?因為這個 [&#94;A-Z] 是“非大寫字符”的意思, 因為每一行均有非大寫字符,例如第一行的 "Open Source" 就有 p,e,n,o.... 等等的小寫字 `> grep -n 'oo[^t]' regular_express.txt` | | \{n,m\} | 意義:連續 n 到 m 個的“前一個 RE 字符” 意義:若為 \{n\} 則是連續 n 個的前一個 RE 字符, 意義:若是 \{n,\} 則是連續 n 個以上的前一個 RE 字符! 范例:在 g 與 g 之間有 2 個到 3 個的 o 存在的字串,亦即 (goog)(gooog) `> grep -n 'go\{2,3\}g' regular_express.txt` | 再次強調:“正則表達式的特殊字符”與一般在命令行輸入指令的“萬用字符”并不相同, 例如,在萬用字符當中的 * 代表的是“ 0 ~ 無限多個字符”的意思,但是在正則表達式當中, * 則是“重復 0 到無窮多個的前一個 RE 字符”的意思~使用的意義并不相同,不要搞混了! 舉例來說,不支持正則表達式的 ls 這個工具中,若我們使用 “ls -l * ” 代表的是任意文件名的文件,而 “ls -l a* ”代表的是以 a 為開頭的任何文件名的文件, 但在正則表達式中,我們要找到含有以 a 為開頭的文件,則必須要這樣:(需搭配支持正則表達式的工具) > ls | grep -n '^a.*' 例題:以 ls -l 配合 grep 找出 /etc/ 下面文件類型為鏈接文件屬性的文件名答:由于 ls -l 列出鏈接文件時標頭會是“ lrwxrwxrwx ”,因此使用如下的指令即可找出結果: &gt; ls -l /etc &#124; grep '^l' 若僅想要列出幾個文件,再以“ &#124;wc -l ” 來累加處理即可。 ### 11.2.5 sed 工具 在了解了一些正則表達式的基礎應用之后,再來呢?呵呵~兩個東西可以玩一玩的,那就是 sed 跟下面會介紹的 awk 了! 這兩個家伙可是相當的有用的啊!舉例來說,鳥哥寫的 [logfile.sh 分析登錄文件的小程序](../Text/index.html) (第十八章會談到),絕大部分分析關鍵字的取用、統計等等,就是用這兩個寶貝蛋來幫我完成的!那么你說,要不要玩一玩啊?^_^ 我們先來談一談 sed 好了, sed 本身也是一個管線命令,可以分析 standard input 的啦! 而且 sed 還可以將數據進行取代、刪除、新增、擷取特定行等等的功能呢!很不錯吧~ 我們先來了解一下 sed 的用法,再來聊他的用途好了! ``` [dmtsai@study ~]$ sed [-nefr] [動作] 選項與參數: -n :使用安靜(silent)模式。在一般 sed 的用法中,所有來自 STDIN 的數據一般都會被列出到屏幕上。 但如果加上 -n 參數后,則只有經過 sed 特殊處理的那一行(或者動作)才會被列出來。 -e :直接在命令行界面上進行 sed 的動作編輯; -f :直接將 sed 的動作寫在一個文件內, -f filename 則可以執行 filename 內的 sed 動作; -r :sed 的動作支持的是延伸型正則表達式的語法。(默認是基礎正則表達式語法) -i :直接修改讀取的文件內容,而不是由屏幕輸出。 動作說明: [n1[,n2]]function n1, n2 :不見得會存在,一般代表“選擇進行動作的行數”,舉例來說,如果我的動作 是需要在 10 到 20 行之間進行的,則“ 10,20[動作行為] ” function 有下面這些咚咚: a :新增, a 的后面可以接字串,而這些字串會在新的一行出現(目前的下一行)~ c :取代, c 的后面可以接字串,這些字串可以取代 n1,n2 之間的行! d :刪除,因為是刪除啊,所以 d 后面通常不接任何咚咚; i :插入, i 的后面可以接字串,而這些字串會在新的一行出現(目前的上一行); p :打印,亦即將某個選擇的數據印出。通常 p 會與參數 sed -n 一起運行~ s :取代,可以直接進行取代的工作哩!通常這個 s 的動作可以搭配正則表達式! 例如 1,20s/old/new/g 就是啦! ``` * 以行為單位的新增/刪除功能 sed 光是用看的是看不懂的啦!所以又要來練習了!先來玩玩刪除與新增的功能吧! ``` 范例一:將 /etc/passwd 的內容列出并且打印行號,同時,請將第 2~5 行刪除! [dmtsai@study ~]$ nl /etc/passwd &#124; sed '2,5d' 1 root:x:0:0:root:/root:/bin/bash 6 sync:x:5:0:sync:/sbin:/bin/sync 7 shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown .....(后面省略)..... ``` 看到了吧?sed 的動作為 '2,5d' ,那個 d 就是刪除!因為 2-5 行給他刪除了,所以顯示的數據就沒有 2-5 行啰~ 另外,注意一下,原本應該是要下達 sed -e 才對,沒有 -e 也行啦!同時也要注意的是, sed 后面接的動作,請務必以 '' 兩個單引號括住喔! 如果題型變化一下,舉例來說,如果只要刪除第 2 行,可以使用“ nl /etc/passwd | sed '2d' ”來達成, 至于若是要刪除第 3 到最后一行,則是“ nl /etc/passwd | sed '3,$d' ”的啦,那個錢字號“ $ ”代表最后一行! ``` 范例二:承上題,在第二行后(亦即是加在第三行)加上“drink tea?”字樣! [dmtsai@study ~]$ nl /etc/passwd &#124; sed '2a drink tea' 1 root:x:0:0:root:/root:/bin/bash 2 bin:x:1:1:bin:/bin:/sbin/nologin drink tea 3 daemon:x:2:2:daemon:/sbin:/sbin/nologin .....(后面省略)..... ``` 嘿嘿!在 a 后面加上的字串就已將出現在第二行后面啰!那如果是要在第二行前呢?“ nl /etc/passwd | sed '2i drink tea' ”就對啦!就是將“ a ”變成“ i ”即可。 增加一行很簡單,那如果是要增將兩行以上呢? ``` 范例三:在第二行后面加入兩行字,例如“Drink tea or .....”與“drink beer?” [dmtsai@study ~]$ nl /etc/passwd &#124; sed '2a Drink tea or ......\ &gt; drink beer ?' 1 root:x:0:0:root:/root:/bin/bash 2 bin:x:1:1:bin:/bin:/sbin/nologin Drink tea or ...... drink beer ? 3 daemon:x:2:2:daemon:/sbin:/sbin/nologin .....(后面省略)..... ``` 這個范例的重點是“我們可以新增不只一行喔!可以新增好幾行”但是每一行之間都必須要以反斜線“ \ ”來進行新行的增加喔!所以,上面的例子中,我們可以發現在第一行的最后面就有 \ 存在啦!在多行新增的情況下, \ 是一定要的喔! * 以行為單位的取代與顯示功能 剛剛是介紹如何新增與刪除,那么如果要整行取代呢?看看下面的范例吧: ``` 范例四:我想將第2-5行的內容取代成為“No 2-5 number”呢? [dmtsai@study ~]$ nl /etc/passwd &#124; sed '2,5c No 2-5 number' 1 root:x:0:0:root:/root:/bin/bash No 2-5 number 6 sync:x:5:0:sync:/sbin:/bin/sync .....(后面省略)..... ``` 通過這個方法我們就能夠將數據整行取代了!非常容易吧!sed 還有更好用的東東!我們以前想要列出第 11~20 行, 得要通過“head -n 20 | tail -n 10”之類的方法來處理,很麻煩啦~ sed 則可以簡單的直接取出你想要的那幾行!是通過行號來捉的喔!看看下面的范例先: ``` 范例五:僅列出 /etc/passwd 文件內的第 5-7 行 [dmtsai@study ~]$ nl /etc/passwd &#124; sed -n '5,7p' 5 lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin 6 sync:x:5:0:sync:/sbin:/bin/sync 7 shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown ``` 上述的指令中有個重要的選項“ -n ”,按照說明文檔,這個 -n 代表的是“安靜模式”! 那么為什么要使用安靜模式呢?你可以自行下達 sed '5,7p' 就知道了 (5-7 行會重復輸出)! 有沒有加上 -n 的參數時,輸出的數據可是差很多的喔!你可以通過這個 sed 的以行為單位的顯示功能, 就能夠將某一個文件內的某些行號捉出來查閱!很棒的功能!不是嗎? * 部分數據的搜尋并取代的功能 除了整行的處理模式之外, sed 還可以用行為單位進行部分數據的搜尋并取代的功能喔! 基本上 sed 的搜尋與取代的與 vi 相當的類似!他有點像這樣: ``` sed 's/要被取代的字串/新的字串/g' ``` 上表中特殊字體的部分為關鍵字,請記下來!至于三個斜線分成兩欄就是新舊字串的替換啦! 我們使用下面這個取得 IP 數據的范例,一段一段的來處理給您瞧瞧,讓你了解一下什么是咱們所謂的搜尋并取代吧! ``` 步驟一:先觀察原始訊息,利用 /sbin/ifconfig 查詢 IP 為何? [dmtsai@study ~]$ /sbin/ifconfig eth0 eth0: flags=4163&lt;UP,BROADCAST,RUNNING,MULTICAST&gt; mtu 1500 inet 192.168.1.100 netmask 255.255.255.0 broadcast 192.168.1.255 inet6 fe80::5054:ff:fedf:e174 prefixlen 64 scopeid 0x20&lt;link&gt; ether 52:54:00:df:e1:74 txqueuelen 1000 (Ethernet) .....(以下省略)..... # 因為我們還沒有講到 IP ,這里你先有個概念即可啊!我們的重點在第二行, # 也就是 192.168.1.100 那一行而已!先利用關鍵字捉出那一行! 步驟二:利用關鍵字配合 grep 擷取出關鍵的一行數據 [dmtsai@study ~]$ /sbin/ifconfig eth0 &#124; grep 'inet ' inet 192.168.1.100 netmask 255.255.255.0 broadcast 192.168.1.255 # 當場僅剩下一行!要注意, CentOS 7 與 CentOS 6 以前的 ifconfig 指令輸出結果不太相同, # 鳥哥這個范例主要是針對 CentOS 7 以后的喔!接下來,我們要將開始到 addr: 通通刪除, # 就是像下面這樣: # inet 192.168.1.100 netmask 255.255.255.0 broadcast 192.168.1.255 # 上面的刪除關鍵在于“ ^.*inet ”啦!正則表達式出現! ^_^ 步驟三:將 IP 前面的部分予以刪除 [dmtsai@study ~]$ /sbin/ifconfig eth0 &#124; grep 'inet ' &#124; sed 's/^.*inet //g' 192.168.1.100 netmask 255.255.255.0 broadcast 192.168.1.255 # 仔細與上個步驟比較一下,前面的部分不見了!接下來則是刪除后續的部分,亦即: 192.168.1.100 netmask 255.255.255.0 broadcast 192.168.1.255 # 此時所需的正則表達式為:“ ' *netmask.*$ ”就是啦! 步驟四:將 IP 后面的部分予以刪除 [dmtsai@study ~]$ /sbin/ifconfig eth0 &#124; grep 'inet ' &#124; sed 's/^.*inet //g' \ &gt; &#124; sed 's/ *netmask.*$//g' 192.168.1.100 ``` 通過這個范例的練習也建議您依據此一步驟來研究你的指令!就是先觀察,然后再一層一層的試做, 如果有做不對的地方,就先予以修改,改完之后測試,成功后再往下繼續測試。以鳥哥上面的介紹中, 那一大串指令就做了四個步驟!對吧! ^_^ 讓我們再來繼續研究 sed 與正則表達式的配合練習!假設我只要 MAN 存在的那幾行數據, 但是含有 # 在內的注解我不想要,而且空白行我也不要!此時該如何處理呢?可以通過這幾個步驟來實作看看: ``` 步驟一:先使用 grep 將關鍵字 MAN 所在行取出來 [dmtsai@study ~]$ cat /etc/man_db.conf &#124; grep 'MAN' # MANDATORY_MANPATH manpath_element # MANPATH_MAP path_element manpath_element # MANDB_MAP global_manpath [relative_catpath] # every automatically generated MANPATH includes these fields ....(后面省略).... 步驟二:刪除掉注解之后的數據! [dmtsai@study ~]$ cat /etc/man_db.conf &#124; grep 'MAN'&#124; sed 's/#.*$//g' MANDATORY_MANPATH /usr/man ....(后面省略).... # 從上面可以看出來,原本注解的數據都變成空白行啦!所以,接下來要刪除掉空白行 [dmtsai@study ~]$ cat /etc/man_db.conf &#124; grep 'MAN'&#124; sed 's/#.*$//g' &#124; sed '/^$/d' MANDATORY_MANPATH /usr/man MANDATORY_MANPATH /usr/share/man MANDATORY_MANPATH /usr/local/share/man ....(后面省略).... ``` * 直接修改文件內容(危險動作) 你以為 sed 只有這樣的能耐嗎?那可不! sed 甚至可以直接修改文件的內容呢!而不必使用管線命令或數據流重導向! 不過,由于這個動作會直接修改到原始的文件,所以請你千萬不要隨便拿系統配置文件來測試喔! 我們還是使用你下載的 regular_express.txt 文件來測試看看吧! ``` 范例六:利用 sed 將 regular_express.txt 內每一行結尾若為 . 則換成 ! [dmtsai@study ~]$ sed -i 's/\.$/\!/g' regular_express.txt # 上頭的 -i 選項可以讓你的 sed 直接去修改后面接的文件內容而不是由屏幕輸出喔! # 這個范例是用在取代!請您自行 cat 該文件去查閱結果啰! 范例七:利用 sed 直接在 regular_express.txt 最后一行加入“# This is a test” [dmtsai@study ~]$ sed -i '$a # This is a test' regular_express.txt # 由于 $ 代表的是最后一行,而 a 的動作是新增,因此該文件最后新增啰! ``` sed 的“ -i ”選項可以直接修改文件內容,這功能非常有幫助!舉例來說,如果你有一個 100 萬行的文件,你要在第 100 行加某些文字,此時使用 vim 可能會瘋掉!因為文件太大了!那怎辦?就利用 sed 啊!通過 sed 直接修改/取代的功能,你甚至不需要使用 vim 去修訂!很棒吧! 總之,這個 sed 不錯用啦!而且很多的 shell script 都會使用到這個指令的功能~ sed 可以幫助系統管理員管理好日常的工作喔!要仔細的學習呢!
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看