### 重復
正則表達式第一件能做的事是能夠匹配不定長的字符集,而這是其它能作用在字符串上的方法所不能做到的。 不過,如果那是正則表達式唯一的附加功能的話,那么它們也就不那么優秀了。它們的另一個功能就是你可以指定正則表達式的一部分的重復次數。
我們討論的第一個重復功能的元字符是 *。* 并不匹配字母字符 "*";相反,它指定前一個字符可以被匹配零次或更多次,而不是只有一次。
舉個例子,ca*t 將匹配 "ct" (0 個 "a" 字符), "cat" (1 個 "a"), "caaat" (3 個 "a" 字符)等等。RE 引擎有各種來自 C 的整數類型大小的內部限制,以防止它匹配超過20億個 "a" 字符;你也許沒有足夠的內存去建造那么大的字符串,所以將不會累計到那個限制。
象 * 這樣地重復是“貪婪的”;當重復一個 RE 時,匹配引擎會試著重復盡可能多的次數。如果模式的后面部分沒有被匹配,匹配引擎將退回并再次嘗試更小的重復。
一步步的示例可以使它更加清晰。讓我們考慮表達式 a[bcd]*b。它匹配字母 "a",零個或更多個來自類 [bcd]中的字母,最后以 "b" 結尾。現在想一想該 RE 對字符串 "abcbd" 的匹配。
| Step | Matched | Explanation |
| --- | --- |
| 1 | a | a 匹配模式 |
| 2 | abcbd | 引擎匹配 [bcd]*,并盡其所能匹配到字符串的結尾 |
| 3 | Failure | 引擎嘗試匹配 b,但當前位置已經是字符的最后了,所以失敗 |
| 4 | abcb | 退回,[bcd]*嘗試少匹配一個字符。 |
| 5 | Failure | 再次嘗次b,但在當前最后一位字符是"d"。 |
| 6 | abc | 再次退回,[bcd]*只匹配 "bc"。 |
| 7 | abcb | 再次嘗試 b ,這次當前位上的字符正好是 "b" |
RE 的結尾部分現在可以到達了,它匹配 "abcb"。這證明了匹配引擎一開始會盡其所能進行匹配,如果沒有匹配然后就逐步退回并反復嘗試 RE 剩下來的部分。直到它退回嘗試匹配 [bcd] 到零次為止,如果隨后還是失敗,那么引擎就會認為該字符串根本無法匹配 RE 。
另一個重復元字符是 +,表示匹配一或更多次。請注意 * 和 + 之間的不同;* 匹配零或更多次,所以可以根本就不出現,而 + 則要求至少出現一次。用同一個例子,ca+t 就可以匹配 "cat" (1 個 "a"), "caaat" (3 個 "a"), 但不能匹配 "ct"。
還有更多的限定符。問號?? 匹配一次或零次;你可以認為它用于標識某事物是可選的。例如:home-?brew 匹配 "homebrew" 或 "home-brew"。
最復雜的重復限定符是 {m,n}(注意m,n之間不能有空格),其中 m 和 n 是十進制整數。該限定符的意思是至少有 m 個重復,至多到 n 個重復。舉個例子,a/{1,3}b 將匹配 "a/b","a//b" 和 "a///b"。它不能匹配 "ab" 因為沒有斜杠,也不能匹配 "a////b" ,因為有四個。
你可以忽略 m 或 n;因為會為缺失的值假設一個合理的值。忽略 m 會認為下邊界是 0,而忽略 n 的結果將是上邊界為無窮大 -- 實際上是先前我們提到的20億,但這也許同無窮大一樣。
細心的讀者也許注意到其他三個限定符都可以用這樣方式來表示。 {0,} 等同于 *,{1,} 等同于 +,而{0,1}則與?? 相同。如果可以的話,最好使用 *,+,或?。很簡單因為它們更短也更容易懂。