# 正則表達式
在_OpenResty_中,同時存在兩套正則表達式規范: _Lua_ 語言的規范和_Nginx_的規范,即使您對 _Lua_ 語言中的規范非常熟悉,我們仍不建議使用 _Lua_ 中的正則表達式。一是因為 _Lua_ 中正則表達式的性能并不如 _Nginx_ 中的正則表達式優秀;二是 _Lua_ 中的正則表達式并不符合 _POSIX_ 規范,而 _Nginx_ 中實現的是標準的 _POSIX_ 規范,后者明顯更具備通用性。
_Lua_ 中的正則表達式與Nginx中的正則表達式相比,有5%-15%的性能損失,而且Lua將表達式編譯成Pattern之后,并不會將Pattern緩存,而是每此使用都重新編譯一遍,潛在地降低了性能。 _Nginx_ 中的正則表達式可以通過參數緩存編譯過后的Pattern,不會有類似的性能損失。
o選項參數用于提高性能,指明該參數之后,被編譯的Pattern將會在worker進程中緩存,并且被當前worker進程的每次請求所共享。Pattern緩存的上限值通過lua_regex_cache_max_entries來修改。
~~~
# nginx.conf
location /test {
content_by_lua '
local regex = [[\\d+]]
-- 參數"o"是開啟緩存必須的
local m = ngx.re.match("hello, 1234", regex, "o")
if m then
ngx.say(m[0])
else
ngx.say("not matched!")
end
';
}
# 在網址中輸入"yourURL/test",即會在網頁中顯示1234。
~~~
_Lua_ 中正則表達式語法上最大的區別,_Lua_ 使用 _'%'_ 來進行轉義,而其他語言的正則表達式使用 _'\'_ 符號來進行轉義。其次, _Lua_ 中并不使用 _'?'_ 來表示非貪婪匹配,而是定義了不同的字符來表示是否是貪婪匹配。定義如下:
| 符號 | 匹配次數 | 匹配模式 |
|-----|-----|-----|
| + | 匹配前一字符 1 次或多次 | 非貪婪 |
| * | 匹配前一字符 0 次或多次 | 貪婪 |
| - | 匹配前一字符 0 次或多次 | 非貪婪 |
| ? | 匹配前一字符 0 次或1次 | 僅用于此,不用于標識是否貪婪 |
| 符號 | 匹配模式 |
|-----|-----|
| . | 任意字符 |
| %a | 字母 |
| %c | 控制字符 |
| %d | 數字 |
| %l | 小寫字母 |
| %p | 標點字符 |
| %s | 空白符 |
| %u | 大寫字母 |
| %w | 字母和數字 |
| %x | 十六進制數字 |
| %z | 代表 0 的字符 |
#### Lua正則簡單匯總
- _string.find_ 的基本應用是在目標串內搜索匹配指定的模式的串。函數如果找到匹配的串,就返回它的開始索引和結束索引,否則返回 _nil_。_find_ 函數第三個參數是可選的:標示目標串中搜索的起始位置,例如當我們想實現一個迭代器時,可以傳進上一次調用時的結束索引,如果返回了一個_nil_值的話,說明查找結束了.
~~~
local s = "hello world"
local i, j = string.find(s, "hello")
print(i, j) --> 1 5
~~~
- _string.gmatch_ 我們也可以使用返回迭代器的方式。
~~~
local s = "hello world from Lua"
for w in string.gmatch(s, "%a+") do
print(w)
end
-- output :
-- hello
-- world
-- from
-- Lua
~~~
- _string.gsub_ 用來查找匹配模式的串,并將使用替換串其替換掉,但并不修改原字符串,而是返回一個修改后的字符串的副本,函數有目標串,模式串,替換串三個參數,使用范例如下:
~~~
local a = "Lua is cute"
local b = string.gsub(a, "cute", "great")
print(a) --> Lua is cute
print(b) --> Lua is great
~~~
- 還有一點值得注意的是,'%b' 用來匹配對稱的字符,而不是一般正則表達式中的單詞的開始、結束。'%b' 用來匹配對稱的字符,而且采用貪婪匹配。常寫為 '%bxy' ,x 和 y 是任意兩個不同的字符;x 作為匹配的開始,y 作為匹配的結束。比如,'%b()' 匹配以 '(' 開始,以 ')' 結束的字符串:
~~~
--> a line
print(string.gsub("a (enclosed (in) parentheses) line", "%b()", ""))
~~~
- 序
- Lua簡介
- Lua環境搭建
- 基礎數據類型
- 表達式
- 控制結構
- if/else
- while
- repeat
- 控制結構for的使用
- break,return
- Lua函數
- 函數的定義
- 函數的參數
- 函數的返回值
- 函數回調
- 模塊
- String庫
- Table庫
- 日期時間函數
- 數學庫函數
- 文件操作
- 元表
- 面向對象編程
- FFI
- LuaRestyRedisLibrary
- select+set_keepalive組合操作引起的數據讀寫錯誤
- redis接口的二次封裝(簡化建連、拆連等細節)
- redis接口的二次封裝(發布訂閱)
- pipeline壓縮請求數量
- script壓縮復雜請求
- LuaCjsonLibrary
- json解析的異常捕獲
- 稀疏數組
- 空table編碼為array還是object
- 跨平臺的庫選擇
- PostgresNginxModule
- 調用方式簡介
- 不支持事務
- 超時
- 健康監測
- SQL注入
- LuaNginxModule
- 執行階段概念
- 正確的記錄日志
- 熱裝載代碼
- 阻塞操作
- 緩存
- sleep
- 定時任務
- 禁止某些終端訪問
- 請求返回后繼續執行
- 調試
- 調用其他C函數動態庫
- 我的lua代碼需要調優么
- 變量的共享范圍
- 動態限速
- shared.dict 非隊列性質
- 如何添加自己的lua api
- 正確使用長鏈接
- 如何引用第三方resty庫
- 使用動態DNS來完成HTTP請求
- 緩存失效風暴
- Lua
- 下標從1開始
- 局部變量
- 判斷數組大小
- 非空判斷
- 正則表達式
- 不用標準庫
- 虛變量
- 函數在調用代碼前定義
- 抵制使用module()函數來定義Lua模塊
- 點號與冒號操作符的區別
- 測試
- 單元測試
- API測試
- 性能測試
- 持續集成
- 灰度發布
- web服務
- API的設計
- 數據合法性檢測
- 協議無痛升級
- 代碼規范
- 連接池
- c10k編程
- TIME_WAIT問題
- 與Docker使用的網絡瓶頸
- 火焰圖
- 什么時候使用
- 顯示的是什么
- 如何安裝火焰圖生成工具
- 如何定位問題