awk · Linux · 看云

[TOC] # awk > 1. awk是行處理器: 相比較屏幕處理的優點，在處理龐大文件時不會出現內存溢出或是處理緩慢的問題，通常用來格式化文本信息 > 2. awk處理過程: 依次對每一行進行處理，然后輸出 ## 1. 基本格式 ~~~ awk 【option】【file】 awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file echo file | awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ ~~~ ### 1.1 參數說明： ~~~ [-F|-f|-v] 大參數，-F指定分隔符，-f調用腳本，-v定義變量 var=value ' ' 引用代碼塊 BEGIN 初始化代碼塊，在對每一行進行處理之前，初始化代碼，主要是引用全局變量，設置FS分隔符 // 匹配代碼塊，可以是字符串或正則表達式 {} 命令代碼塊，包含一條或多條命令；多條命令使用分號分隔 END 結尾代碼塊，在對每一行進行處理之后再執行的代碼塊，主要是進行最終計算或輸出結尾摘要信息 $0 表示整個當前行 $1 每行第一個字段 NF 字段數量變量（每行被切分后的列數量，可用于獲取最后一個列值： awk '{print $NF}'） NR 每行的記錄號，多文件記錄遞增 FNR 與NR類似，不過多文件記錄不遞增，每個文件都從1開始 \t 制表符 \n 換行符 FS BEGIN時定義分隔符 RS 輸入的記錄分隔符，默認為換行符(即文本是按一行一行輸入) ~ 匹配，與==相比不是精確比較 !~ 不匹配，不精確比較 == 等于，必須全部相等，精確比較 != 不等于，精確比較 &&　邏輯與 || 邏輯或 + 匹配時表示1個或1個以上 /[0-9][0-9]+/ 兩個或兩個以上數字 /[0-9][0-9]*/ 一個或一個以上數字 FILENAME 文件名 OFS 輸出字段分隔符，默認也是空格，可以改為制表符等 ORS 輸出的記錄分隔符，默認為換行符,即處理結果也是一行一行輸出到屏幕 -F'[:#/]' 定義三個分隔符 ~~~ * 將每一行的前二個字段，分行輸出，進一步理解一行一行處理文本 ~~~ awk -F: '{print $1; print $2}' /etc/passwd ~~~ * 輸出字段1,3,6，以制表符作為分隔符 ~~~ awk -F: '{print $1,$3,$6}' OFS="\t" /etc/passwd ~~~ ## 2. 匹配模式格式: ``` awk ‘/REG/{action}’ /REG/為正則表達式，可以將$0中，滿足條件記錄送入到：action進行處理. ``` ### 2.1 awk正則 awk的正則表達式是屬于：擴展的正則表達式（Extended Regular Expression 又叫 Extended RegEx 簡稱 EREs）。 ``` 特殊字符用途 . 匹配除換行符以外的任意單個字符。在awk中，句點也能匹配換行符。 * 匹配任意一個（包括零個）在它面前的字符（包括由正則表達式指定的字符） […] 匹配方括號中的字符類中的任意一個。如果方括號中第一個字符為脫字符號（^），則表示否定匹配，即匹配出了換行符和類中列出的哪些字符以外的所有字符。在awk中，也匹配換行符。連字符（-）用于表示字符的范圍。如果類中的第一個字符為右方括號（]）則表示它是類的成員。所有其他的元字符在被指定為類中成員時都會失去它們原來的含義。 ^ 如果作為正則表達式的第一個字符，則表示匹配行的開始。在awk中匹配字符串的開始，即使字符串包含嵌入的換行符。 $ 如果作為正則表達式的最后一個字符，則表示匹配行的結尾。在awk中匹配字符串的結尾，即使字符串包含嵌入的換行符。 \{n,m\} 匹配它前面某個范圍內單個字符出現的次數（包括由正則表達式指定的字符）。\{n,m\}將匹配n次出現，\{n,\}至少匹配n次出現，而且\{n,m\}匹配n和m之間的任意次出現。 \ 轉意隨后的特殊字符。 + 匹配前面的正則表達式的一次或多次出現。 ? 匹配前面的正則表達式的零次或一次出現。 | 指定可以匹配其前面的或后面的正則表達式。 () 對正則表達式分組 {n,m} 匹配它前面某個范圍內單個字符出現的次數（包括由正則表達式指定的字符）。{n}表示匹配n次出現，{n,}表示至少匹配n次出現，{n,m}匹配n和m之間的任意次出現。 ``` ### 2.2 實例 ### 查找manage用戶信息 ``` manage@ubuntu:~/highrise$ awk -F: '/manage/{ print $1,$6 }' /etc/passwd manage /home/manage ``` 2. #### 6.3 if語句必須用在{}中，且比較內容用()擴起來 ~~~ awk -F: '{if($1~/mail/) print $1}' /etc/passwd //簡寫，建議這樣寫 awk -F: '{if($1~/mail/) {print $1}}' /etc/passwd //全寫 awk -F: '{if($1~/mail/) {print $1} else {print $2}}' /etc/passwd //if...else... ~~~ #### 6.4 條件表達式 == != > >= ~~~ awk -F":" '$1=="mysql"{print $3}' /etc/passwd awk -F":" '{if($1=="mysql") print $3}' /etc/passwd //與上面相同 awk -F":" '$1!="mysql"{print $3}' /etc/passwd //不等于 awk -F":" '$3>1000{print $3}' /etc/passwd //大于 awk -F":" '$3>=100{print $3}' /etc/passwd //大于等于 awk -F":" '$3<1{print $3}' /etc/passwd //小于 awk -F":" '$3<=1{print $3}' /etc/passwd //小于等于 ~~~ #### 6.5 邏輯運算符 &&　|| ~~~ awk -F: '$1~/mail/ && $3>8 {print }' /etc/passwd //邏輯與，$1匹配mail，并且$3>8 awk -F: '{if($1~/mail/ && $3>8) print }' /etc/passwd awk -F: '$1~/mail/ || $3>1000 {print }' /etc/passwd //邏輯或 awk -F: '{if($1~/mail/ || $3>1000) print }' /etc/passwd ~~~ * 例子：獲取IP地址 `ifconfig eth0| grep 'inet '| awk -F: '{print $2;}'|sed s/Bcast//g` #### 6.6 數值運算 ~~~ awk -F: '$3 > 100' /etc/passwd awk -F: '$3 > 100 || $3 < 5' /etc/passwd awk -F: '$3+$4 > 200' /etc/passwd awk -F: '/mysql|mail/{print $3+10}' /etc/passwd //第三個字段加10打印 awk -F: '/mysql/{print $3-$4}' /etc/passwd //減法 awk -F: '/mysql/{print $3*$4}' /etc/passwd //求乘積 awk '/MemFree/{print $2/1024}' /proc/meminfo //除法 awk '/MemFree/{print int($2/1024)}' /proc/meminfo //取整 ~~~ #### 6.7 輸出分隔符OFS ~~~ awk '$6 ~ /FIN/ || NR==1 {print NR,$4,$5,$6}' OFS="\t" netstat.txt awk '$6 ~ /WAIT/ || NR==1 {print NR,$4,$5,$6}' OFS="\t" netstat.txt //輸出字段6匹配WAIT的行，其中輸出每行行號，字段4，5,6，并使用制表符分割字段 ~~~ #### 6.8 輸出處理結果到文件 ~~~ ①在命令代碼塊中直接輸出 route -n|awk 'NR!=1{print > "./fs"}' ②使用重定向進行輸出 route -n|awk 'NR!=1{print}' > ./fs ~~~ #### 6.9 格式化輸出 ~~~ netstat -anp|awk '{printf("%-8s %-8s %-10s\n",$1,$2,$3)}' ~~~ ` %[flags][width][.precision]conversion ` ~~~ %是必須的, 任何格式符都由百分號開始 flags 是可選的,詳見下表 width 是可選的, 表示輸出的寬度 precision 可選的, precision 依賴于 conversion, 詳見下表. conversion 是必須的, 表示如何格式化參數, 詳見下表 ~~~ * flag： ~~~ awk 支持如下標志(flag) 標志描述舉例 - 左對齊 |3333.33 | 空格在正數之前添加空格 | 3333.33|，|-3333.33| + 打印正負數符號 |+3333.33|，|-3333.33| 0 數字前面補0 |003333.33| #(對于%o) 添加前綴0 |0515| #(對于%x) 添加前綴0x |0x1bc| #(對于%X) 添加前綴0X |0X1bc| #(對于%e) 添加小數點 |1.000000e+01| #(對于%E) 添加小數點 |1.000000E+01| #(對于%f) 添加小數點 | 10.000000| #(對于%g) 不刪除尾部0 |10.4000| #(對于%G) 不刪除尾部0 |10.4000| ~~~ * awk 精度(precision)的意義。 ~~~ 轉換符精度意義 %d,%i,%o,%u,%x,%X 最少數字位數，如果數字位數少于精度，添加前綴0 %e, %E 最少數字位數，如果數字位數少于精度，添加后綴0 %f 小數的位數 %g, %G 最多數字位數 %s 字符位數 ~~~ > printf表示格式輸出 > %格式化輸出分隔符 > -8長度為8個字符 > s表示字符串類型 > 打印每行前三個字段，指定第一個字段輸出字符串類型(長度為8)，第二個字段輸出字符串類型(長度為8), > 第三個字段輸出字符串類型(長度為10) ~~~ netstat -anp|awk '$6=="LISTEN" || NR==1 {printf "%-10s %-10s %-10s \n",$1,$2,$3}' netstat -anp|awk '$6=="LISTEN" || NR==1 {printf "%-3s %-10s %-10s %-10s \n",NR,$1,$2,$3}' ~~~ #### 6.10 while語句 ~~~ awk -F: 'BEGIN{i=1} {while(i<NF) print NF,$i,i++}' /etc/passwd ~~~ > 變量i被初始化為1 ;當i小于或等于記錄的字段數(NF)時，先執行print語句，然后將i加1。接下來又重新測試表達式，直至i大于NF的值。變量i要在awk開始處理下一條記錄時begin被重置。 > 7 root 1 > 7 x 2 > 7 0 3 > 7 0 4 > 7 root 5 > 7 /root 6 #### 6.11 for 循環 ~~~ awk '{for(i=1;i<=NF;i++) print NF,$i}' /etc/passwd ~~~ 對文件的每一個行都執行 for #### 6.12 數組 ~~~ netstat -anp|awk 'NR!=1{a[$6]++} END{for (i in a) print i,"\t",a[i]}' netstat -anp|awk 'NR!=1{a[$6]++} END{for (i in a) printf "%-20s %-10s %-5s \n", i,"\t",a[i]}' ~~~ > 9523 1 > 9929 1 > LISTEN 6 > 7903 1 > 3038/cupsd 1 > 7913 1 > 10837 1 > 9833 1 ~~~ 應用1 awk -F: '{print NF}' helloworld.sh //輸出文件每行有多少字段 awk -F: '{print $1,$2,$3,$4,$5}' helloworld.sh //輸出前5個字段 awk -F: '{print $1,$2,$3,$4,$5}' OFS='\t' helloworld.sh //輸出前5個字段并使用制表符分隔輸出 awk -F: '{print NR,$1,$2,$3,$4,$5}' OFS='\t' helloworld.sh //制表符分隔輸出前5個字段，并打印行號應用2 awk -F'[:#]' '{print NF}' helloworld.sh //指定多個分隔符: #，輸出每行多少字段 awk -F'[:#]' '{print $1,$2,$3,$4,$5,$6,$7}' OFS='\t' helloworld.sh //制表符分隔輸出多字段應用3 awk -F'[:#/]' '{print NF}' helloworld.sh //指定三個分隔符，并輸出每行字段數 awk -F'[:#/]' '{print $1,$2,$3,$4,$5,$6,$7,$8,$9,$10,$11,$12}' helloworld.sh //制表符分隔輸出多字段應用4 計算/home目錄下，普通文件的大小，使用KB作為單位 ls -l|awk 'BEGIN{sum=0} !/^d/{sum+=$5} END{print "total size is:",sum/1024,"KB"}' ls -l|awk 'BEGIN{sum=0} !/^d/{sum+=$5} END{print "total size is:",int(sum/1024),"KB"}' //int是取整的意思應用5 統計netstat -anp 狀態為LISTEN和CONNECT的連接數量分別是多少 netstat -anp|awk '$6~/LISTEN|CONNECTED/{sum[$6]++} END{for (i in sum) printf "%-10s %-6s %-3s \n", i," ",sum[i]}' 應用6 統計/home目錄下不同用戶的普通文件的總數是多少？ ls -l|awk 'NR!=1 && !/^d/{sum[$3]++} END{for (i in sum) printf "%-6s %-5s %-3s \n",i," ",sum[i]}' mysql 199 root 374 統計/home目錄下不同用戶的普通文件的大小總size是多少？ ls -l|awk 'NR!=1 && !/^d/{sum[$3]+=$5} END{for (i in sum) printf "%-6s %-5s %-3s %-2s \n",i," ",sum[i]/1024/1024,"MB"}' ~~~ > * -F: 指定列分割符，默認是tab ![](images/screenshot_1500806465100.png) * 范例 ~~~ ps -ef|grep "$PROC"|grep -v grep|awk '{if($1=="'$USER'"){print $2}}'|wc -l ~~~ * 獲取非系統用戶（/etc/passwd 第三列大于500的用戶） ~~~ awk -F":" '{if ($3>500)print $1}' /etc/passwd ~~~ * 查看無密碼的非系統用戶 ~~~ cat /etc/passwd | awk -F: '{if($2!=""&&$3>500) print $1}' ~~~