awk · Linux日常筆記

## 簡介 awk是一個強大的文本分析工具，相對于grep的查找，sed的編輯，awk在其對數據分析并生成報告時，顯得尤為強大。簡單來說awk就是把文件逐行的讀入，以空格為默認分隔符將每行切片，切開的部分再進行各種分析處理。 awk有3個不同版本: awk、nawk和gawk，未作特別說明，一般指gawk，gawk 是 AWK 的 GNU 版本。 awk其名稱得自于它的創始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首個字母。實際上 AWK 的確擁有自己的語言： AWK 程序設計語言，三位創建者已將它正式定義為“樣式掃描和處理語言”。它允許您創建簡短的程序，這些程序讀取輸入文件、為數據排序、處理數據、對輸入執行計算以及生成報表，還有無數其他的功能。 ## 使用方法 ~~~shell awk 'BEGIN{ print "start" } pattern{ commands } END{ print "end" }' file ~~~ 盡管操作可能會很復雜，但語法總是這樣，其中 pattern 表示 AWK 在數據中查找的內容，而 action 是在找到匹配內容時所執行的一系列命令。花括號（{}）不需要在程序中始終出現，但它們用于根據特定的模式對一系列指令進行分組。 pattern就是要表示的正則表達式，用斜杠括起來。 awk語言的最基本功能是在文件或者字符串中基于指定規則瀏覽和抽取信息，awk抽取信息后，才能進行其他文本操作。完整的awk腳本通常用來格式化文本文件中的信息。通常，awk是以文件的一行為處理單位的。awk每接收文件的一行，然后執行相應的命令，來處理文本。 ### 調用awk的方式 **1.命令行方式** ``` awk [-F field-separator] 'commands' input-file(s) ``` 其中，commands 是真正awk命令，[-F域分隔符]是可選的。 input-file(s) 是待處理的文件。在awk中，文件的每一行中，由域分隔符分開的每一項稱為一個域。通常，在不指名-F域分隔符的情況下，默認的域分隔符是空格。 **2.shell腳本方式** 將所有的awk命令插入一個文件，并使awk程序可執行，然后awk命令解釋器作為腳本的首行，一遍通過鍵入腳本名稱來調用。相當于shell腳本首行的：#!/bin/sh 可以換成：#!/bin/awk **3.將所有的awk命令插入一個單獨文件，然后調用：** ``` awk -f awk-script-file input-file(s) ``` 其中，-f選項加載awk-script-file中的awk腳本，input-file(s)跟上面的是一樣的。 ### 入門實例假設last -n 5的輸出如下 ``` [root@www ~]# last -n 5 # 僅取出前五行 root pts/1 192.168.1.100 Tue Feb 10 11:21 still logged in root pts/1 192.168.1.100 Tue Feb 10 00:46 - 02:28 (01:41) root pts/1 192.168.1.100 Mon Feb 9 11:41 - 18:30 (06:48) dmtsai pts/1 192.168.1.100 Mon Feb 9 11:41 - 11:41 (00:00) root tty1 Fri Sep 5 14:09 - 14:10 (00:01) ``` 如果只是顯示最近登錄的5個帳號 ``` #last -n 5 | awk '{print $1}' root root root dmtsai root ``` awk工作流程是這樣的：讀入有'\n'換行符分割的一條記錄，然后將記錄按指定的域分隔符劃分域，填充域，\$0則表示所有域,\$1表示第一個域,\$n表示第n個域。默認域分隔符是"空白鍵" 或 "[tab]鍵",所以\$1表示登錄用戶，\$3表示登錄用戶ip,以此類推。如果只是顯示/etc/passwd的賬戶 ``` #cat /etc/passwd |awk -F ':' '{print $1}' root daemon bin sys ``` 如果只是顯示/etc/passwd的賬戶和賬戶對應的shell,而賬戶與shell之間以tab鍵分割 ``` #cat /etc/passwd |awk -F ':' '{print $1"\t"$7}' root /bin/bash daemon /bin/sh bin /bin/sh sys /bin/sh ``` 如果只是顯示/etc/passwd的賬戶和賬戶對應的shell,而賬戶與shell之間以逗號分割,而且在所有行添加列名name,shell,在最后一行添加"blue,/bin/nosh"。 ``` cat /etc/passwd |awk -F ':' 'BEGIN {print "name,shell"} {print $1","$7} END {print "blue,/bin/nosh"}' name,shell root,/bin/bash daemon,/bin/sh bin,/bin/sh sys,/bin/sh .... blue,/bin/nosh ``` awk工作流程是這樣的：先執行BEGING，然后讀取文件，讀入有/n換行符分割的一條記錄，然后將記錄按指定的域分隔符劃分域，填充域，\$0則表示所有域,\$1表示第一個域,\$n表示第n個域,隨后開始執行模式所對應的動作action。接著開始讀入第二條記錄······直到所有的記錄都讀完，最后執行END操作。搜索/etc/passwd有root關鍵字的所有行 ``` #awk -F: '/root/' /etc/passwd root:x:0:0:root:/root:/bin/bash ``` 這種是pattern的使用示例，匹配了pattern(這里是root)的行才會執行action(沒有指定action，默認輸出每行的內容)。搜索支持正則，例如找root開頭的:``awk -F: '/^root/' /etc/passwd`` 搜索/etc/passwd有root關鍵字的所有行，并顯示對應的shell ``` # awk -F: '/root/{print $7}' /etc/passwd /bin/bash ``` 這里指定了action{print \$7} ``` awk 'length($0)>80 {print NR}' myfile # 該命令行將顯示文本myfile中所有超過80個字符的行號，在這里，用$0表示整個記錄（行），同時，內置變量NR不使用標志符'$'。 # 假設要對UNIX中的用戶進行安全性檢查，方法是考察/etc下的passwd文件，檢查其中的passwd字段（第二字段）是否為"*"，如不為"*"，則表示該用戶沒有設置密碼，顯示出這些用戶名（第一字段）。我們可以用如下語句實現： awk -F: '$2=="" {printf("%s no password!",$1)' /etc/passwd ``` ### 內置變量 awk有許多內置變量用來設置環境信息，這些變量可以被改變，下面給出了最常用的一些變量。 ARGC 命令行參數個數 ARGV 命令行參數排列 ENVIRON 支持隊列中系統環境變量的使用 FILENAME awk瀏覽的文件名 FNR 瀏覽文件的記錄數 FS 設置輸入域分隔符，等價于命令行 -F選項 NF 瀏覽記錄的域的個數（列數） NR 已讀的記錄數（行數） OFS 輸出域分隔符 ORS 輸出記錄分隔符 RS 控制記錄分隔符此外,\$0變量是指整條記錄。\$1表示當前行的第一個域,\$2表示當前行的第二個域,......以此類推。 ``` awk '/api\.php/{print}' log_file #在缺省格式下模式是$0,即打印出全條 awk '/api\.php/' log_file # 甚至還可以忽略action部分,默認是print打印 ``` 統計/etc/passwd:文件名，每行的行號，每行的列數，對應的完整行內容: ``` #awk -F ':' '{print "filename:" FILENAME ",linenumber:" NR ",columns:" NF ",linecontent:"$0}' /etc/passwd filename:/etc/passwd,linenumber:1,columns:7,linecontent:root:x:0:0:root:/root:/bin/bash filename:/etc/passwd,linenumber:2,columns:7,linecontent:daemon:x:1:1:daemon:/usr/sbin:/bin/sh filename:/etc/passwd,linenumber:3,columns:7,linecontent:bin:x:2:2:bin:/bin:/bin/sh filename:/etc/passwd,linenumber:4,columns:7,linecontent:sys:x:3:3:sys:/dev:/bin/sh ``` 使用printf替代print,可以讓代碼更加簡潔，易讀 ``` awk -F ':' '{printf("filename:%10s,linenumber:%s,columns:%s,linecontent:%s\n",FILENAME,NR,NF,$0)}' /etc/passwd ``` ### print和printf awk中同時提供了print和printf兩種打印輸出的函數。其中print函數的參數可以是變量、數值或者字符串。字符串必須用雙引號引用，參數用逗號分隔。如果沒有逗號，參數就串聯在一起而無法區分。這里，逗號的作用與輸出文件的分隔符的作用是一樣的，只是后者是空格而已。 printf函數，其用法和c語言中printf基本相似,可以格式化字符串,輸出復雜時，printf更加好用，代碼更易懂。 ``` head -10 log_file | awk '{printf "%03d %s\n",NR,$1}' # "%03d %s\n" 是格式,其中NR替換%03成為前導0的三位數字,$1替換%s成為字符串 001 220.181.108.180 002 220.181.108.180 003 220.181.108.150 004 123.125.71.45 005 220.181.108.142 006 220.181.108.162 007 151.80.31.110 008 220.181.108.82 009 220.181.108.185 010 151.80.31.112 ``` ## awk編程 ### 變量和賦值除了awk的內置變量，awk還可以自定義變量。下面統計/etc/passwd的賬戶人數 ``` awk '{count++;print $0;} END{print "user count is ", count}' /etc/passwd root:x:0:0:root:/root:/bin/bash ...... user count is 40 ``` count是自定義變量。之前的action{}里都是只有一個print,其實print只是一個語句，而action{}可以有多個語句，以;號隔開。這里沒有初始化count，雖然默認是0，但是妥當的做法還是初始化為0: ``` awk 'BEGIN {count=0;print "[start]user count is ", count} {count=count+1;print $0;} END{print "[end]user count is ", count}' /etc/passwd [start]user count is 0 root:x:0:0:root:/root:/bin/bash ... [end]user count is 40 ``` 統計某個文件夾下的文件占用的字節數 ``` ls -l |awk 'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size}' [end]size is 8657198 # 以兆來顯示 ls -l |awk 'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size/1024/1024,"M"}' [end]size is 8.25889 M ``` ### BEGIN和END 在awk中兩個特別的表達式，BEGIN和END，這兩者都可用于pattern中（參考前面的awk語法），提供BEGIN和END的作用是給程序賦予初始狀態和在程序結束之后執行一些掃尾的工作。任何在BEGIN之后列出的操作（在{}內）將在awk開始掃描輸入之前執行，而END之后列出的操作將在掃描完全部的輸入之后執行。因此，通常使用BEGIN來顯示變量和預置（初始化）變量，使用END來輸出最終結果。 ``` awk >'BEGIN { FS=":";print "統計銷售金額";total=0} >{print $3;total=total+$3;} >END {printf "銷售金額總計：%.2f",total}' # 注：>是shell提供的第二提示符，如要在shell程序awk語句和awk語言中換行，則需在行尾加反斜杠 # 在這里，BEGIN預置了內部變量FS（字段分隔符）和自定義變量total,同時在掃描之前顯示出輸出行頭。而END則在掃描完成后打印出總合計。 ``` ### 條件語句 ``` if (expression) { statement; statement; ... ... } if (expression) { statement; } else { statement2; } if (expression) { statement1; } else if (expression1) { statement2; } else { statement3; } ``` 統計某個文件夾下的文件占用的字節數,過濾4096大小的文件(一般都是文件夾): ``` ls -l |awk 'BEGIN {size=0;print "[start]size is ", size} {if($5!=4096){size=size+$5;}} END{print "[end]size is ", size/1024/1024,"M"}' [end]size is 8.22339 M ``` `~ !~` 判斷正則，其他和PHP一樣。 ### 循環語句 awk中的循環語句同樣借鑒于C語言，支持while、do/while、for、break、continue，這些關鍵字的語義和C語言中的語義完全相同。 ``` awk -F ':' 'BEGIN {count=0;} {name[count] = $1;count++;}; END{for (i = 0; i < NR; i++) print i, name[i]}' /etc/passwd 0 root 1 daemon 2 bin 3 sys 4 sync 5 games ...... ``` 先把用戶名放在name的這個數組里面,執行完awk的隱式迭代后,最后的END部分通過for循環輸出; ## 常用示例 ~~~shell # 刪除重復行 awk '!($0 in array) { array[$0]; print }' temp awk '!array[$1]++' file.txt # 查看最長使用的10個unix命令 awk '{print $1}' ~/.bash_history | sort | uniq -c | sort -rn | head -n 10 # 查看機器的ip列表 ifconfig -a | awk '/Bcast/{print $2}' | cut -c 5-19 # 批量重命名文件 find . -name '*.jpg' | awk 'BEGIN{ a=0 }{ printf "mv %s name%01d.jpg\n", $0, a++ }' | bash ~~~ ## link 1. [一線運維不得不會的awk妙用匯總（2022）](https://mp.weixin.qq.com/s/SPHeJ_nwu7BsDBHQc2UmNA) 2. 更多請參考: http://www.gnu.org/software/gawk/manual/gawk.html