Linux shell awk 命令
linux shell awk 是一个强大的文本出来程序
AWK是一种处理文本文件的语言,是一个强大的文本分析工具。
之所以叫 AWK 是因为其取了三位创始人 Alfred Aho,Peter Weinberger, 和 Brian Kernighan 的Family Name的首字符。
awk 命令语法格式
awk [选项参数] 'script' var=value file(s) awk [选项参数] -f scriptfile var=value file(s)
参数说明
- -F fs , --field-separator
- fs指定输入文件折分隔符,fs是一个字符串或者是一个正则表达式,如-F:。
- -v var=value , --asign var=value
- 赋值一个用户定义变量。
- -f scripfile , --file scriptfile
- 从脚本文件中读取awk命令。
- -mf nnn and -mr nnn
- 对nnn值设置内在限制,-mf选项限制分配给nnn的最大块数目;-mr选项限制记录的最大数目。这两个功能是Bell实验室版awk的扩展功能,在标准awk中不适用。
- -W compact , --compat, -W traditional , --traditional
- 在兼容模式下运行awk。所以gawk的行为和标准的 awk 完全一样,所有的awk扩展都被忽略。
- -W copyleft , --copyleft, -W copyright , --copyright
- 打印简短的版权信息。
- -W help , --help, -W usage , --usage
- 打印全部awk选项和每个选项的简短说明。
- -W lint , --lint
- 打印不能向传统unix平台移植的结构的警告。
- -W lint-old , --lint-old
- 打印关于不能向传统unix平台移植的结构的警告。
- -W posix
- 打开兼容模式。但有以下限制,不识别:/x、函数关键字、func、换码序列以及当fs是一个空格时,将新行作为一个域分隔符;操作符和=不能代替^和^=;fflush无效。
- -W re-interval , --re-inerval
- 允许间隔正则表达式的使用,参考(grep中的Posix字符类),如括号表达式[[:alpha:]]。
- -W source program-text , --source
- program-text使用program-text作为源代码,可与-f命令混用。
- -W version , --version
- 打印bug报告信息的版本。
基本用法
假设存在 demo.log
文件,内容如下:
2 this is a test 3 Are you like awk This's a test 10 There are orange,apple,mongo
1. 用法一
行匹配语句 awk ''
只能用单引号
awk '{[pattern] action}' {filenames}
示例:每行按空格或TAB分割,输出文本中的1、4项
[root@localhost ~/awk]# awk '{print $1,$4}' demo.log 2 a 3 like This's 10 orange,apple,mongo
格式化输出
[root@localhost ~/awk]# awk '{printf "%-8s %-10s\n",$1,$4}' demo.log 2 a 3 like This's 10 orange,apple,mongo
2. 用法二
-F
选项相当于内置变量FS, 指定分割字符
awk -F
示例: 使用 ,
分割
[root@localhost ~/awk]# awk -F, '{print $1,$2}' demo.log 2 this is a test 3 Are you like awk This's a test 10 There are orange apple
或者使用内建变量
[root@localhost ~/awk]# awk 'BEGIN{FS=","} {print $1,$2}' demo.log 2 this is a test 3 Are you like awk This's a test 10 There are orange apple
使用多个分隔符 [ ,]
先使用空格分割,然后对分割结果再使用 ,
分割
[root@localhost ~/awk]# awk -F '[ ,]' '{print $1,$2,$5}' demo.log 2 this test 3 Are awk This's a 10 There apple
用法三:
设置变量
awk -v
示例:
[root@localhost ~/awk]# awk -va=1 '{print $1,$1+a}' demo.log 2 3 3 4 This's 1 10 11
[root@localhost ~/awk]# awk -va=1 -vb=s '{print $1,$1+a,$1b}' demo.log 2 3 2s 3 4 3s This's 1 This'ss 10 11 10s
用法四
awk -f {awk脚本} {文件名}
示例:
[root@localhost ~]# awk -f demo.awk demo.log
运算符
运算符 | 描述 |
---|---|
= += -= = /= %= ^= *= | 赋值 |
?: | C条件表达式 |
|| | 逻辑或 |
&& | 逻辑与 |
~ ~! | 匹配正则表达式和不匹配正则表达式 |
< <= > >= != == | 关系运算符 |
空格 | 连接 |
+ - | 加,减 |
* / % | 乘,除与求余 |
+ - ! | 一元加,减和逻辑非 |
^ *** | 求幂 |
++ -- | 增加或减少,作为前缀或后缀 |
$ | 字段引用 |
in | 数组成员 |
1. 过滤第一列大于 2 的行
[root@localhost ~/awk]# awk '$1>2' demo.log 3 Are you like awk This's a test 10 There are orange,apple,mongo
2. 过滤第一列等于 2 的行
[root@localhost ~/awk]# awk '$1==2 {print $1,$3}' demo.log 2 is
3. 过滤第一列大于 2 并且第二列等于 Are
的行
[root@localhost ~/awk]# awk '$1>2 && $2=="Are" {print $1,$2,$3}' demo.log 3 Are you
内建变量
变量 | 描述 |
---|---|
\$n | 当前记录的第n个字段,字段间由FS分隔 |
\$0 | 完整的输入记录 |
ARGC | 命令行参数的数目 |
ARGIND | 命令行中当前文件的位置(从0开始算) |
ARGV | 包含命令行参数的数组 |
CONVFMT | 数字转换格式(默认值为%.6g)ENVIRON环境变量关联数组 |
ERRNO | 最后一个系统错误的描述 |
FIELDWIDTHS | 字段宽度列表(用空格键分隔) |
FILENAME | 当前文件名 |
FNR | 各文件分别计数的行号 |
FS | 字段分隔符(默认是任何空格) |
IGNORECASE | 如果为真,则进行忽略大小写的匹配 |
NF | 输入字段分割符 |
NR | 已经读出的记录数,就是行号,从1开始 |
OFMT | 数字的输出格式(默认值是%.6g) |
OFS | 输出记录分隔符(输出换行符),输出时用指定的符号代替换行符 |
ORS | 输出记录分隔符(默认值是一个换行符) |
RLENGTH | 由match函数所匹配的字符串的长度 |
RS | 记录分隔符(默认是一个换行符) |
RSTART | 由match函数所匹配的字符串的第一个位置 |
SUBSEP | 数组下标分隔符(默认值是/034) |
root@localhost ~/awk]# awk 'BEGIN{printf "%4s %4s %4s %4s %4s %4s %4s %4s %4s\n","FILENAME","ARGC","FNR","FS","NF","NR","OFS","ORS","RS";printf "----------------------------------------- "%4s %4s %4s %4s %4s %4s %4s %4s %4s\n",FILENAME,ARGC,FNR,FS,NF,NR,OFS,ORS,RS}' demo.log FILENAME ARGC FNR FS NF NR OFS ORS RS --------------------------------------------- demo.log 2 1 5 1 demo.log 2 2 5 2 demo.log 2 3 3 3 demo.log 2 4 4 4
[root@localhost ~/awk]# awk -F\' 'BEGIN{printf "%4s %4s %4s %4s %4s %4s %4s %4s %4s\n","FILENAME","ARGC","FNR","FS","NF","NR","OFS","ORS","RS";printf "---------------------------------------------\n"} {printf "%4s %4s %4s %4s %4s %4s %4s %4s %4s\n",FILENAME,ARGC,FNR,FS,NF,NR,OFS,ORS,RS}' demo.log FILENAME ARGC FNR FS NF NR OFS ORS RS --------------------------------------------- demo.log 2 1 ' 1 1 demo.log 2 2 ' 1 2 demo.log 2 3 ' 2 3 demo.log 2 4 ' 1 4
输出顺序号 NR, 匹配文本行号
[root@localhost ~/awk]# awk '{print NR,FNR,$1,$2,$3}' demo.log 1 1 2 this is 2 2 3 Are you 3 3 This's a test 4 4 10 There are
指定输出分割符
[root@localhost ~/awk]# awk '{print $1,$2,$5}' OFS=" $ " demo.log 2 $ this $ test 3 $ Are $ awk This's $ a $ 10 $ There $
使用正则,字符串匹配
输出第二列包含 th
,并打印第二列与第四列
[root@localhost ~/awk]# awk '$2 ~ /th/ {print $2,$4}' demo.log this a
~
表示模式开始 //
中是模式
输出包含 re
的行
[root@localhost ~/awk]# awk '/re/ ' demo.log 3 Are you like awk 10 There are orange,apple,mongo
忽略大小写
[root@localhost ~/awk]# awk 'BEGIN{IGNORECASE=1} /this/' demo.log 2 this is a test This's a test
模式取反
[root@localhost ~/awk]# awk '$2 !~ /th/ {print $2,$4}' demo.log Are like a There orange,apple,mongo
$ awk '!/th/ {print $2,$4}' log.txt
Are like
a
There orange,apple,mongo
awk 脚本
关于 awk 脚本,我们需要注意两个关键词 BEGIN
和 END
- BEGIN{ 这里面放的是执行前的语句 }
- END {这里面放的是处理完所有的行后要执行的语句 }
- {这里面放的是处理每一行时要执行的语句}
假设有这么一个文件(学生成绩表):
[root@localhost ~/awk]# cat score.txt Marry 2143 78 84 77 Jack 2321 66 78 45 Tom 2122 48 77 71 Mike 2537 87 97 95 Bob 2415 40 57 62
我们的awk脚本如下:
[root@localhost ~/awk]# cat demo.awk #!/bin/awk -f #运行前 BEGIN { math = 0 english = 0 computer = 0 printf "NAME NO. MATH ENGLISH COMPUTER TOTAL\n" printf "---------------------------------------------\n" } #运行中 { math+=$3 english+=$4 computer+=$5 printf "%-6s %-6s %4d %8d %8d %8d\n", $1, $2, $3,$4,$5, $3+$4+$5 } #运行后 END { printf "---------------------------------------------\n" printf " TOTAL:%10d %8d %8d \n", math, english, computer printf "AVERAGE:%10.2f %8.2f %8.2f\n", math/NR, english/NR, computer/NR }
我们来看一下执行结果
[root@localhost ~/awk]# awk -f demo.awk score.txt NAME NO. MATH ENGLISH COMPUTER TOTAL --------------------------------------------- Marry 2143 78 84 77 239 Jack 2321 66 78 45 189 Tom 2122 48 77 71 196 Mike 2537 87 97 95 279 Bob 2415 40 57 62 159 --------------------------------------------- TOTAL: 319 393 350 AVERAGE: 63.80 78.60 70.00
另外一些范例
AWK 的 hello world
程序为 :
BEGIN { print "Hello, world!" }
计算文件大小
$ ls -l *.txt | awk '{sum+=$6} END {print sum}' -------------------------------------------------- 0
从文件中找出长度大于80的行
awk 'lenght>80' demo.log
打印九九乘法表
[root@localhost ~/shell]# seq 9 | sed 'H;g' | awk -v RS='' '{for(i=1;i<=NF;i++)printf("%dx%d=%d%s", i, NR, i*NR, i==NR?"\n":"\t")}' 1x1=1 1x2=2 2x2=4 1x3=3 2x3=6 3x3=9 1x4=4 2x4=8 3x4=12 4x4=16 1x5=5 2x5=10 3x5=15 4x5=20 5x5=25 1x6=6 2x6=12 3x6=18 4x6=24 5x6=30 6x6=36 1x7=7 2x7=14 3x7=21 4x7=28 5x7=35 6x7=42 7x7=49 1x8=8 2x8=16 3x8=24 4x8=32 5x8=40 6x8=48 7x8=56 8x8=64 1x9=9 2x9=18 3x9=27 4x9=36 5x9=45 6x9=54 7x9=63 8x9=72 9x9=81
更多详细内容可以查看 AWK 官方手册:http://www.gnu.org/software/gawk/manual/gawk.html