Linux命令拾遗-文本处理篇
原创:打码日记(微信公众号ID:codelogs),欢迎分享,转载请保留出处。
简介
这是Linux命令拾遗系列的第二篇,本篇主要介绍Linux中与文本处理相关的命令,如xargs、grep、sed、awk等。
本系列文章索引
Linux命令拾遗-入门篇
常用文本相关命令
cat、tac、less
# 打印输入内容到标准输出
$ seq 3 | cat
# -n 带行号输出
$ seq 3 | cat -n
# -A 可以用来查询特殊字符
$ seq 3 | cat -A
# tac可以倒序输出
$ seq 3 | tac
3
2
1
less用于查看文件内容,如下:
$ less app.log
同时,less还是一个可交互的命令,交互方式类似于vim,如下:
操作 | 描述 |
---|---|
Ctrl + f | 向后翻页(forward) |
Ctrl + b | 向前翻页(backward) |
g | 跳转到首行 |
G | 跳转到尾行,同时按Shift+g |
63G | 跳转到63行 |
j 或 | 向下滚动一行 |
k 或 | 向上滚动一行 |
q | 退出less程序 |
/abc | 向后搜索abc 再按n继续搜索下一个abc,再按N搜索上一个abc |
?abc | 向前搜索abc 再按n继续搜索上一个abc,再按N搜索下一个abc |
F | 不断显示文件新内容,同时按Shift + f |
v | 在编辑器中打开当前文件 |
-N | 显示行号 (先按 - ,再按Shift + n,再按 |
-I | 忽略大小写搜索 (先按 - ,再按Shift + i,再按 |
-S | 不换行查看 (先按-,再按Shift + s,再按 |
-R | 保留颜色 (先按-,再按Shift + r,再按 |
-F | 一屏可展示,则直接输出 (先按-,再按Shift + f,再按 |
另外,less也经常用来查看命令输出的大量内容,比如ps -ef
一般会显示大量内容,这会将之前命令的执行结果从屏幕上往前推很远,使用ps -ef | less
就不会有这种烦恼了。
head、tail
# 显示前10行
$ seq 20 | head -n10
# 显示后10行
$ seq 20 | tail -n10
# 显示从第10行开始到末尾的行
$ seq 20 | tail -n+10
# 一直查看文件新追加的内容
$ tail -f temp.txt
# 生成16个字节的随机hex
$ cat /dev/urandom | head -c 16 | xxd -ps
wc、sort、uniq
# 统计行数,单词数,字节数,之所以有10字节,是因为把换行符也算进去了
$ seq 5 | wc
5 5 10
# 只统计行数
$ seq 5 | wc -l
5
# 排序,-n表示数值排序,-r表示倒序,-k1表示使用第一列排序
$ seq 5 |sort -nrk1
5
4
3
2
1
# uniq做分组计数,使用uniq前数据必须排好序,故前面要加sort
$ (seq 6;seq 3 8) |sort|uniq -c
1 1
1 2
2 3
2 4
2 5
2 6
1 7
1 8
# 并集
cat a b | sort | uniq > c
# 交集
cat a b | sort | uniq -d > c
# 差集
cat a b b | sort | uniq -u > c
grep
根据正则搜索内容,它会一行一行的拿出数据中的内容,然后看这一行是否匹配正则,匹配则输出这一行的内容。
# 使用正则搜索,默认BRE,不支持+?,不支持\d
$ seq 12|grep '11*'
1
10
11
12
# -F纯字符串搜索,而不是当成正则搜索
$ seq 12|grep -F '11*'
# -w单词搜索,所以11这种搜不到
$ seq 12|grep -w '1'
1
# -E使用ERE正则搜索,支持+?,不支持\d
$ seq 12|grep -E '1+'
1
10
11
12
# -P使用PCRE正则搜索,支持+?,支持\d
seq 12|grep -P '\d\d+'
10
11
12
# -v反向搜索,显示不包含1的行
seq 12|grep -v 1
2
3
4
5
6
7
8
9
# -o只输出匹配到的数据,而不是整行
$ echo hello,java|grep -oP '\w+'
hello
java
# -c显示搜索行数
$ seq 12|grep -P '\d\d+' -c
3
# -m限制搜索行数最多2行
$ seq 12|grep -P '\d\d+' -m 2
10
11
# 搜索10并也显示之后的2行(-A2)
$ seq 12|grep -A2 -w 10
10
11
12
# 搜索10并也显示之前的2行(-B2)
$ seq 12|grep -B2 -w 10
8
9
10
# 搜索10并也显示之前以及之后的2行(-C2)
$ seq 12|grep -C2 -w 10
8
9
10
11
12
# -r在当前目录递归的找文件,并在文件中找8080这个词,-n显示8080在文件中的行号
$ grep -rn -w 8080 .
find与ls
ls一般用来在当前目录的找文件
# 列出当前目录的文件名
ls
# -l列出当前目录的文件,以及文件属性,如创建用户、时间、大小等
ls -l
# 在当前目录找txt后缀的文件
ls *.txt
# 列出当前目录的文件,按时间倒序显示
ls -lt
# 列出当前目录的文件,按大小倒序显示
ls -lS
find一般用来递归的找文件
# 当前目录递归查找txt后缀的文件,会深入到子目录中,-type f表示查找文件,不然输出结果可能会有目录
find -name '*.txt' -type f
# 查找大于800M的文件
find . -type f -size +800M
# 1分钟内修改过的文件
find . -type f -mmin -1
# 7天内修改过的文件
find . -type f -mtime -7
xargs
作用:将标准输入流中的数据,转换为命令参数,并执行命令。
引入这个命令的原因是,有些命令不支持处理标准输入的数据,而只支持命令参数,如杀死进程的kill命令。
当我们想要杀死所有java进程时,可以这样做:
# 使用pgrep找出java进程
pgrep java
856
857
# 再使用kill杀死这两个java进程
kill 856 857
# 写成一行命令,如下,利用了bash的命令替换语法
kill `pgrep java`
kill $(pgrep java)
# 假如kill每次只支持一次传一个参数的话,可以用bash的for与while循环语法
for pid in `pgrep java`;do kill $pid; done
pgrep java | while read pid;do kill $pid;done
可以看到,对于上面的场景,命令越写越复杂,而xargs就可以很好的解决这个问题,如下:
# 使用xargs,将输入流按空白分拆成参数,传给kill命令,等效于上面的 kill `pgrep java`
pgrep java | xargs kill
# 使用-n选项,将输入流按空白分拆成参数,每次传一个参数给kill命令,类似上面for与while循环实现
pgrep java | xargs -n1 kill
下面体会一下xargs中常用的选项,如下:
拆分参数
# xargs默认以空白分隔参数,不指定命令时,默认执行echo,并默认将尽可能多的参数传递给命令
$ seq 20|xargs
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
# 使用-d指定分隔符
$ seq -s, 20|xargs -d,
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
注意:没有指定-d
时,xargs默认使用空白分隔,这里的空白指的是空格
、TAB
与换行符
,且多个空白符理解为一个空白,Linux中大多数需要分拆文本为列的命令,基本都遵从这个原则,如上面介绍过的sort,以及后面将要介绍的awk。
体会一下有无-d
选项上的不同,如下:
$ seq 20|xargs printf '"%s"\n'|xargs
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
$ seq 20|xargs printf '"%s"\n'|xargs -d'\n'
"1" "2" "3" "4" "5" "6" "7" "8" "9" "10" "11" "12" "13" "14" "15" "16" "17" "18" "19" "20"
在没有指定-d
选项时,xargs默认会忽略掉'
,"
,\
,而有-d
时则不会忽略。
参数分批
# 使用-n或-L指定每次传参的数量
$ seq 20|xargs -n4
1 2 3 4
5 6 7 8
9 10 11 12
13 14 15 16
17 18 19 20
$ seq 20|xargs -L4
1 2 3 4
5 6 7 8
9 10 11 12
13 14 15 16
17 18 19 20
体会一下 -n
与 -L
的细节上的不同,如下:
$ seq 20|xargs -n2
1 2
3 4
5 6
7 8
9 10
11 12
13 14
15 16
17 18
19 20
$ seq 20|xargs -n2|xargs -n4
1 2 3 4
5 6 7 8
9 10 11 12
13 14 15 16
17 18 19 20
$ seq 20|xargs -n2|xargs -L4
1 2 3 4 5 6 7 8
9 10 11 12 13 14 15 16
17 18 19 20
看起来好像是,在没指定-d
时,-n
默认使用空白符(包含空格、TAB与换行符)来分拆参数,而-L
,默认使用换行符来分拆参数。
参数占位
# 使用-i后,可使用{}来作为参数的占位符
seq 20|xargs -i echo 'id={}'
体会一下-i
的细节,如下:
$ seq 20|xargs -n2|xargs -i echo 'id={}'
id=1 2
id=3 4
id=5 6
id=7 8
id=9 10
id=11 12
id=13 14
id=15 16
id=17 18
id=19 20
看起来好像是,在没指定-d
时,使用-i
后,默认使用换行符来分拆参数。
调试与并发
# 使用-p来调试xargs传参细节
$ seq 20|xargs -i -p echo 'id={}'
echo 'id=1' ?...y
id=1
echo 'id=2' ?...
# 使用-P来并发运行命令,没有-P4时需要执行10s,有-P4只需要4s
$ seq 4|xargs -n1 -P4 sleep
有些时候,利用xargs的-P选项,还可以做一些简单的压力测试哩!
常用场景
xargs常与ls、find、grep配合,用来在指定文件中搜索内容,其中ls、find用来找文件,xargs将找到的文件名变成grep的参数,如下:
# 在当前目录的所有xml文件中,搜索8080端口配置
ls *.xml |xargs grep -w 8080
# 在当前目录及子目录的xml文件中,搜索8080端口配置
find -name '*.xml'|xargs grep -w 8080
sed
一般用于替换修改文本数据,有流文本编辑器(Stream editor)之称,实际上,你也可以将其看做一个极其简化的脚本语言。
语法
基本语法形如pattern action
,sed会读取每一行到模式空间,看是否匹配pattern,如果匹配则执行action。
注:模式空间pattern space,后面会详细解释,现在理解为存储当前行数据的变量即可。
如sed '3,5 s/a/c/g'
将第3到5行中的a替换为c,其中3,5
为pattern部分,s/a/c/g
为action部分,只有满足pattern条件的行,action才会执行,pattern部分可以省略,这样每一行都会执行action。
# yes可以用来不断的重复生成字符串,以此作为我们的测试数据
$ yes abcde|head -n5
abcde
abcde
abcde
abcde
abcde
# 第3到5行中的a替换为c,其中的g表示替换所有
$ yes abcde|head -n5|sed '3,5 s/a/c/g'
abcde
abcde
cbcde
cbcde
cbcde
另外pattern action
还可以是如下的形式:
可以组合写多个,如
sed '3,5 s/a/c/g; 2,4 s/b/d/g'
表示第3行到第5行的a替换为c,第2行到第4行的b替换为d。还可以嵌套,如
sed '3,5{3,4 s/a/c/g; 4,5 s/b/d/g}'
表示第3到5行中,其中3到4行执行a替换为c,第4到5行执行b替换为d。其实你可以认为在action只有一个时,大括号被省略了。还可以求反,如
sed '3,5! s/a/c/g'
表示非第3到5行的行,将a替换为c。
# 第3行到第5的a替换为c,第2行到第4行的b替换为d
$ yes abcde|head -n5|sed '3,5 s/a/c/g; 2,4 s/b/d/g'
abcde
adcde
cdcde
cdcde
cbcde
# 第3到5行中,其中3到4行执行a替换为c,第4到5行执行b替换为d
$ yes abcde|head -n5|sed '3,5{3,4 s/a/c/g; 4,5 s/b/d/g}'
abcde
abcde
cbcde
cdcde
adcde
# 非第3到5行的行,将a替换为c
$ yes abcde|head -n5|sed '3,5! s/a/c/g'
cbcde
cbcde
abcde
abcde
abcde
常见pattern
sed默认会把action处理后的每一行打印出来,加上-n
选项可以关掉默认打印,如下:
# 显示1到3行,这里action为p,表示打印,-n用来关闭默认打印,不然1到3行会打印2遍,p一般都和-n配合使用
$ seq 5|sed -n '1,3 p'
1
2
3
# pattern部分可以使用正则表达式,注意sed中的正则也不能使用\d,且记得时常搭配-E选项
# 注意pattern部分和action部分是可以随意组合的,也就是说正则形式的pattern也可以和s搭配使用
$ seq 5|sed -n '/[2-4]/ p'
2
3
4
# pattern部分也可以是逗号分隔的两个正则表达式,匹配从找到第一个正则表达式开始的行,到找到第二个正则表达式的行结束
$ seq 5|sed -n '/[2]/,/[4]/ p'
2
3
4
# 打印第1行,以及之后第间隔2行的行
$ seq 5|sed -n '1~2 p'
1
3
5
# 打印匹配行与之后的2行
$ seq 5|sed -n '/^1$/,+2 p'
1
2
3
常见action
除了s(替换)与p(打印)外,还有d(删除)、i(插入)、a(追加)、c(修改)、q(退出)、l(打印特殊字符),如下:
# 删除包含1和2的行
$ seq 3|sed '/[1-2]/ d'
3
# 向前插入一行,常用于设置csv标题
$ seq 3|sed '1 i\id'
id
1
2
3
# 在最后一行之后追加一行,其中$表示最后一行
$ seq 3|sed '$ a\id'
1
2
3
id
# 将第一行整行直接修改为id
$ seq 3|sed '1 c\id'
id
2
3
# 打印前5行,因为sed执行到第5行,q命令让其退出了
$ seq 9|sed '5q'
1
2
3
4
5
# 显示特殊字符
$ echo -ne '\r\n'|sed -n 'l0'
\r$
另外,s(替换)还有一些细节,这些细节实际上非常有用,体会一下:
# 替换可以使用正则的捕获组功能
$ echo 'id=1,name=zs'|sed -E 's/id=(\w+),name=(\w+)/\1 \2/'
1 zs
# g表示将所有的a替换为c
$ echo 'a,a,a,a'|sed 's/a/c/g'
c,c,c,c
# 3g表示将第3次匹配到的a以及后面匹配到的a,都替换为c
$ echo 'a,a,a,a'|sed 's/a/c/3g'
a,a,c,c
# 没有g只能替换第1次匹配
$ echo 'a,a,a,a'|sed 's/a/c/'
c,a,a,a
# 3表示只替换第3次匹配到的a为c
$ echo 'a,a,a,a'|sed 's/a/c/3'
a,a,c,a
# &表示之前匹配到的内容
$ echo 'a,a,a,a'|sed 's/.,./[&]/g'
[a,a],[a,a]
# 大小写转换
$ echo 'hello'|sed -E 's/.+/\U&/g'
HELLO
$ echo 'hello'|sed -E 's/.+/\u&/g'
Hello
$ echo 'HELLO'|sed -E 's/.+/\L&/g'
hello
$ echo 'HELLO'|sed -E 's/.+/\l&/g'
hELLO
模式空间与保留空间
sed中有2个概念,模式空间pattern space与保留空间hold space,简单来说,可以将其看成2个变量,其中模式空间是局部变量,sed读到的当前行数据,会被保存其中,而保留空间是全局变量。
sed运行过程可描述为如下代码:
hold_space="";
while read pattern_space; do
# sed script here
done
理解了这个概念,就可以介绍下面这些action了,如下:
action | 描述 |
---|---|
n | 加载下一行文本到模式空间,覆盖模式空间原数据 |
N | 追加下一行文本到模式空间 |
P | 打印模式空间数据的第一行 |
D | 删除模式空间数据的第一行 |
: label | 标记待跳转位置 |
b label | 跳转到: label标记的位置,可用于实现分支判断与循环 |
# 打印偶数行
$ seq 9|sed -n 'n;p'
2
4
6
8
$ seq -s, 9
1,2,3,4,5,6,7,8,9
# 每3个一行,使用s切出新行,P打印第一行,D再删掉,如此往复直到D将模式空间数据全删掉
$ seq -s, 9|sed 's/,/\n/3;P;D'
1,2,3
4,5,6
7,8,9
$ seq 9
1
2
3
4
5
6
7
8
9
# 每3个一行,用ba跳转实现一个循环,配合N追加3行到模式空间,再将\n替换为,即可
$ seq 9|sed ':a;N;0~3!{$!ba};s/\n/,/g'
1,2,3
4,5,6
7,8,9
分段
用sed来获取指定段中的内容,所谓段就是用空行分隔的多个行,如下:
比如需要获取eth0网卡的ip地址,如下:
$ ifconfig|sed -nE '/\S/{:a;N;/\n$/!{$!ba}}; /eth0/s/.*inet (\S*).*/\1/gp'
172.21.117.1
运行过程:
使用 /\S/
从非空白行开始,并用:a
标记。不断使用N读取下一行追加到模式空间。 然后使用 /\n$/!{$!ba}}
,若之前读到的不是空行,也不是最后一行,会命中/\n$/!
与$!
,然后使用ba
跳转到开头,继续加载下一行进来,直到遇到空行,这样就读到了一个完整的段。使用 /eth0/
判断段中是否包含eth0,如果是,则提取ip地址并打印。
保留空间action
action | 描述 |
---|---|
h | 将模式空间数据覆盖到保留空间 |
H | 将模式空间数据追加到保留空间 |
g | 将保留空间数据覆盖到模式空间 |
G | 将保留空间数据追加到模式空间 |
x | 交换模式空间与保留空间的数据 |
# 倒序输出,运行过程如下:
# sed处理第1行时会把1保存到保留空间
# 处理第2行时,会先把保留空间的1追加到模式空间,追加后模式空间就是2 1了,然后又将其保存到保留空间
# 接下来第3行就是3 2 1,如此往复,到最后一行时再输出内容即可
$ seq 5|sed -n '1!G; $p; h;'
5
4
3
2
1
# 过程与上面类似,不过每3行会打印一次并清空模式空间与保留空间罢了
$ seq 9|sed -n 'G; 0~3{p;s/.*//g};h'
3
2
1
6
5
4
9
8
7
# 打印匹配行,以及其前面4行,类似seq 9|grep -B4 7
$ seq 9|sed -n 'H; x; 4,$s/^[^\n]*\n//; x; /^7$/{g;p}'
4
5
6
7
sed里面掺杂了操作保留空间的命令后,执行过程就变得非常烧脑了,你的大脑需要飞速的运转才行。
例子:实现urldecode
$ echo hello%E7%BC%96%E7%A8%8B|sed 's/%/\\x/g'
hello\xE7\xBC\x96\xE7\xA8\x8B
$ echo hello%E7%BC%96%E7%A8%8B|sed 's/%/\\x/g'|xargs -d"\n" echo -e
hello编程
awk
awk是一个强大的文本处理工具,本质上可以看做是一门脚本语言了,可以用来对文本进行过滤、替换等操作,还能实现简单的统计以及类似SQL的join功能等。
语法
awk基本语法如下:
awk 'BEGIN{
//your code
}
pattern1{
//your code
}
pattern2{
//your code
}
END{
//your code
}'
BEGIN部分的代码,最先执行。
然后循环从标准输入中读取的每行文本,如果匹配pattern1,则执行pattern1的代码,匹配pattern2,则执行pattern2中的代码。
最后,执行END部分的代码。
运行过程
如下所示,分别求奇数行与偶数行的和:
$ seq 1 5
1
2
3
4
5
$ seq 1 5|awk 'BEGIN{print "odd","even"} NR%2==1{odd+=$0} NR%2==0{even+=$0} END{print odd,even}'
odd even
9 6
seq 1 5用来生成1到5的数字。
awk先执行BEGIN块,打印标题。
然后第1行尝试匹配
NR%2==1
这个pattern,其中NR为awk的内置变量,表示行号,从1开始,$0
为awk读到的当前行数据,显然匹配NR%2==1
,则执行里面的代码。然后第1行尝试匹配
NR%2==0
这个pattern,显然不匹配。然后第2行、第3行...,一直到最后一行,都执行上面两步。
最后执行END块,将前面求和的变量打印出来,其中
9=1+3+5
,6=2+4
。
这个程序还可以如下这样写:
seq 1 5|awk 'BEGIN{print "odd","even"} {if(NR%2==1){odd+=$0}else{even+=$0}} END{print odd,even}'
这里使用了if
语句,实际上awk的程序语法与C是非常类似的,所以awk也有else
,while
,for
,break
,continue
,exit
等,常见语法如下:
if (condition) statement [ else statement ]
while (condition) statement
do statement while (condition)
for (expr1; expr2; expr3) statement
for (var in array) statement
i++; i--;
i > 0 ? 1 : 0
分列
可以看到,awk程序在处理时,默认是一行一行处理的,注意我这里说的是默认,并不代表awk只能一行一行处理数据,接下来看看awk的分列功能,可通过-F
选项提供,如下:
$ cat temp.txt
1,6
2,7
3,8
4,9
5,10
$ cat temp.txt |awk -F, '{printf "%s\t%s\n",$1,$2}'
1 6
2 7
3 8
4 9
5 10
这个例子用-F
指定了,
,这样awk会自动将读取到的每行,使用,
分列,拆分后的结果保存在$1,$2...
中,另外,你也可以使用$NF, $(NF-1)
来引用最后两列的值,不指定-F
时,awk默认使用空白字符分列。
注意这里面的printf "%s\t%s\n",$1,$2
,printf是一个格式化打印函数,其实也可以写成printf("%s\t%s\n", $1, $2)
,只不过awk中函数调用可以省略括号。
另外,对于字符串拼接,awk不需要任何连接符号,只需要将两个字符串挨在一起即可,这和C语言中一样,不同于Java中使用+
拼接字符串,如下:
$ awk 'BEGIN{print "a""b"}'
ab
# 当然在中间加上空格,也是一样的,awk会忽略它
$ awk 'BEGIN{print "a" "b"}'
ab
# 但如果你用,分隔起来,就不一样了,它相当于传给print两个参数,类似print("a","b")
$ awk 'BEGIN{print "a","b"}'
a b
关联数组
awk支持一维数组,使用数组实现上面计算奇偶数和,如下:
$ seq 1 5|awk 'BEGIN{print "odd","even"} {S[NR%2]+=$0} END{print S[1],S[0]}'
odd even
9 6
注意,awk中的数组叫关联数组,即数组key可以是任意值,不一定是数字,概念上类似于java中的Map,如下:
# 统计各进程的数量,显示数量最多的前4个
$ ps h -eo comm|awk '{S[$0]++}END{for(k in S){print S[k],k}}'|sort -nr|head -n4
9 sshd
6 httpd
3 systemd
3 bash
如果要删除数组中的元素,使用delete S[k]
即可。
内置变量
上面已经提到了NR这个内置变量,awk还有如下内置变量
内置变量 | 作用 |
---|---|
$0 | 当前记录(这个变量中存放着整个行的内容) |
$i~$n | 当前记录的第n个字段 |
NF | 当前记录中的字段个数,就是有多少列 |
NR | 已经读出的记录数,就是行号,从1开始,如果有多个文件话,这个值也是不断累加中。 |
FNR | 当前记录数,与NR不同的是,这个值会是各个文件自己的行号 |
FS | 与-F功能类似,用来分列的,不过FS可以是正则表达式,默认是空白字符。 注:如果FS的值是空,代表每个字母拆分为一个 |
OFS | 与FS对应,指定print函数输出时的列分隔符,默认空格 |
RS | 记录分隔符,默认记录分隔符是\n 注:如果RS的值是空,代表按段划分记录 |
ORS | 与RS对应,指定print函数输出时的记录分隔符,默认\n |
FILENAME | 当前输入文件的名字 |
用2个例子体会一下:
$ echo -n '1,2,3|4,5,6|7,8,9'|awk 'BEGIN{RS="|";FS=","} {print $1,$2,$3}'
1 2 3
4 5 6
7 8 9
$ echo -n '1,2,3|4,5,6|7,8,9'|awk 'BEGIN{RS="|";FS=",";ORS=",";OFS="|"} {print $1,$2,$3}'
1|2|3,4|5|6,7|8|9,
总结:awk数据读取模式,总是以RS为记录分隔符,一条一条的读取记录,然后每条记录按FS拆分为字段。
再看看这个例子:
$ seq 1 5|awk '/^[1-4]/ && !/^[3-4]/'
1
2
$ seq 1 5|awk '$0 ~ /^[1-4]/ && $0 !~ /^[3-4]/{print}'
1
2
$ seq 1 5|awk '$0 ~ /^[1-4]/ && $0 !~ /^[3-4]/{print $0}'
1
2
可以看到:
awk中pattern部分可以直接使用正则表达式,而且可以使用
&&
,||
,!
这样的逻辑运算符.如果正则表达式没有指定匹配变量,默认对$0执行匹配,所以
awk '/regex/'
直接就可以等效于grep -E 'regex'
.另外pattern后面的代码部分如果省略的话,默认打印
$0
.print函数如果没有指定参数,也默认打印
$0
.另外,一定注意awk中的正则表达式不支持
\d
,匹配数字请使用[0-9]
,因为Linux中正则语法分BRE,ERE,PCRE
,而awk支持的是ERE
.
分段
如下,看看用awk如何获取eht0网卡的ip地址:
ifconfig|awk -v RS= '/eth0/{print $6}'
172.21.117.1
常用函数
函数名 | 说明 | 示例 |
---|---|---|
sub | 替换一次 | sub(/,/,"|",$0) |
gsub | 替换所有,传入字符串被替换,返回替换次数 | gsub(/,/,"|",$0) |
gensub | 替换,返回替换后的字符串 | $0=gensub(/,/,"|","g",$0) |
match | 匹配,捕获内容在a数组中 | match($0,/id=(\w+)/,a) |
split | 拆分,拆分内容在a数组中 | split($0,a,/,/) |
index | 查找字符串,返回查找到的位置,从1开始 | i=index($0,"hi") |
substr | 截取子串 | substr($0,1,i) 或substr($0,i) |
tolower | 转小写 | tolower($0) |
toupper | 转大写 | toupper($0) |
srand,rand | 生成随机数 | BEGIN{srand();printf "%d",rand()*10} |
查找与提取
示例数据如下,也是用awk生成的:
$ seq 1 10|awk '{printf "id=%s,name=person%s,age=%d,sex=%d\n",$0,$0,$0/3+15,$0/6}'|tee person.txt
id=1,name=person1,age=15,sex=0
id=2,name=person2,age=15,sex=0
id=3,name=person3,age=16,sex=0
id=4,name=person4,age=16,sex=0
id=5,name=person5,age=16,sex=0
id=6,name=person6,age=17,sex=1
id=7,name=person7,age=17,sex=1
id=8,name=person8,age=17,sex=1
id=9,name=person9,age=18,sex=1
id=10,name=person10,age=18,sex=1
然后用awk模拟select id,name,age from person where age > 15 and age < 18 limit 4
这样SQL的逻辑,如下:
$ cat person.txt |awk 'match($0, /^id=(\w+),name=(\w+),age=(\w+)/, a) && a[3]>15 && a[3]<18 { print a[1],a[2],a[3]; if(++limit >= 4) exit 0}'
3 person3 16
4 person4 16
5 person5 16
6 person6 17
首先使用match函数以及正则表达式的捕获组功能,将 id,name,age
的值提取到a[1],a[2],a[3]
中.然后 a[3]>15 && a[3]<18
即类似SQL中age > 15 and age < 18
的功能.然后打印 a[1],a[2],a[3]
,类似SQL中select id,name,age
的功能.最后,如果打印条数到达4条,退出程序,即类似 limit 4
的功能.
简单统计分析
awk可以做一些简单的统计分析任务,还是以SQL为例。
如select age,sex,count(*) num, group_concat(id) ids from person where age > 15 and age < 18 group by age,sex
这样的统计SQL,用awk实现如下:
$ cat person.txt |awk '
BEGIN{
printf "age\tsex\tnum\tids\n"
}
match($0, /^id=(\w+),name=(\w+),age=(\w+),sex=(\w+)/, a) && a[3]>15 && a[3]<18 {
s[a[3],a[4]]["num"]++;
s[a[3],a[4]]["ids"] = (s[a[3],a[4]]["ids"] ? s[a[3],a[4]]["ids"] "," a[1] : a[1])
}
END{
for(key in s){
split(key, k, SUBSEP);
age=k[1];
sex=k[2];
printf "%s\t%s\t%s\t%s\n",age,sex,s[age,sex]["num"],s[age,sex]["ids"]
}
}'
age sex num ids
17 1 3 6,7,8
16 0 3 3,4,5
awk代码稍微有点长了,但逻辑还是很清晰的。
BEGIN中打印标题行. match获取出id,name,age,sex,并过滤age>15且age<18的数据,然后将统计结果累计到s这个关联数组中。你可以把s这个关联数组想象中map,然后只是有两级key而已。(注意在awk中,拼接字符串使用空格即可,并不像java中使用+号). 最后END块中,遍历s这个关联数组,注意,类似 s[a[3],a[4]]
这样,在awk中是一个key,awk会使用SUBSEP这个变量将a[3]
,a[4]
拼接起来,需要split(key, k, SUBSEP)
,将key按SUBSEP拆分到k中,SUBSEP默认是\034
文件分隔符.
多文件join处理
awk还可以实现类似SQL中的join处理,求交集或差集,如下:
$ cat user.txt
1 zhangsan
2 lisi
3 wangwu
4 pangliu
$ cat score.txt
1 86
2 57
3 92
# 类似 select a.id,a.name,b.score from user a left join score b on a.id=b.id
# 这里FNR是当前文件中的行号,而NR一直是递增的,所以对于第一个score.txt,NR==FNR成立,第二个user.txt,NR!=FNR成立
$ awk 'NR==FNR{s[$1]=$2} NR!=FNR{print $1,$2,s[$1]}' score.txt user.txt
1 zhangsan 86
2 lisi 57
3 wangwu 92
4 pangliu
# 当然,也可以直接使用FILENAME内置变量,如下
$ awk 'FILENAME=="score.txt"{s[$1]=$2} FILENAME=="user.txt"{print $1,$2,s[$1]}' score.txt user.txt
# 求差集,打印user.txt不在score.txt中的行
$ awk 'FILENAME=="score.txt"{s[$1]=$2} FILENAME=="user.txt" && !($1 in s){print $0}' score.txt user.txt
4 pangliu
例子:ip转数字
# ip地址转数字
$ echo 192.168.0.101|awk -F. '{print strtonum("0x"sprintf("%02X",$1)sprintf("%02X",$2)sprintf("%02X",$3)sprintf("%02X",$4))}'
3232235621
# 数字转ip地址
$ echo 3232235621|awk -v ORS=. '{match(sprintf("%08X",$0),/(..)(..)(..)(..)/,a);for(i=1;i<=4;i++){print strtonum("0X"a[i])}}'
192.168.0.101.
例子:实现urlencode
$ echo -n hello编程|od -An -t u1|xargs -n1|awk -v ORS= '{c=sprintf("%c",$1);print c~/[0-9a-zA-Z.-_]/ ? c : sprintf("%%%02X",$1)}'
hello%E7%BC%96%E7%A8%8B
理解grep、sed、awk的能力
文本处理中,最常用的就是grep、sed、awk了,因此,这哥仨也常被人合称为Linux三剑客
,可见它们的重要性了,下面介绍下它们在处理能力上的异同点。
从处理文本的能力上来看,grep < sed < awk
。
从命令学习难度上来看,grep < sed < awk
。
以SQL
来类比,如下:grep
实现了是行级别的where正则过滤功能。sed
实现了是行级别的where过滤、行号过滤与update、insert、delete等更新功能。awk
实现了是列级别的where过滤、行号过滤与update、insert、delete等更新功能,以及group by统计功能。
功能 | 基础命令 | grep实现 | sed实现 | awk实现 |
---|---|---|---|---|
过滤前10行 | seq 20 | head -n10 | seq 20 | grep -m10 '.*' | seq 20 | sed -n '1,10p' | seq 20 | awk 'NR<=10' |
过滤出包含1的行 | seq 20 | grep 1 | seq 20 | sed -n '/1/p' | seq 20 | awk '/1/' | |
过滤出不包含1的行 | seq 20 | grep -v 1 | seq 20 | sed -n '/1/!p' | seq 20 | awk '!/1/' | |
过滤出大于等于8的行 | seq 20 | grep -E '^([89]|[1-2][0-9])$' | seq 20 | sed -nE '/^([89]|[1-2][0-9])$/p' | seq 20 | awk '$1 >= 8' | |
过滤出10个包含1的行 | seq 20 | grep -m10 1 | seq 20 | awk '/1/ && ++n <= 10' | ||
多条件过滤,过滤出既包含1又包含2,或不包含1与2的行 | seq 50 | grep -P '^(?=.*1)(?=.*2).+|^(?!.*1)(?!.*2).+' | seq 50 | sed -n '/1/{/2/p;d};/1/!{/2/!p;d};/2/!{/1/!p;d}' | seq 50 | awk '$0 ~ /1/ && $0 ~ /2/ || $0 !~ /1/ && $0 !~ /2/' | |
过滤出11以及之后的2行 | seq 20 | grep -A2 11 | seq 20 | sed -n '/11/,+2p' | seq 20 | awk '/11/{n=1} n && n++<=3' | |
步进过滤,过滤出每隔3行的记录,如3,6,9... | seq 10|sed -n '0~3p' | seq 10|awk 'NR%3==0' | ||
区间过滤,过滤出包含2到包含6的行 | seq 20|sed -n '/2/,/6/p' | seq 20|awk '/2/,/6/' | ||
提取部分文本 | echo 'hello,java'|grep -oP 'hello,\K(\w+)' | echo 'hello,java'|sed -nE 's/hello,(\w+)/\1/p' | echo 'hello,java'|awk 'match($0,/hello,(\w+)/,a){print a[1]}' | |
更新,java替换为bash | echo 'hello,java'|sed 's/java/bash/g' | echo 'hello,java'|awk '{gsub(/java/,"bash",$0);print $0}' | ||
插入,首行插入title | echo 'hello,java'|sed '1i\title' | echo 'hello,java'|awk '{if(NR==1){print "title"} print $0}' | ||
删除,删除包含java行 | echo 'hello,java'|sed '/java/d' | echo 'hello,java'|awk '{if(/java/){next} print $0}' | ||
驼峰与下划线互转 | echo "userId"|sed -E 's/([A-Z]+)/_\l\1/g' echo "user_id"|sed -E 's/_(.)/\u\1/g' | echo "userId"|awk '{print tolower(gensub(/([A-Z]+)/,"_\\1","g",$0))}' echo "user_id"|awk -F_ -v ORS= '{for(i=1;i<=NF;i++){print i==1 ? $i : toupper(substr($i,1,1)) substr($i,2)}}' | ||
倒序输出 | seq 9|tac | seq 9|sed -n 'G;$p;h' | seq 9|awk '{s=$0 "\n" s}END{print s}' | |
统计,总行数 | seq 20 | wc -l | seq 20 | grep . -c | seq 20 | sed -n '$=' | seq 20 | awk 'END{print NR}' |
统计,分组计数 | seq 20|grep -o .|sort|uniq -c | seq 20|grep -o .|awk '{S[$0]++} END{for(k in S){print S[k],k}}' |
实践
实践1:找最后10条异常日志
tac app.log |sed '/^\S/a\\'|awk -v RS= '/ERROR/ && ++n<=10{print;if(n>=10){exit}}'|tac
实践2:统计java代码中高频词
# uniq实现版
$ time find -name '*.java'|xargs sed -E 's/\b[A-Z]/\l&/g; s/[A-Z]/_\l&/g'|grep -w -oE '\w+'|pv -l|sort|uniq -c|sort -nrk1|head -n5
2.16M 0:00:03 [ 584k/s] [ <=> ]
56442 public
46228 import
45940 string
42473 order
41077 return
real 0m4.434s
user 0m4.719s
sys 0m2.911s
# awk实现版,比uniq实现快,理论上内存占用要高于uniq
$ time find -name '*.java'|xargs sed -E 's/\b[A-Z]/\l&/g; s/[A-Z]/_\l&/g'|grep -w -oE '\w+'|pv -l|awk '{S[$0]++}END{for(k in S){print S[k],k}}'|sort -nrk1|head -n5
2.16M 0:00:02 [1.03M/s] [ <=> ]
56442 public
46228 import
45940 string
42473 order
41077 return
real 0m2.366s
user 0m2.324s
sys 0m3.050s
总结
熟练掌握文本处理命令十分重要,原因是命令的输入数据,以及命令执行后的输出结果,基本都是纯文本的,因此如果想比较轻松地使用Linux命令解决工作需求,就必须熟练掌握这些常见的文本处理命令。
另外,之前也分享过Linux中的常见文本命令使用技巧,更偏实际应用场景,感兴趣可前往查看:
原来awk真是神器啊
Linux文本命令技巧(上)
Linux文本命令技巧(下)
使用Linux命令快速查看某一行
知识延伸指引
下面这个斐波那契数列,是怎么计算出来的?
(echo 0;echo 1) > num.txt
tail -n+0 -f num.txt|awk 'NR>1{print pre+$0;fflush()}{pre=$0}' >> num.txt
尝试用 -p
调试下面两个xargs程序,理解输出不同的原因?
$ seq 6|xargs -n2|xargs -L1 printf "<%s> "
<1> <2> <3> <4> <5> <6>
$ seq 6|xargs -n2|xargs -d'\n' -L1 printf "<%s> "
<1 2> <3 4> <5 6>
grep为啥默认不支持 \d
,BRE、ERE、PCRE
又是啥?
答案参考:这grep咋还不支持\d呢(BRE,ERE,PCRE)
为啥这条命令,sed不加 -u
,输出不了数据?为啥加了stdbuf -oL
后又能输出数据了?
while sleep 1;do echo $((i++)); done|sed 's/.\+/&+1/g'|bc
while sleep 1;do echo $((i++)); done|sed -u 's/.\+/&+1/g'|bc
while sleep 1;do echo $((i++)); done|stdbuf -oL sed 's/.\+/&+1/g'|bc
答案参考:shell管道咋堵住了?
5. 下面这些文本命令分别是做什么用的?
tr cut paste comm join
答案参考:Linux文本命令技巧(上)
往期内容
长按关注【打码日记】