Linux4-文本处理三驾马车:grep, sed, awk
Linux基础课程系列:
grep:一种强大的文本搜索工具,它能使用正则表达式匹配模式搜索文本,并把匹配的行打印出来
格式: grep [options] pattern file ([]内的部分可以省略)
sed:流编辑器,一般用来对文本进行 增删改查 (sed是以 行 为单位来处理的)。
用法: sed [-options] 'script' file(s)
[!] 表示否定,取反(相当于grep -v)
awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其 对数据分析并生成报告 时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk。gawk 是 AWK 的 GNU 版本。
用法: awk [options] '{script}' file 。
基础结构: ' {script} '
匹配结构: ' /pattern/{script} '
扩展结构: 'BEGIN{script} {script} END{script}'
awk 在读取一行文本时,会用预定义的字段分隔符划分每个数据字段,并分配给一个变量。
$0 代表整个文本行;
$1 代表文本行中的第1个数据字段;
……
$NF 代表文本行中的最后一个数据字段
awk 默认的字段分隔符是任意空白字符(如:空格or 制表符),也可以用-F 参数自定义分隔符