4.19 用awk实现head、tail和tac

只有通过实践才能够掌握文本处理的各种操作。这则攻略将帮助你综合运用之前已学过的一些命令。

4.19.1 预备知识

命令headtailuniqtac都是逐行操作的。不管什么时候,只要我们需要进行逐行处理,我们都可以用awk来解决。接下来让我们利用awk模拟这些命令。

4.19.2 实战演练

看一看如何用不同的awk命令来模拟诸如headtailtac等命令。

模拟head命令读取文件前10行并打印出来:

  1. $ awk 'NR <=10' filename

模拟tail命令打印文件的后10行:

  1. $ awk '{ buffer[NR % 10] = $0; } END { for(i=1;i<11;i++) { print buffer[i%10] } }' filename

模拟tac命令逆序打印输入文件的所有行:

  1. $ awk '{ buffer[NR] = $0; } END { for(i=NR; i>0; i--) { print buffer[i] } }' filename

4.19.3 工作原理

headawk实现中,我们打印输入流中行号小于或等于0的行。行号可以通过特殊变量NR获得。

tail命令的实现中,我们使用了散列技术。数组buffer的索引是由散列函数NR%10决定的,其中变量NR包含了当前行的行号,$0包含了当前的文本行。因此,% 将所有余数相同的行都映射到一个特定的数组索引中。在END{ }语句块中,对数组的10个索引进行迭代,并打印出对应的行。

tac命令的实现中,只是将所有的行存入一个数组中。当程序流程进入END{ }语句块时,NR存储着最后一行的行号。然后在for循环中对NR递减到1,并在每一次循环中打印存储的行。

4.19.4 参考

  • 4.7节讲解了awk命令。

  • 3.14节讲解了uniq命令。

  • 2.8节讲解了uniq命令。

  • 4.15节讲解了tac命令。