第9章 用HTML标记文档
本章会逐步指导你通过正则表达式为普通文本添加HTML5标签,同时总结本书前面所学内容。
如果是我,我就会使用为文本添加AsciiDoc〔1〕标签。但为了我们的示例,还是假设AsciiDoc不存在吧(真是太遗憾了!)。我们要用手头仅有的几个工具辛勤地工作——也就是sed和Perl,还有我们自己的智慧。
〔1〕AsciiDoc是一种轻量级的标记语言,由Stuart Rackham最初发布于2002年。AsciiDoc可用于编写文档、电子书、幻灯片、网页、博客等。而且,该格式可以转换成HTML、PDF、ePub等格式。要了解有关AsciiDoc的更多信息,请参考:http://asciidoc.org/。要了解标记语言的更多信息,请参考:http://en.wikipedia.org/wiki/Comparison_of_documentation_generators。——编者注
我们仍然使用rime.txt中柯勒律治的诗文作为示例文本。
由于我们对rime.txt的结构已经非常了解了,所以本章的脚本是专门针对它写的。如果用这些脚本匹配其他文本,最终的结果可能不同,但这些脚本是你掌控复杂文本结构的良好开端。