第3章　结构之法——字符串及链表的探索 - 3.5　最短摘要的生成 - 《编程之美:微软技术面试心得》

3.5　最短摘要的生成

互联网搜索已经成为了大家工作和生活的一部分。在输入一些关键词之后，搜索引擎会返回许多结果，每个结果都包含一段概括网页内容的摘要。例如，在www.live.com中搜索“微软亚洲研究院使命”，第一个结果是微软亚洲研究院的首页，如图3-7所示。

在搜索结果中，标题和URL之间的内容就是我们所说的摘要：

alt

图3-7　搜索引擎中的最短摘要

这些最短摘要是怎样生成的呢？可以对问题进行如下的简化：

假设给定的已经是经过网页分词之后的结果，词语序列数组为W。其中W[0]，W[1]，…，W[N]为一些已经分好的词语。

假设用户输入的搜索关键词为数组Q。其中Q[0]，Q[1]，…，Q[m]为所有输入的搜索关键词。

这样，生成的最短摘要实际上就是一串相互联系的分词序列。比如从W[i]到W[j]，其中，0＜i＜j＜＝N。例如图3-7中，“欢迎光临微软亚洲研究院首页”包含了所有的关键字——“微软亚洲研究院使命”。

分析与解法

【解法一】

在分析问题之前，先通过一个实际的例子来探讨。比如在微软亚洲研究院的主页上，有这么一段话：

“微软亚洲研究院成立于1998年，我们的使命是使未来的计算机能够看、听、学，能用自然语言与人类进行交流。在此基础上，微软亚洲研究院还将促进计算机在亚太地区的普及，改善亚太用户的计算体验。”

那么，我们可以猜想一下可能的分词结果就是：

“微软／亚洲／研究院／成立／于/1998／年／，／我们／的／使命／是／使／未来／的／计算机／能够／看／、／听／、／学／，／能／用／自然语言／与／人类／进行／交流／。／在／此／基础／上／，／微软／亚洲／研究院／还／将／促进／计算机／在／亚太／地区／的／普及／，／改善／亚太／用户／的／计算／体验／。／”

这也就是我们期望的W数组序列。

那么，我们可以看看这样的一个序列：

alt