结论
我们描述了探寻Deep Web内容的方法,使得搜索引擎可以访问这些内容。该系统最重要的要求是它必须是完全自动化的(因此可以扩展到整个Web),而且可以从任何语言、任何领域来检索内容。有意思的是,这些严格的要求激发我们探索出一个相对简单优雅的解决方案,从而表明简单性通常是解决复杂问题的关键。
今后探寻Deep Web的工作有很多方向。特别地,可以识别表单中存在的特定类型来扩展爬虫的覆盖度。例如,各个域的组合之间通常是相互关联的(如MinPrice和MaxPrice),输入有效的精心选择的值的组合可以探寻到更多的页面。