11.2.3 索引和检索原理

Lucene是一个文本搜索引擎库,也就是说它只能够操作文本形式的数据。事实上,不管什么格式的数据源,最终都可以转化为文本形式,因此可以说Lucene能够对任何数据做索引和检索,像TXT、WORD、PDF、数据库等格式的数据源,我们都可以通过其他工具或编程方式将这些格式的数据读取出来,转化成文本形式的数据,这样就能使用Lucene对这些文本数据建立索引以及做检索,如图11-3所示。

11.2.3 索引和检索原理 - 图1

图11-3 基于Lucene的索引和检索