基于 XML 和 Lucene 构建黄页搜索引擎1
姜伟,宋茂强,赵方
XML 格式,如下:
<? xml version="" encoding="GB2312"?>
<Table>
<Record>
<Name>名称</Name>
<Province>省</Province>
<City>城市</City>
<Address>地址</Address>
<Code>邮编</Code>
<Tel>电话</Tel>
<Business>业务领域<Business>
</Record>
…
</Table>
系统将以上文档看作半结构化数据库,索引引擎不必对整个 XML 文档建立索引,索引
可以建立在 XML 数据树中任意层次的元素上[4],这样不仅能压缩索引,提高查询速度,而
且查询返回的结果可以是 XML 数据中的某个元素,而不是整个文档。在信息检索中,查询
结果也需要按与查询条件之间的相关度的大小进行排序输出,但在排序方法上与传统的信息
检索技术有很大不同(将在下文做详细谈讨)。
图 2 系统接口示意图图 图 3-1 系统结构图
- 2 -
4 系统结构
如图 3-1 所示,系统主要由数据抽取、数据交换、文档处理、检索引擎和输入输出等五
大模块组成,各模块功能如下:
数据抽取模块负责将黄页信息从各种关系数据库中导出为 XML 格式存储的文件,由于
不同数据库中关系表中保存的黄页信息的字段名称和数量不同,有多有少,因此导出的 XML
文件格式不统一。
数据交换模块负责将从异构数据库中导出的 XML 中间格式文件转换为系统定义的
XML 标准格式文件,作为导入索引引擎的统一数据源。
文档处理模块由中文分词、关键词过滤、噪音词过滤三部分组成,负责搜索引擎建立索
引之前的预处理工作,就是要提取出 XML 文件所含的关键词,并要去掉诸如“的”
基于DSP的SR电机控制策略的研究 来自淘豆网www.taodocs.com转载请标明出处.