下载此文档

全文检索系统整体方案设计.doc


文档分类:IT计算机 | 页数:约30页 举报非法文档有奖
1/30
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/30 下载此文档
文档列表 文档介绍
全文检索系统案全文检索需求系统提供模糊检索、分类搜索、高级复合搜索、全文检索、图片容检索、跨库检索等多种检索途径;支持字索引和词索引;检索条件具有完整的关键词布尔逻辑运算AND、OR、NOT能力,支持复合式布尔逻辑运算查询,并且可以配合多组左括号"("与右括号")"作关键词查询优先级的设置;提供用户多次递进查询的功能,用户可根据上一次查询关键词得到的检索结果集,增加查询关键词与缩小搜索日期围,而得到更准确的查询结果集;能够支持对以上文件中的中文(简体/繁体)、英文、日语、语容实现关键字检索;支持对Word、TXT、PDF等多种主流文档格式全文检索,并提供开发接口以支持特殊文档格式的全文检索;在数据源数据发生更新时,能在索引库中反映出来,保证搜索的信息为最新,即支持增量索引机制;用户可自行设定时间,让系统自动定时进行更新索引;对于百万级记录数的搜索以及结合模糊搜索等查询式,搜索时间不得超过10秒;提供跨数据源、数据格式的搜索;同过相关性搜索,能够把和搜索条件相关联的信息搜索出来;不但能够对图片的描述信息进行搜索,还能对图片容的检索;与SOAP的搜索接口(Interface)可让其它应用程序或查询网页能够提供用户查询入口和查询结果的呈现,用户可通过应用程序或浏览器访问全文检索服务器,提交查询条件,可在浏览器中查看检索结果;查询结果集中应包含结果集总数、命中的结果文件的完整路径,以及符合关键词出现的容片断;在搜索结果集中,关键词应被标识出来,用特殊的字体及颜色和其他文字进行区别,查询者可在查询结果片断中一目了然的看到关键词出现的位置;查询结果可按照关键词命中次数,命中结果文件的修改时间,大小等条件进行排序;可提供用户对检索命中结果文件在索引库中进行标记,从而再次检索时,不在标记过的文件中进行查询;全文检索系统总体案系统将采用以下全文检索流程。针对企业部的信息,包括文件服务器上的文件、网页、ERP等系统存放信息的数据库信息、办公应用中的公文档案文档已经容管理系统中流转的容,本系统提供了两种数据适配器来提取其中的正文容和属性容,形成一个相对结构化的数据虚拟层;本系统的索引引擎(Indexer)对结构化的数据虚拟层进行中文切分词、文件特征分析和逐步索引,以及其它索引算法,生成索引数据库;使用者(user)在搜索页面中输入查询字串等搜索条件并提交给本系统后,本系统的全文检索查询引擎(Searcher)会在索引库中进行搜索,并将符合搜索条件的搜索结果返回给使用者;使用者(user)可于查询结果页面,进一步到信息原文查看详细容。对于系统管理,管理员可通过相应web式的管理程序来管理整个系统运行环境及设置文件;并通过索引引擎()实时或定时创建索引,更新索引数据库的容,使检索信息维持在最新状态。全文检索系统带来的效益高效率的整合搜索,大幅减少组织成员在取得信息时花费的时间!本系统和其它搜索系统只针对特定信息源搜索不同,它能对企业部绝大多数的信息创建索引和搜索,具备强大的信息整合及快速回应能力,让企业成员以单一搜索页面、简易的操作式,即可在最短时间,完整、准确、及时地掌握企业外所有信息,不必再耗费大量时间的找寻信息!信息过量不会造成企业成员的信息焦虑!通过本系统强大的索引/搜索能力,大量的信息也可在瞬间过滤出符合使用者条件的信息,不必担心迷失在漫漫的信息洪流之中!非结构/非组织的信息,不再是知识管理的盲点!文件/档案以及非经过分类管理的信息,因为附加信息稀少,往往成为知识利用上难以判断、分析的信息。本系统直接针对容全文分析、关联,使这类信息同样可让使用者以检索式,快速筛选利用!整合容易,使用简易,导入迅速,易于接受!套装化、模块化的设计及灵活的整合能力,能在企业迅速的安装设置;操作式简单,企业成员易于接受,导入便。以最经济的时间、人力及费用成本为企业创建信息流通、充分分享的知识环境。全文检索系统平台架构本系统基于组件化和松散耦合架构和设计,系统平台架构示意图如下:整个系统主要分为信息整合、信息萃取和服务、应用整合三个部分。信息整合此部分主要作用是将企业部存储于不同应用系统中的结构化信息、半结构化信息、非结构化信息通过本系统提供的两种数据适配器进行信息提取,形成一个相对结构化的数据虚拟层,以备后期信息萃取和服务。信息萃取和服务在信息整合层形成的相对结构化的数据虚拟层基础上,本系统将对其中的每笔记录进行中文切分词、索引、文件特征分析、自动分类等各种演算算法处理,形成可以提供搜索服务的索引库。用户利用本系统的搜索引擎处理提供的强大的搜索功能,如中文同音搜索、简繁体对译、模糊搜索、同义词搜索、文章概念搜索、分类浏览等,快速、准确、完整、及时、有效地搜索到符合自己搜索条件的信息。应用整合本系统还提供了完整的外部程序整合机制。所有组件均提供

全文检索系统整体方案设计 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数30
  • 收藏数0 收藏
  • 顶次数0
  • 上传人xnzct26
  • 文件大小1.96 MB
  • 时间2020-05-24