下载此文档

中文智能搜索引擎.doc


文档分类:IT计算机 | 页数:约11页 举报非法文档有奖
1/11
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/11 下载此文档
文档列表 文档介绍
中文智能搜索引擎
龙其
072349
摘要
飞速发展的Internet给用户提供了海量的信息资源,导致用户从爆炸性增长的信息中迅速获得需要的信息变得越来越困难。为了帮助用户快速准确地检索到所需的网络信息,网络搜索引擎的研究与开发已经成为当今网络信息检索的热点。本文通过搜索引擎概述及原理介绍中文智能搜索引擎,从中文分词技术;词性标注及词义分析;分类器设计检索模型;PageRank排序技术;研究现状和发展趋势等内容对中文智能搜索引擎进行介绍。
搜索引擎概述及原理
搜索引擎是以Web页面为检索文档的信息检索系统,它的核心就是信息检索技术。广义地说,搜索引擎就是指在指互联网上能够响应用户提交的搜索请求,返回相应的查询结果信息的技术和系统。
搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。
搜索引擎并不是真正地搜索互联网,它搜索的是预先整理好的网页索引数据库。一般来说,搜索引擎得原理可以看做三步:从互联网中抓取网页;建立索引数据库;在索引数据库中进行搜索排序。
互联网中抓取网页:通过网页搜索工具Spider(蜘蛛)或Robot(机器人)等自动访问互联网,沿着URL搜索,并把搜索到的信息带回搜索引擎。
建立索引数据库:通过对收集的网页信息进行分析,把这些相关信息进行分类索引建立索引数据库。
在索引数据库中进行搜索排序:通过Web服务端软件,获得用户输入关键词后,有搜索程序从网页数据库中找到符合该关键词的相关网页。为用户提供浏览界面下的查询信息。
搜索引擎结构图
中文智能搜索引擎
中文搜索引擎
中文搜索引擎是指以Interent网络上的中文信息为主要对象,提供信息的自动收集、自动过滤、自动索引中和检索导航等服务的搜索引擎。中文Internet搜索引擎的最关键组件是能够在海量中英文数据上进行高效全文检索的信息管理系统。中文搜索引擎的机制同英文搜索引擎大致相同,不同的是多了中文语言的处理技术,这主要是中文分词技术和汉化技术。
逻辑上,中文信息搜索引擎与与一般搜索引擎一样分为三个部分:网页搜索引擎,索引引擎和查询引擎。
智能搜索引擎
传统搜索引擎局限:传统搜索引擎主要采用网站分类技术和全文检索技术来实现信息查询,前者成本高,对网站描述也比较简单,不能升入网站内部细节。而后者效率比较低且返回信息过多。
传统搜索引擎所使用的技术都难以解决用户“找信息难”的问题,造成这种困难的实质在于搜索引擎缺乏知识处理能力和理解能力。因此要把信息检索从基于关键词层面提高到基于知识层面。
智能搜索引擎, 它突破传统搜索引擎基于要求较精确的关键词层面信息检索的局限,发展到基于以不规范、不精确的自然形式出现的知识(或概念)层面来分析和处理用户的查询提问,具有良好的自然语言理解、知识处理能力,在信息检索过程中体现出很强的智能化与人性化优势。
中文智能搜索引擎
采用智能搜索引擎得方法实现对中文信息的检索。中文智能搜索引擎可以自动分析
中文网页,进行自动分词处理,并自动提取关键词,建立一关键词为基础的查询数据库,降低了系统开销,大大提高了查询效率。它通过充分考虑中文语句的表达结构以及“口语化的提问,智能化的结果”来满足用户的各种查询需求。
中文智能搜索引擎功能结构图大致如下:
中文智能搜索引擎功能结构
中文智能信息系统包含了许多中文信息处理的关键技术如:中文分词技术,词性标记,文本分类等。利用这些中文信息处理技术,来提高系统搜索的效率,查询结果的准确性等。
中文分词技术
自动分词
分词就是把一个句子按照其中词的含义进行切分,由于中文文本在书写表达或计算
机内部表示时,字与字之间、词与词之间没有明确的切分标志。此外,汉语词序的灵活性,语法限制简单及歧义现象等都给中文的自动分词造成了极大的困难。
自动分词的过程
指的是从信息处理需要出发,按照特定的规范,对汉语按照分词单位进行划分的过
程。
分词单位指汉语信息处理使用的、具有确定语义或语法功能的基本单位,包括词和词组。词是最小能独立运用的基本单位,两个或两个以上的词按一定语法规则组成表达一定意义的语言单位即词组。
分词词典
为实现及其自动分词,需要有经过语言专家精心挑选的词汇组成的现有词典,然后才能研究如何根据已有的分词词典实现文本的切分。
通常分词词典的设计与分词算法相关,在基于词典的分词算法中,分词词典数据结构的设计很关键,将影响到分词算法的性能。为构建一个高效的分词词典,可以考虑以下三个方面:
分词词典对词的查询速度:这直接决定匹配算法效率的

中文智能搜索引擎 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数11
  • 收藏数0 收藏
  • 顶次数0
  • 上传人回忆笑一笑
  • 文件大小163 KB
  • 时间2021-01-26