下载此文档

面向中文网络信息检索的自动分词系统设计与算法实现.pdf


文档分类:IT计算机 | 页数:约48页 举报非法文档有奖
1/ 48
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/ 48 下载此文档
文档列表 文档介绍
华东师范大学
硕士学位论文
面向中文网络信息检索的自动分词系统设计与算法实现
姓名:张彬
申请学位级别:硕士
专业:汉语言文字
指导教师:王珏
20070501
论文摘要关键词:中文分词、中文信息处理、中文搜索引擎、中文分词作为中文信息处理的基础,已经吸引了众多国内外计算机专家的极大兴趣,同时也涌现出了许多中文分词系统。目前汉语自动分词方法主要包括基于字符串匹配的方法、基于统计的方法和基于理解的方法。本文从理论上分析和比较了目前的各种汉语自动分词方法,对各种分词方法的技术特点进行了阐述,对自动分词发展现状和趋势作了概括性的总结。在系统设计上,阐述了适合本系统的分词方法和分词模块预期达到的性能指标,详细描述了汉语自动分词系统各个模块的具体设计,包括总体设计以及各模块设计等,同时给出了一些关键性的例程说明和程序设计的关键点总结。本文还对分词算法作出一定的研究探索。在深入分析现有自动分词算法的基础上,着重研究了基于字符串匹配的汉语自动分词算法,引入双向匹配法预处理分词,同时运用词频统计方法进行歧义切分和未登录词识别。基于上述研究结果,设计并实现了一个面向实际应用的中文自动分词系统。实验结果表明:在相同条件下,结合词频统计与规则处理后的匹配分词算法,较原算法分词速度更快。利用卡耐基梅隆大学分词评估系统进行评测,评测结果表明,改进后的匹配分词算法的查准率提高了ィ酆喜舛戎堤岣吡薕.,较原算法具有更好的性能。系统且具有较好的稳定性。本文所包含的内容完全是面向应用的,具体的技术选择与整体的设计思想完全根据实际的应用需求而定,采用的都是比较成熟的技术,实现了理论联系实际。机械分词,哈希映射、词频统计
:畁甅丘畉∞筶瓸,,.,、...揖
导师签名:—砌,躨学位论文作者签名:;袈斟∥占期:麴日期:,除文中已经注明引用的内容外,,仍谖闹凶髁嗣魅匪得鞑⒈硎拘灰猓学位论文授权使用声明本人完全了解华东师范大学有关保留、使用学位论文的规定,:日期:解密后适用本规定.,/
变革,推动工业经济走向知识经济一网络经济的新阶段。⒓焖以微电子、计算机、通信和网络技术为代表的信息技术,是迄今为止人类社会技术进步过程中发展最快、渗透性最强、应用最广泛的关键技术,代表着先进生产力的发展方向。信息技术的广泛应用,可以使信息成为重要的生产要素和战略资源,使社会资源获得高效配置,从而大幅提高社会劳动生产率,推动经济结构革新和产业结构升级,并将对全球范围的经济、政治、军事、文化以及意识形态产生越来越广泛和深刻的影响,最终导致经济增长方式,经济管理体制的重大随着网络经济的发展,中文信息检索越来越重要,作为中文信息处理领域的一项基础性课题,中文的分词技术也越来越受到人们的重视。笔者希望在这篇论文里对中文分词系统设计作出自己的~点实践和探索。.信息检索的网络化与智能化畔⒓焖,通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。从历史上看,信息检索经历了手工检索、计算机检索到网络化、智能化检索等多个发展阶段。目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理相对松散的谌荩畔⒓焖鞯挠没б灿稍吹那楸ㄗ业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。因此,适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。.智能检索与知识检索传统的全文检索技术基于关键词匹配进行检索,往往存在查不全、查不准、检索质量不高的现象,特别是在网络信息时代,利用关键词匹配很难满足检索的询“计算机”,与“电脑”相关的信息也能检索出来:进一步还可在知识拍要求。智能检索利用分词词典、同义词典、同音词典改善检索效果,比如用户查
.形乃阉饕层面上辅助查询,通过主题词典、上下文词典、相关同级词典,形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。比如用户可以进一步缩小查询范围至“微机”、“服务器”或扩大查询至“信息技术”或查询相关的“电子技

面向中文网络信息检索的自动分词系统设计与算法实现 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数 48
  • 收藏数 0 收藏
  • 顶次数 0
  • 上传人 Horange
  • 文件大小 0 KB
  • 时间2014-02-13
最近更新