下载此文档

DRIS系统中的中文自动分词模块设计与实现.pdf


文档分类:IT计算机 | 页数:约71页 举报非法文档有奖
1/ 71
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/ 71 下载此文档
文档列表 文档介绍
华中科技大学
硕士学位论文
DRIS系统中的中文自动分词模块设计与实现
姓名:向晖
申请学位级别:硕士
专业:控制理论与控制工程
指导教师:汪秉文;郭一平
20070211
华中科技大学硕士学位论文
摘要
作为信息检索技术核心之一的中文自动分词技术就是利用计算机程序对中文文
本进行词语的自动识别,其处理结果直接影响信息检索服务和搜索引擎的检索效果。
本课题的主要目的就是在数字图书馆系统——基于域内资源整合系统(DRIS)理论的
检索系统中,研究并设计具有中英文处理能力的中文自动分词模块。
论文介绍了基于 DRIS 的中文自动分词模块研究的背景、意义、内容以及中文自
动分词技术研究的国内外现状,概述了中文自动分词算法的类型划分,探讨了四类
基于中文词典的分词算法的原理及优缺点,归纳了中文自动分词系统的性能评价标
准,分别从五个方面分析了目前中文自动分词技术研究所遇到的难点问题,研究了
DRIS 原理、功能、组织形式以及基于 的搜索引擎原理和结构。在描述四
种常用的中文自动分词算法及介绍中文词典机制之后,论文展示和分析了这四种分
词算法的分词结果,考虑到 DRIS 的实际需要,选择基于中文词典的正向最大匹配法
(FMM)为 DRIS 系统中的中文自动分词模块所采用的中文自动分词算法。在理解语言
的主要功能和结构的基础上,论文设计并实现了中
,描述了此模块的文件构成、中文词
典的初始化过程以及对中英文混合源文本的处理过程,给出了此模块的部分程序和
主要流程图,展示了集成此模块的 DRIS 对 Web 网页源文件进行索引而得到的标准
Token 结果。论文还分析了 DRIS 中有关索引合并的问题,并在提出了相应的解决方
案之后,展望了后续研究工作。
采用 FMM 中文自动分词算法的 DRIS 具有较理想的中文分词效率,索引效率和
检索服务质量都得到了提高。

关键词:中文自动分词搜索引擎正向最大匹配法中文词典
I
华中科技大学硕士学位论文
Abstract
As a kernel technology of information retrieval, Chinese words auto-segmentation
puter programs to identify Chinese Words automatically. Its result affects the
search results of information retrieval and search engine directly. The main purpose of this
thesis is to investigate and design a Chinese-English words auto-segmentation module in
the digital library system—— a retrieval system based on Domain Resource Integration
System (DRIS) theory.
This thesis introduces the study background, significance, content of the Chinese
words auto-segmentation module in DRIS and current progress of the Chinese words
auto-segmentation technology. It summarizes the types of Chinese automatic segmentation
algorithm and discusses the principles,advantages,disadvantages of four kinds of Chinese
words segmentation algorithms based on Chinese dictionary. It concludes the performance
evaluation standards of the Chinese words auto-segmentation system and analyzes five
difficult problems during the study of the Chinese words auto-segmentation technology.

DRIS系统中的中文自动分词模块设计与实现 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数 71
  • 收藏数 0 收藏
  • 顶次数 0
  • 上传人 cherry
  • 文件大小 0 KB
  • 时间2014-02-28
最近更新