下载此文档

计算机科学与技术毕业论文——汉语分词技术分析.docx


文档分类:办公文档 | 页数:约43页 举报非法文档有奖
1/43
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/43 下载此文档
文档列表 文档介绍
计算机科学与技术毕业论文——汉语分词技术分析.docx兰州商学院本科生毕业论文(设计)论文(设计)题目:学院、系:专业(方向):年级、班:学生姓名:指导教师:汉语分词技术初探信息工程学院计算机科学与技术系2011年5上|18日木人郑重声明:所呈交的毕业论文(设计)是木人在导师的指导下取得的成果。对本论文(设计)的研究做出重要贡献的个人和集体,均已在文屮以明确方式标明。因本毕业论文(设计)引起的法律结果完全由本人承担。本毕业论文(设计)成果归兰州商学院所有。特此声明毕业论文(设计)作者签名:汉语分词技术初探摘要所谓汉语分词,就是将中文语句中的词汇切分出来的过程。由于汉语的书写****惯,汉语语句中词与词之间的标志是隐含的,英文的单词与单词之间有空格,所以不存在分词问题。而中文的每一句屮,词与词之问是没有空格的,因而必须采用某种技术将其分开。分词技术作为自然语言处理的基础环节,同时也是关键环节之一,它的质量好坏直接彩响到后续处理步骤的效果。汉语分词工作看似细微,但作为计算机自然语言处理的第一步,它的关键作用是不容忽视的。如今汉语分词己成为自然语言处理的研究热点与难点。本文讨论了中文分词的概念、目标及其所面临的一些基本问题,详细介绍了三种基本中文分词算法,并对中文分词词典的索引及常用词典结构进行了介绍,最后说了正向最大算法的实现及测试结果。[关键词]中文分词最大匹配分词词典自然语言处理ABSTRACTChinesewordsegmentation,istocutthesentenceintheVocabularysub一outprocess-SincethewritinghabitsofChinese,Chinesesenteneesymbolbetweenwordsisimplied,theEnglishwordshavethespacesbetweenthewords,,,sincethe80Shasbeenaresearchfocus,plexityoftheChineselanguagehasbeeninastageofdevelopment・Segmentationofnaturallanguageprocessingtechnologyasthebasiclink,butalsooneofthekeylinks,,anditsimportancecannotbeignored-[KeyWords]ChineseWordSegmentation,Maximummatch,SegmentationDictionary,ChineseInformationProcessing1、弓丨言 1二、 屮文分词简介 3(一) 屮文分词的概念 31、 什么是屮文分词 32、 屮文分词的应用 4(二) 中文分词的H标 51、 准确性 62、 运行效率 63、 通用性 64、 适用性 7(三) 屮文分词的基本问题 71、 分词规范 82、 歧义识别 103、 未登录词 11三、 基本屮文分词算法 12(-)屮文分词算法介绍 121、 基于字符串匹配的分词算法 122、 基于理解的分词算法 143、 基于统计的分词算法 14(-)根据具体应用使用合适的分词算法 151、 混合分词 152、 基于字的切分法 17四、 屮文分词词典 17(一) 词典的索引 181、 Hash索弓| 182、 Trie树 18(二) 常用词典结构 191、 有序线性词典结构 192、 基于整词二分的分词词典结构 193、 基于TRIE索引树的分词词典机制 20五、 正向最大匹配算法的实现 21(一) 正向最大匹配算法 21(二) 采用正向最大算法的分词程序设计 24六、 结论 35参考文献 36致谢 37汉语分词技术初探一、引言在自然语言处理中,词是最小的能够独立活动的有意义的语言成分。我们知道,在英文文本中,单词之间是以空格作为自然分界符的。中文和英文比起来,有其自身的特点,就是中文以字为基本书写单位,句子和段落通过分界符来划界,但是词语之间没有一个形式上分界符。也就是说,从形式上看,中文没

计算机科学与技术毕业论文——汉语分词技术分析 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数43
  • 收藏数0 收藏
  • 顶次数0
  • 上传人sssmppp
  • 文件大小228 KB
  • 时间2020-08-11
最近更新