下载此文档

基于 CRFs 的中文分词 和短文本分类技术.pdf


文档分类:IT计算机 | 页数:约72页 举报非法文档有奖
1/72
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/72 下载此文档
文档列表 文档介绍
基于 CRFs 的中文分词
和短文本分类技术
Chinese Word Segmentation and
Short Text Classification Techniques
Based on CRFs
(申请清华大学工学 硕士学位论文)

培 养 单 位 : 计算机科学与技术系
学 科 : 计算机科学与技术
研 究 生 : 术滕少华
指 导 教 师 : 孙茂松教 授


二○○九年五月


C
R
F
s


















关于学位论文使用授权的说明

本人完全了解清华大学有关保留、使用学位论文的规定,即:
清华大学拥有在著作权法规定范围内学位论文的使用权,其中包
括:(1)已获学位的研究生必须按学校规定提交学位论文,学校可
以采用影印、缩印或其他复制手段保存研究生上交的学位论文;(2)
为教学和科研目的,学校可以将公开的学位论文作为资料在图书馆、
资料室等场所供校内师生阅读,或在校园网上供校内师生浏览部分内
容。
本人保证遵守上述规定。
(保密的论文在解密后遵守此规定)

作者签名: 导师签名:
日 期: 日 期:
摘 要
摘 要
中文自动分词和短文本分类是自然语言处理中的基础任务,本文将介绍关
于这两个领域的若干基于条件随机场(CRFs)的算法以及在此基础上的创新。
本文的工作主要包括两部分:第一部分,我们借用了文本分类领域的特征
选择算法对中文分词中的特征进行分析。分析结果表明,特征选择算法在中文
分词的任务中也是适用的。在中文分词领域,基于字标注的方法得到广泛应用。
通过字标注系统,中文分词任务被转换为序列标注任务,许多成熟的机器学****br/>算法得以应用。评测结果表明,在众多的机器学****算法中,基于 CRFs 的分词器
可以达到 state-of-the-art 的分词效果。CRFs 分词器对于给出的每一个切分,都可
以提供置信度。在本文中,我们深入调研了 CRFs 提供的置信度,在此基础上,
提供了一种基于置信度的后处理中文分词算法。三个不同数据集上的实验结果
证明,我们的算法是有效的。另一方面,我们对未登录词(OOV)在上下文中的分
布进行观察,提出了一种基于篇章内部信息和 CRFs 置信度的 OOV 识别方法,
可以进一步提高中文分词的准确度。
第二部分,我们借用了中文文本分类中的字标注算法来解决短文本分类问
题。通过标注算法,可以将短文本分类问题转化为序列标注问题,这样 CRFs 就
可以用于短文本分类任务中。实验结果表明,基于 CRFs 的短文本分类器可以达
到更高的分类精度。









关键词:中文分词 短文本分类 条件随机场 特征选择 置信度
未登录词

I
Abstract
Abstract
Chinese word segmentation (CWS) and short text classification (STC)
are both basic tasks in natural language process (NLP). In this p

基于 CRFs 的中文分词 和短文本分类技术 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数72
  • 收藏数0 收藏
  • 顶次数0
  • 上传人rovend
  • 文件大小1.12 MB
  • 时间2021-04-09