下载此文档

词义标注语料库建设综述.doc


文档分类:办公文档 | 页数:约16页 举报非法文档有奖
1/16
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/16 下载此文档
文档列表 文档介绍
词义标注语料库建设综述



本文采集自网络,本站发布的论文均是优质论文,供学****和研究使用,文中立场与本网站无关,版权和著作权归原作者所有,如有不愿意被转载的情况,请通知我们删除已转载的信息,如果需要分享,请保留本段说明。
摘要:词义消歧的关键问题是缺少大规模、高质量的词义标注语料库。本文分别从语料选取、词典选择、标注规模和标注质量等方面介绍已经建成的较有影响的若干词义标注语料库。在自动构建词义标注语料库的方法中,本文集中介绍bootstrapping策略在语料库建设方面的应用以及利用双语对齐语料库开展的相关研究。最后,针对词义标注语料库建设存在的问题提出自己的分析和思考。
中国论文网/view-
关键词:计算机应用;中文信息处理;词义消歧;词义标注语料库;平行语料库;bootstrappmg
中图分类号;TP391 文献标识码:A

1 概述

词义消歧(Word Sense Disambiguation,WSD)长期以来一直是自然语言处理的热点难题,在机器翻译、信息检索等领域均有重要的应用价值。而词义标注语料库的建设对WSD研究有着重要的意义:Ng指出,WSD的中心任务是建设一个大规模的词义标注语料库来训练有指导的机器学****模型。Veronis认为,没有大规模的词义标注语料库,WSD研究不会有本质的进步。
词义标注语料库是指,根据某个词典对多义词各个义项的定义,在真实语料上标注多义词的正确义项。理想中的词义标注语料库应该具有规模大、覆盖广和准确度高等特点。语料的规模是指已经标注所有多义词的出现总次数(token),所选语料库本身的规模也有一定的参考价值。语料的覆盖是指标注的单词词形(word type)的个数,也即词典中列举的多义词被标注的比例或个数。标注的质量通常用标注一致程度(Inter Annotator Agreement,IAA)来衡量。IAA的简单计算如下:
/AA=A/N (1)
其中N是该词已标注的总次数;A是各个标注者(通常是两个)相互认同的次数。这样计算的缺点是没有考虑到不同标注者偶然一致的情况。根据Kappa统计量来计算的k值定义如下:

其中M是目标词w的义项个数;Cj是两个标注者标注为义项j的次数之和。通常认为k值超过80%就是高质量的标注。
另外,词典的选择也是衡量词义标注语料库质量的一个重要指标。本文将从词义标注语料库建设的时间、机构、词典、语料库来源、标注方法、标注规模和质量等方面介绍目前已建成和正在建设的词义标注语料库。

2 人工构建的词义标注语料库

采用人工方法进行大规模词义标注语料库建设是目前通行的方法。本部分重点介绍英文和中文的词义标注语料库,对其他语种仅做简单介绍。

英语词义标注语料库
Semcor语料库
该语料库由普林斯顿大学于1993年由Miller负责完成。。也正是由其负责完成的。中,用同义词集合(Synset)来表示概念。一个多义词,将在多个不同的Synset中出现。对义项的区分在完成词性标注后的Brown语料库上进行标注。共标注词次(token)超过200 000个。分布于Brown语料库中的352个文件,其中186个文件(共359732词次)的所有实词(名词、动词、形容词和副词)全部被标注(192 639词次)。另外的166个文件(316 814词次),只标注了其中的动词(41497词次)。该语料库可以免费下载,并提供了相应的查询工具,但是并未见到关于IAA的报告。
该语料库是目前最大的英语词义标注语料库。尽管如此,Miller认为该语料库规模太小,仍不足以据此设计一个健壮的、高准确率的词义消歧系统。
在Semcor上开展的研究很多,几乎所有的针对所有词(all-words)的英文WSD研究都会基于该语料进行。
DSO语料库
词义标注(Defence anisation,DSO)语料库由新加坡国立大学于1996年由Ng负责完成。,语料来自100万词Brown语料库和250万词华尔街时报(WSJ)。由该大学12个语言学专业的本科生,用一年时间标注完成。覆盖英语中最常见且歧义性最大的191个词(其中名词121个,;动词70个,平均12个义项)。这191个词各覆盖所有多义名词和动词出现的20%。
共计标注192 800词次(分别是Brown语料库的50个文件共7 119词次;WSJ的6个文件共14 139词次)。其中名词113000词次,动词79 800词次。每个多义词最多达1500个例句。其负责人估计标注的错误率大约在10~20%。随机抽取和Semcor中相同

词义标注语料库建设综述 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数16
  • 收藏数0 收藏
  • 顶次数0
  • 上传人w8888u
  • 文件大小46 KB
  • 时间2018-01-15