下载此文档

基于半监督学习的命名实体识别的方法.doc


文档分类:办公文档 | 页数:约5页 举报非法文档有奖
1/5
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/5 下载此文档
文档列表 文档介绍
基于半监督学****的命名实体识别的方法
摘要:命名实体识别是信息抽取中基础且关键的一项子任务。本文根据不同领域文本的特性,设置了通用的特征模板,利用半监督学****的方法,对新闻文本和桥梁文本分别进行了命名实体识别。实验表明,仅使用少量基于半监督学****的命名实体识别的方法
摘要:命名实体识别是信息抽取中基础且关键的一项子任务。本文根据不同领域文本的特性,设置了通用的特征模板,利用半监督学****的方法,对新闻文本和桥梁文本分别进行了命名实体识别。实验表明,仅使用少量标注的语料也可以达到较好的识别效果。
关键词:命名实体识别;自学****方法;半监督学****br/> 中图分类号: 文献标识码:A 文章编号:1007-9416(2020)01-0207-02
命名实体识别概述
随着信息技术的发展,网络数据出现飞速增长的趋势,并呈现出多源异构等大数据特征。对其进行信息抽取,获得有效信息对于文本数据分析具有重要的研究意义。
命名实体识别是信息抽取过程中十分基础且关键的一项子任务。命名实体识别是指识别出文本中例如人名,地名,时间或组织名等具有特定意义的实体。
大多数命名实体识别的方法都是基于规则[1]的方法或基于监督学****2]的方法。其中基于规则的方法需要专业人员去设置规则模板,但是规则之间可能会出现冲突,且可移植性和扩展性差。基于监督学****的方法十分依靠大量的标注文本,在通常情况下标注文本是极难获取的,且使用人工标注的成本較大。因此,只需要少量标注语料的基于半监督学****的命名实体识别方法成为了领域内研究的热门。
2 研究现状
命名实体识别一直是自然语言处理领域研究的基础性问题,其本质可看作序列化数据标记问题[3]。
早期的命名实体方法是在限定文本领域、限定语义单元类型的条件下进行的,采用的是基于规则与词典的方法。Rau等人采用启发式算法与人工编写规则相结合的方法,首次实现了从文本中自动抽取公司名,但扩展性差,规则制定费时费力。
Wang等人采用有监督的统计学****方法,针对于临床医学的记录进行命名实体识别,利用大量的标注样本进行条件随机场模型(conditional random fields,CRF)的学****的成绩。
条件随机场是Lafferty等人于在隐马尔可夫模型(HMM)和最大熵模型(MEMM)的基础上提出的一种概率式判别模型。它可以充分结合观察序列中的多种特征信息,来克服HMM中严格的强独立性假设问题。以上的方法都需要大量的标注语料作为数据支撑,仅需少量语料的半监督学****方法[4]也取得一定成就。Jonnalagadda等人在医学领域采用了半监督CRF的方法对临床医学实体进行识别,并提出了分布式语义方法,%。Ke等人在少量标注语料的情况下, 结合大量的未标注语料,应用协同训练算法实现中文组织名的识别, 协同训练CRF模型和SVM模型,最终模型F值比单个模型F值高出10%。
设X与Y为随机变量,P(Y|X)是在给定X的条件下,Y的条件概率分布。设P(Y|X)为条件随机场,X取值为x的条件下,Y取值为y的条件概率如下公式:
自学****方法是有监督和无监督学****相结合的统计机器学****方法,其可通过大量未标注语料与

基于半监督学习的命名实体识别的方法 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数5
  • 收藏数0 收藏
  • 顶次数0
  • 上传人平儿
  • 文件大小15 KB
  • 时间2022-08-03