下载此文档

中文文本中企业并购信息的自动抽取.ppt


文档分类:IT计算机 | 页数:约21页 举报非法文档有奖
1/21
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/21 下载此文档
文档列表 文档介绍
中文文本中企业并购信息的自动抽取
韩伟峰()

1
提纲
本文研究意义及任务
语料库的建设
企业并购典型表达模式分析
知识库的建设
本文研究的难点
2
一 本文的研究意义及任务
3
本文研究意义
信息抽取是自然语言处理的一个重要应用领域。
本文中所指的“并购”包括:收购、兼并和合并。
中文文本企业并购信息自动抽取的研究是信息抽取在经济和金融领域的探索实践和应用,具有重要的研究意义。
4
本文研究的任务
本文的研究目标是在研究分析大量相关语料基础上,人工加机器总结股权收购事件在句子或句群中的表述模式,并且基于HNC理论进行语义分析,建立实现抽取的模式知识库。
在模式的获取和表示方法上,我们侧重于语义知识的利用,借鉴HNC理论的概念和句类思想,并通过对语言形式和内容的细致考察来定义抽取模式。
5
本文研究的任务
抽取的信息拟包括:并购类型、主动方、被动方、并购金额、并购结果、并购性质等等。
抽取的信息也会因为并购类型不同增加
比如:合并——合并后的新企业名称
收购——收购内容(股权、资产)
兼并——产权转移
6
二 语料库的建设
7
语料库的收集整理
语料的选取与抽取任务结合
这里选择报道企业并购事件的新闻语料,排除一些评论性和分析性的语料。
充分利用语料研究企业并购信息表达
语料中总结提取出规则使用的模式是很重要的一步。
8
语料的收集与标注
语料的收集整理是本文研究很重要的前期准备。
语料来源: 中国并购网 关于并购的新闻报道。
制订语料标注规则
原则:程序自动提取信息所需要的知识
(因为识别不是本文研究范围,所以一些公司企业名、人名等需要先行标注)
9
标注范例
<T>北京时间10月27日</T>早间消息,据国外媒体报道,<Corp>北电</Corp>周一宣布,已经与<Corp>日立</Corp>达成合作协议,由日立出资<Mb>1000万美元</Mb>购买<Corp>北电</Corp>下一代分组核心网络部件业务。
10

中文文本中企业并购信息的自动抽取 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数21
  • 收藏数0 收藏
  • 顶次数0
  • 上传人sxlw2014
  • 文件大小58 KB
  • 时间2021-05-11