下载此文档

领域文本信息抽取中的短语相似度计算方法.doc


文档分类:IT计算机 | 页数:约8页 举报非法文档有奖
1/8
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/8 下载此文档
文档列表 文档介绍
领域文本信息抽取中的短语相似度计算方法.doc领域文本信息抽取中的短语相似度计算方法摘要:随着信息化的深入发展,各应用领域积累了大量采用半结构化方式记录的文本数据。为了快速有效地从大规模面向领域的半结构化文本中抽取有用信息,信息抽取技术应运而生。文本信息抽取的核心算法之一是计算词或短语的相似度,针对面向领域的半结构化文本中的中文短语相似度计算,先采用模式匹配算法从原始半结构化文本中抽取中文短语,然后结合领域语义依存关系,对基于公共子串的短语相似度计算方法进行改进,以此提高短语相似度计算的可靠性。实验结果表明,所提算法具有较好的计算效果。关键词:领域半结构化文本;公共子串;依存关系(DOI)DOI::TP301文献标识码:A(文章编号)文章编号:16727800(2017)0040006030引言在信息爆炸的今天,各大领域都产生了大规模的半结构化文本。在医疗领域,产生了大量的电子病历文本[1];在司法领域,产生了大量的审判案件法律文书。对领域文本进行高效地信息抽取,是实现文本数据结构化和领域数据分析的基础,而短语相似度计算又是进行正确信息抽取的前提。通常,由于缺乏背景知识,直接从面向领域的半结构文本中抽取的短语不够准确,难以与领域知识相对应。一种可能的方法是从领域知识库中查找与抽取短语相似的短语来提高信息抽取的准确性。由此,需要高效地计算从文本中抽取出的短语与领域知识库中的短语相似度。迄今为止,短语相似度的计算已应用于诸多方面,例如文本聚类[2]、文本检索[3]和机器翻译[4]等。在司法领域,为了对大量案件进行有效的数据分析,首先需要对审判案件的法律文书进行信息抽取,形成结构化数据。在针对法律文书(如判决书)抽取的大量数据项中,有一类数据项是由一组连续词语组成的短语,例如,针对“案由”这个数据项,在判决书中可能会抽取到“贩卖毒品罪”,而这一短语在面向司法领域的知识库(取自我国《刑法》)中的对应短语是“走私、贩卖、运输、制造毒品罪”,两者之间不完全相同,但相比其它短语则更加相似。研发出高效计算文本中抽取出的短语与领域知识库中短语的相似度计算方法,有助于提高领域信息抽取的准确度和抽取效率。〖ST〗〖WT〗与领域相关的中文短语抽取是面向领域的半结构化文本信息抽取的重要任务之一。抽取出的短语以结构化的形式进行存储,为后期的数据分析服务。在短语抽取中,先使用基于模式匹配的结构化信息抽取方法[5],从面向领域的半结构化文本中抽取中文短语。下面以实现来说明该算法的执行过程。例如,对短语“指控被告人王某犯贩卖毒品罪一案”,首先进行分词,然后选取案件案由的抽取模式(见图1)对分词序列进行模式匹配得到目标短语。其中,keyword、itemword、objphrase分别表示关键词、普通词和目标短语。通过增加关键词同义词的方式对案件案由的抽取模式进行优化,这样该算法就可以克服传统模式的不足,准确地匹配包括同义词在内的短语表达。,书写过程中会出现书写不规范的情况。例如使用上节阐述的算法从法律文书中抽取的案件案由为“贩卖毒品罪”,而这一短语在面向司法领域的知识库(取自我国《刑法》)中的对应短语是“走私、贩卖、运输、制造毒品罪”。所以需要构建领域知识库,从知识库中选取与抽取短语相

领域文本信息抽取中的短语相似度计算方法 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数8
  • 收藏数0 收藏
  • 顶次数0
  • 上传人jactupq736
  • 文件大小30 KB
  • 时间2019-05-19