下载此文档

属性值抽取.ppt


文档分类:IT计算机 | 页数:约15页 举报非法文档有奖
1/15
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/15 下载此文档
文档列表 文档介绍
面向中文网络百科的属性和属性值抽取
汇报人:贾真
2013 . 11 . 18
实验分析
4
主要算法
3
方法概述
2
相关定义
1
报告内容
句子序列
句子序列是由一系列二元组组成的有序序列。
S=<(w1, t1), …, (wi, ti), …, (wn, tn)>,其中,wi表示词语,ti表示wi的词性标注或实体标注。
K元模式
由k个词语、词性标注或实体标注组成的有序序列
Pk=<x1, …, xi,…, xk> ,其中,xi表示词语、词性标注或实体标注。
置信度
词语(或短语)与命名实体标注之间的关联程度
相关定义
1
实验分析
4
主要算法
3
相关定义
1
方法概述
2
报告内容
对文本进行分词、分句等自然语言预处理
将属性值看做命名实体,通过频繁模式挖掘和关联分析获取属性
采用自扩展方法获取属性触发词
机制
文本预处理
属性抽取
触发词抽取
模式挖掘
利用触发词自动获取模式,基于聚类算法过滤可信度低的模式
属性值抽取
利用模式从文本中抽取属性值
方法概述
2
实验分析
4
相关定义
1
主要算法
3
方法概述
2
报告内容
算法1 k元模式提取算法
输入:k;句子序列集合Sset={S1, S2, ..., Sn};窗口W;词性POS集;命名实体标注集ENE;
输出:k元模式集合Pkset
算法2 词语语义相似度计算
输入:经过细粒度分词后的种子Seed={seg1, seg2, …segn} ;
同义词词典Syndictionary ;
输出:扩充种子集合Seedsynset
主要算法
3
算法3 触发词提取算法
输入:扩充种子词集合Seedsynset;属性值命名实体标注pos; k元模式集合Pkset与支持度计数;评分阈值min_score;相似度权重系数; 置信度权重系数β; 匹配系数γ; 位置系数δ
输出:属性触发词集合Trigger.
算法4 模式聚类算法
输入:候选模式集合Pattern;相似度阈值min_sim;簇中模式最小个数min_count;模式最小支持度计数min_supp
输出:聚类后得到的簇Cluster={cluster1, cluster2, …}
主要算法
3
主要算法
3
相关定义
1
实验分析
4
方法概述
2
报告内容
实验分析
4
六类
乡镇
工厂
行政村
大学
中小学
公司
约6万个百科条目
数据集
预处理工具
西南交通大学耶宝智慧中文分词平台

属性值抽取 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数15
  • 收藏数0 收藏
  • 顶次数0
  • 上传人maritime_4
  • 文件大小1.11 MB
  • 时间2018-08-10