下载此文档

国家重点基础研究发展计划.doc


文档分类:行业资料 | 页数:约38页 举报非法文档有奖
1/38
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/38 下载此文档
文档列表 文档介绍
国家重点基础研究发展计划(973计划)课题年度总结报告项目名称:面向公共安全的社会感知数据处理课题编号:2012CB316303课题名称:《国家重点基础研究发展计划(973计划)课题任务书》,本课题的2012年度的研究工作主要围绕四个方面来开展,即网络空间社会感知数据的主动获取,网络空间突发事件发现与演化分析,跨媒体网络数据的倾向性分析,以及网络空间的复杂群体关系挖掘。为此,课题组从以下九个角度开展了深入的研究,并取得了优异的阶段性成果:网络空间社会感知数据的主动获取。基于组合验证的Web页面抽取算法研究可扩展的网页关键信息抽取研究网络信息的关联挖掘研究基于网络信息的问答系统研究网络实体信息挖掘研究(2)网络空间突发事件发现与演化分析。基于吸收马尔可夫链的子话题发现方法个性化话题检测应用研究分布式环境中话题过滤与排序研究基于多层分类器的论坛垃圾话题过滤算法跨媒体网络数据的倾向性分析。文本倾向性分析在网络观点信息挖掘与分析方面的进展网络空间的复杂群体关系挖掘。异质网络的多尺度社区结构分析复杂网络演化特征分析和演化机制探索股票交易网络中的异常检测基于推荐的后效应的社会影响力探索就具体研究成果来说,2012年度本课题组共计发表(或已被接受)文章57篇,包括期刊文章16篇,会议文章41篇,其中在ACMWSDM,ACMCIKM,NIPS,PlosOne,munications,EurophysicsLetters,PhysicalReviewE,PhysicaA等国际顶尖或著名期刊或会议上发表文章20余篇,在《计算机学报》、《仿真系统学报》、《中文信息学报》等国内顶级期刊发表文章6篇。、论坛、博客、微博、社交网络等多通道网络信息的主动采集技术,解决实时采集、增量更新以及访问控制等问题;研究JavaScript、AJAX等DeepWeb动态网页的采集与解析还原技术;研究基于网络资源内在特性与人工规则相结合的网页结构化特征抽取技术,尽量减少甚至避免人工参与工作量;研究面向海量多通道网络信息的分布式、可扩展的高性能获取体系架构,既要保持不同通道的数据流、控制流的一致性和统一管理,又能够根据各通道的特点分别采取针对性的采集和萃取技术。,涌现出了许多针对Web信息抽取的优秀算法。这些算法各有各的优缺点,但他们实质上都是人们对页面理解的一种抽象和公式化。一个抽取算法便可以看作是一条经验规则,即人们对页面结构与内容之间关联的一种理解。而单独应用这些算法的效果就如同只通过单个经验规则来判断页面内容一样,在特定结构的页面上抽取效果很好,而一旦页面结构发生变更就会失效。因此只有将不同的抽取算法利用算法集合的方式综合进行使用,使得其对页面结构的适应性增强,从而提高最终抽取的效果,更符合人们对Web页面的理解方式。基于以上想法,我们通过研究抽取算法的本质,以及抽取算法之间的关系,对抽取算法的互补性进行分析,提出了一种通用的多算法组合验证机制,所谓算法的组合验证,就是用多种算法对同一篇网页进行抽取得到许多结果,然后利用这些结果之间的异同对算法的正确性进行验证。该机制能够检测出抽取算法的错误,并可以通过结合动态阈值调整的方法,提高抽取算法的抽取准确率。阈值调整的目的是在算法组合验证失败的时候,对算法进行一些调整,使之获得“更正确”的结果。实验中我们选取了针对多记录型网页进行抽取的四个自动化算法组成算法集合,并对具有代表性的几个论坛中的几百个页面进行了抽取。抽取目标是所有回复作者的作者名,这是进行一般舆情监测和进行人人关系分析的重要数据。实验中的算法集合共由四个简单的算法组成,主要为了说明组合验证的机制和效果。这几个算法分别基于DOM树,视觉信息,字符串等信息,通过不同手段对多记录网页的回复作者信息进行了抽取。我们为了对比,首先列出单独使用这些算法对文章进行抽取所得到的结果的准确率,其结果如表-1所示。表-..AverageIRA-DOM82%42%50%87%%IRA-VISUAL82%72%51%71%%IRA-CSS81%N/AN/AN/%IRA-LINK81%100%100%N/%为了让试验结果更具有说明性,我们将这四个算法通过几种不同的组合构成若干算法集合并用来进行抽取,并统计其准确率。其中包括包含所有算法的算法集合GA: G1=IRA-DOM,IRA-VISUAL G2=IRA-DOM,IRA-VISUAL,

国家重点基础研究发展计划 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数38
  • 收藏数0 收藏
  • 顶次数0
  • 上传人kunpengchaoyue
  • 文件大小2.01 MB
  • 时间2019-02-09