下载此文档

多源异构数据情境中学术知识图谱模型构建研究.doc


文档分类:医学/心理学 | 页数:约24页 举报非法文档有奖
1/24
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/24 下载此文档
文档列表 文档介绍
多源异构数据情境中学术知识图谱模型构建研究
摘 要:[目的/意义]随着大数据和人工智能技术的蓬勃发展,数据驱动的智慧学术研究以及基于学术大数据的知识发现受到产业界和学术界的广泛关注。学术知识图谱是学术信息挖掘和学术知识管理的基述事实具有很大偏向性,尤其是个性化智能搜索的需要。多种数据源语义统一表示技术研究受到业界的广泛关注。2012年,Google公司提出了Google知识图谱技术,并将其成功用于智能搜索领域[2]。随后,关于知识图谱的应用研究席卷各个领域。最为常见的应用就是借助维基百科构建知识图谱。因为维基百科是迄今为止依靠群体智慧所创建的最大互联网数据源,具有丰富的半结构化数据,且易于提取事实知识。比如,国外有名的知识图谱项目DBpedia[3]、YAGO[4]和Freebase[5]等通用知识图谱的数据来源都是维基百科。
相对而言,虽然国内有关知识图谱的研究起步较晚,但是在工业界和学术界也取得了不菲的成就。例如,在商业应用方面成功的案例就有百度公司研发的知识图谱“知心”和搜狗公司自主开发的知识图谱“知立方”。[6]。他们都是借助互动百科和百度百科所研发的大规模知识图谱项目。其中,XLORE知识图谱是以英文维基百科为载体,采用跨语言链接技术构建的融合中英文百科的双语言知识库。但是,这些依托互联网百科知识所构建的通用知识图谱数据来源多、知识覆盖面广,不能有效聚焦特定领域图谱构建和知识推理等应用研究。这是由于,通用图谱本身知识表示的粗粒度和语义表示的泛化性容易造成所构建的智能应用预测的准确性和客观性降低。尤其是在对准确性要求极高的学术领域,比如重大科研攻关项目研发团队的组建或者科研合作团队预期科研产出评估,都需要相当精确的领域知识图谱做智能应用的研究数据基础。因此,构建面向学术大数据的知识图谱是一个亟待解决的新问题。 另外,通过相关的文献梳理发现,国外的通用知识图谱的发展比较成熟,尤其是Google公司,其理论研究和商业应用都处于领先地位。相反,国内有关知识图谱的研究应用还尚不成熟,特别是学术领域知识图谱的构建研究。为此,本文聚焦学术领域知识图谱的构建研究,其意义主要体现在以下几方面:
1)有助于更加精确和合理地评估科研工作者个人和团队的科研贡献度,为重大课题攻关团队的选择提供可靠的决策指导。众所周知,科研实力是国家科技的生命线,重大攻关项目团队的组建是其能否顺利实现的根本保障。团队成员的筛选需要根据与项目主题相关研究者已有科研积累作参考进行决策。而决策能否有效实施,依赖于相关数据源的广泛性。通常,依托的相关数据源种类越多,其决策的准确度越高。毫无疑问,知识图谱是表征多源异构数据的最佳方式。
2)有助于更加科学地衡量科研工作者的科研成果,为荣誉评定和基金评估提供有价值的参考。这是由于知识图谱能够涵盖学术大数据中所涉及的各类实体、属性和关系,以三元组的形式将事实统一表征,并能够为科研工作者绩效评判和基金审核提供更为合理的知识参考。
3)有助于潜在合作伙伴的发掘和学术热点的探究,为智慧学术的发展奠定坚实的数据基础。学术知识图谱是海量学术大数据的语义抽取,是多源异构的学术数据的融合表示,是对学术大数据以三元组表示事实的精准刻画。通过知识图谱,可以借助复杂网络的相关技术与方法对学术大数据进行更为高效的价值发掘,尤其是学术伙伴的预测与研究趋势的预判。
综上,本文以多源异构学术大数据为数据源,从数据的获取、数据分类、学术实体识别、学术实体间关联关系发现、学术知识图谱本体构建以及学术知识图谱表示与存储等核心问题入手,将多源异构数据融合的理念引入智慧学术领域中学术图谱的构建,提出学术大数据领域知识图谱构建的理论模型。然后,系统阐述多源异构数据情景中学术知识图谱的模型构建流程,以及图谱构建过程中关键技术问题(如实体识别、关系抽取、知识融合等)的解决方法,并建立学术知识图谱的本体模型,以解决单一数据源构建学术知识图谱时存在的信息表示不全、语义匮乏的问题。本研究旨在为学术知识图谱的理论研究和工程应用提供方法借鉴,从而为智慧学术决策提供可靠的数据保障。以进一步提高多源异构数据条件下,构建学术领域主题知识图谱的科学性与准确性。
1 知识图谱概述
知识图谱[7]是一种图数据,它具有大规模、多语义和高质量等特点,能够通过其独有的三元组数据表示结构完成现实世界中事实的抽取。下面从知识图谱的定义和架构对其进行简要描述。
知识图谱定义
知识图谱(Knowledge Graph,KG)从本质上讲,是一种用图结构表示数据的形式,由万维网发明人蒂姆·伯纳斯-

多源异构数据情境中学术知识图谱模型构建研究 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数24
  • 收藏数0 收藏
  • 顶次数0
  • 上传人琪官
  • 文件大小25 KB
  • 时间2022-05-17