敝储虢舡日期:型:堕乞苏州大学学位论文独创性声明进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文州大学或其它教育机构的学位证书而使用过的材料。对本文的研究作外人郑重声明:提交的学位论文是彳嗽诘际Φ闹傅枷拢懒萜渌鋈嘶蚣逡丫⒈砘蜃垂难芯砍晒膊缓;竦盟出重要贡献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律责任。
一:遄盟厂日期:——年一月解密后适用本规定。苏州大学学位论文使用授权声明本人完全了解苏州大学关于收集、保存和使用学位论文的规定,即:学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸质论文的内容相一致。苏州大学有权向国家图书馆、中国社科院文献信息情报中心、中国科学技术信息研究所蚍绞莸缱映霭嫔、中国学术期干馀贪电子杂志社送交本学位论文的复印件和电子文档,允许论文被查阅和借阅,可以采用影印、缩印或其他复制手段保存和汇编学位论文,可以将学位论文的全部或部分内容编入有关数据库进行检索。本学位论文属非涉密论文口论文作者签导师签涉密论文口
莩槿∮胗镆灞曜⒀芯特定领域的中文摘要随着技术的飞速发展,隐藏在筇ㄊ菘庵械男畔⒆试匆蛭F涫量大、结构完整受到了广泛关注,这些信息资源通常是由用户在檠趁嫣峤查询请求后,以页面为中介展示给用户的。学者们通常将这些信息资源称之为资源。为了最大程度的利用这些资源,需要通过各种技术手段将网页中的无结构或者半结构化信息抽取出来。同时为了使抽取到的信息具有更高的使用价值,应该对这些数据进行语义标注,使其能够被机器所理解。本文对特定领域的的数据抽取与语义标注进行了研究,将节点的类型信息引入到数据记录的抽取中来,并基于本体实现了语义标注,最后结合自身参与的项目设计了一个原型系统。本文的研究工作主要包括以下几点:简要概述了信息抽取的发展历史、评价标准和所涉及的相关技术,并对现有的信息抽取方法进行了深入的分析。结合峁趁孀陨淼奶氐悖靡趁娌季值氖泳跆卣骱湍谌萏卣鳎提出了一种利用标签过滤器、视觉特征过滤器、内容规则过滤器的页面净化方法。实验结果表明,该方法可以有效提高后续数据抽取的效率与精度。提出一种基于节点类型的数据记录抽取方法,该方法首先将标签节点分为块、样式、文本、图片四种类型,并对每一种类型赋予一个权值,其次根据不同的节点类型来计算结果页面数据记录中各属性节点的熵值,最后通过此熵值来确定代表数据记录的节点,实现数据记录节点的抽取。与其他方法相比,该方法具有更高的效率。将领域本体作为菘馑裱娜ň帜J剑ü,从而实现数据的语义标注功能。实验结果表明该方法具有一定的优越性。在上述研究的基础上设计了一个面向生物医药领域的信息集成平台。关键词:畔⒓桑尘换莩槿。镆灞曜作者:杨舟指导老师:崔志明淌
’甅,.、,,.甌..,..瑃,
.,,:.
录目第乱浴璴研究背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.国内外的研究动态⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯研究难点⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯论文的结构安排⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第耊信息抽取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.畔⒊槿〉姆⒄估贰畔⒊槿》椒ǖ姆掷唷畔⒊槿∠喙丶际踅樯堋、介绍⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。⒊槿∑兰郾曜肌甧畔⒊槿〗峁钠兰邸畔⒊槿⌒阅艿钠兰邸本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..第翫峁趁媸菁锹汲槿相关概念定义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯》》∷惴ㄊ笛榻峁胺治觥第禄诹煊虮咎宓氖菹畛槿〖坝镆灞曜ⅰ问题描述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。.菹畛槿∮胗镆灞曜⒌墓叵怠论文主要研究内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯实验⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..
.<挠镆灞曜⒎椒ㄓ肴毕荨本体知识概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..领域本体的构建⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..本体与接/结果模式的映射⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯实验结果及分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯
特定领域的Deep Web数据抽取与语义标注研究 来自淘豆网www.taodocs.com转载请标明出处.