下载此文档

Web页面链接文本信息抽取与分类的研究.pdf


文档分类:IT计算机 | 页数:约67页 举报非法文档有奖
1/67
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/67 下载此文档
文档列表 文档介绍
哈尔滨工业大学硕士学位论文 Web页面链接文本信息抽取与分类的研究姓名:林建方申请学位级别:硕士专业:计算机科学与技术指导教师:于浩 20050601 堕丝堡三些查兰三耋堡圭兰堡丝圣摘要近年来,随着渐成为数据挖掘、人工智能和信息检索领域的一个研究热点。Web结构挖掘作为挖掘3大分支之一,越来越受到广大研究机构和科研团体的重视。目前大多数研究都主要关注于对整个或局部互联网的超链接拓扑结构的分析, 如著名的PageRank算法、HITS算法等等。本文则从另~个角度来分析和利用超链接信息,即利用对链接文本和标题、所指向网页内容分析来对该链接文本(亦即对链接所指向的网页)进行分类并进行错标、漏标识别。本文首要工作是提出网页中的链接文本与相关链接。并过滤掉无用的导航、广告等无用链接。为此,本论文分别针对链接文本和相关链接提出不同的准确高效算法策略。对链接文本、相关链接分类涉及到关键词表的建立、未登陆词识别、与标题的相关度计算、特征旬的提取还有分类体系的建立和链接漏标、错标识别。针对中文网页的特点和网页分析过程中的对特征词分类的要求,,可以更有效的提取关键词表。对于未登录词的识别,虽然采用传统的方法已取得较好的效果, 但是它们需要大量的源信息且时间复杂性较高,不适合本课题的需求。因此,通过对一些常见未登录词的观察和统计,本文提出可以从词的结构特点和特征词之间的二元关系两个方面来辅助识别未登录词,并取得了较好的实验效果。链接与标题之间的相关度我们用向量空间模型表示。仅仅利用链接文本和所指向页面的URL对网页进行分类是不够的,本文通过实验结果表明所找到的特征旬和扶句子中提取出的信息雏够大大的补充仅仅分析网页标题和链接标题的不足。通过特征词表和特征句表示等信息,我们可将页面中错标的链接找出、并标出常用的但在页面中漏标的链接。在特征诃表建立和特征信息表示中,本文引入等价、从属和同属关系将其表示成统一的格式,其通用性、可扩展性都大大提高。由于Web信息量巨大,信息内容涉及范围非常广泛,因此实现非受限领域的链接分类是非常困难的,所以本文专注于IT领域以及与IT领域相关的新闻网页。在本链接文本分类系统对上面的算法进行了测试。结果表明本文提出的方法所需的源信息较少且时空开销小,可应用性很强,以此为例最终所得出的方法和算法同样适用于其他领域。只需根据各个应用领域的特色修正关键词词典即可实现算法通用。哈尔滨工业大学工学硕士学位论文关键词信息抽取;HTML标记;链接文本:特征词堕玺鎏三些查兰三兰塑圭兰堡鎏圣 Abstract Recent therapiddevelopment oft growth of the amount mining has e a research focus of Data mining,Artificial intelligence and Information retrieval one ofthe three branches structure isattracting more and more attention by research institution and most researches about hyperlinks focus on thelinkage topology structure ofthe whole or part ofWWW. forexample thefamous PageRank algorithm and HITS this thesis we utilizethehyperlinks from adifferent way:classify alinkand itspage by analyzing thelink’S anchor textandthewebpage’S content we also find outthemistaking markand supplement theleaking mark. The firstwork of thepaper is toretrievetheanchor textand relativelinksin thewebpage,filtering thenavigation bars oradvertisement hyperlinks anduseless ,thepaper introducing differenthigh-efficient algorithms forancho

Web页面链接文本信息抽取与分类的研究 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数67
  • 收藏数0 收藏
  • 顶次数0
  • 上传人jllzaxwb
  • 文件大小2.15 MB
  • 时间2016-09-03