WEB文本信息抽取和分类的研究.pdf


文档分类:IT计算机 | 页数:约103页 举报非法文档有奖
1/103
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/103
文档列表 文档介绍
摘要文本分类可以有效的解决上述问题,它起源于��际�自动文本分类技术��是��谋就诰虻墓丶�槌刹糠郑籛�文本分类可以提高用户进行网上信息搜索的效率,可以对搜索结果进行分门别类,帮助用户快速的对目标知识进研究了基于视觉的��谋境槿『突�谥С窒蛄炕�亩嗖愦挝谋痉掷喾椒ǎ�较准确、分类方法有较高的准确度和运行效率。关键词:网路蜘蛛信息抽取文本分类支持向量机分类搜索引擎伴随着����姆伤俜⒄梗琖�上出现了海量的、异构的、半结构化的、动态的信息资源,并且在这些��畔⒅杏��ヒ陨系男畔⑹且訵�文本的形式存在的。如何从这些浩如烟海的��畔⒆试粗醒罢也⒒袢∮屑�值的信息和知识模式,已经成为信息处理领域的一个亟待解决的问题。��行定位,并且能够从中抽取有价值的知识。本文首先介绍了文本自动分类的主要方法,分析了��牡档奶氐悖�提出了��谋咀远�掷嗨�Q芯康牧礁黾际醪忝妫盒畔⒊槿『臀谋痉掷啵�并进行了��谋咀远�掷喙ぞ叩淖芴迳杓疲��饕0�ㄍ�巢杉�⑿畔�抽取、文本预处理和文本分类等功能模块,在以上研究的基础上最后提出了分类搜索引擎的设计。最后通过本文所设计的��谋咀远�杉�头掷嘞低辰岷蟂����对本文所提出的理论方法进行了实验,实验表明信息抽取比�����
,�������������:���;�������������瑃����瓵���������������琣������琣���甒���������������;�������,����,��—�����������.�����.����,����.�������琱������瑆�����琤��������,�������:���������,����.��,�������;��
必�五发互.����.:立�唬��B�创新点声明�妒��多层逡蚤�燕查分类簋法�基王诅复敦果鳆一№基曼塞奎地取篡鎏本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果:尽我所知,到目前国内外文献未见报道。作者:
髀���课题研究的目的和意义辽主王猩拉丕太堂亟±堂僮途塞个,比上年增长��甇%,平均每个网站的网页数为��个;全国网页总字节数以所有网站为基数,全国平均每个网站拥有���鲈谙呤�菘狻������,对于��系囊熘省⒎墙峁够�畔ⅲ�⒉荒苤苯佑τ�数据挖掘的技术。为了解决这个问题,人们将传统的数据挖掘技术跟��际���谋就诰騕�就是从��牡岛蚖�活动中发现、抽取感兴趣的潜在的可以帮助用户节约搜索时间,提高��牡档睦�眉壑档取��文本挖掘可以����上的信息浩如烟海,信息爆炸时代己经到来。第四次中国互联网络信息资源数量调查报告【�磕谌菹允窘刂����月:全国网页总数约为�亿约为�����壬夏暝龀��.�ィ�骄�扛鐾�匙纸谑�����。全国在线数据库约为�.�蚋觯挥涤性谙呤�菘獾耐�臼�嘉���万,占全部网站的�.�ィ灰杂涤性谙呤�菘獾耐�疚;���ü�骄�扛鐾�居涤�.�鍪�菘猓�为了从海量数据中发现有效、新颖、潜在有用、可最终理解的模式,数据库领域弓�肓耸�萃诰�������拧5�牵��萃诰虻闹饕6韵笫墙峁够�氖�据仓库���相结合形成了现在的��诰蚣际酢�】,��诰蜃魑R桓鼍哂刑粽叫缘男驴翁�被提了出来,并得到了业界人士的广泛关注。另外研究发现,在海量的���息资源中,有�%以上的信息是以文本的形式存在的,因此隶属于��谌萃�掘的��谋就诰蛳缘糜任V匾!�有用模式和隐藏的信息的过程。��谋就诰蚝屯ǔ5钠矫嫖谋就诰蛴欣嗨浦�处,但是,��牡抵械谋昙歉�牡堤峁┝硕钔獾男畔ⅲ�梢越璐颂岣遅�文本挖掘的性能,��谋就诰蚴俏谋就诰虻闹饕Q芯磕谌荨��文本挖掘对我们充分利用��试春苡邪镏��梢允褂没П冉献既氛业叫枰5淖柿希煌�被�对��牡导�系哪谌萁�凶芙帷⒎掷唷⒕劾唷⒐亓7治鲆约扒魇圃げ獾取�网页自动分类也称为在线文档分类�������������ü��������
研究现状��.�谋咀远�掷嗟难芯肯肿�辽主王猩撞苤太堂亟±堂僮途塞网页化归为特征最接近的一类并赋予相应类别。传统上,网页分类是由入来完成度,由专业人员手工对网页进行分类,很明显,这需要大量的人力资源。随着网的�甈.��在自动分类领域进行了开创性的研究。��年,���贘����析被分类网页的特征,并与各类别中网页所具有的共同特征进行比较,将被分类的,即人在分析了网页的内容后,给它一个比较合适的类别。如���,������,�����人阉饕�嫖A朔奖阌没Ф孕畔⒌牟檎液吞岣咚阉魉�页信息的快速增长,特别是����细髦中畔⒌难杆僭黾樱�隹咳斯さ姆绞嚼�处理是不切实际的。同时,由于分类可以在较大程度上解决目前网上信息杂乱的现象,并方便用户准确地定位所需信息,因此,网页自动分类已成为一项具有较大实用价值

WEB文本信息抽取和分类的研究 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数103
  • 收藏数0 收藏
  • 顶次数0
  • 上传人313327417
  • 文件大小0 KB
  • 时间2015-05-18