下载此文档

基于用户访问行为分析的网站分类研究.pdf


文档分类:IT计算机 | 页数:约66页 举报非法文档有奖
1/66
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/66 下载此文档
文档列表 文档介绍
摘要随着和难该头⒄梗镜氖恳苍嚼丛蕉啵彝景了海量的、异构的、动态的信息资源,利用数据挖掘中的分类技术对这些网站进行组织归纳,从而有效地管理资源、改善网站服务满足用户需求,已日益成为一个重要的研究课题。目前的网站分类研究是以文本分类为基础的,需要分析网页内容,且以单个网页为处理对象,计算量大,不适合处理大规模流数据。另一方面,网站正从“以站点为中心”朝着“以用户为中心’’的方向发展,而这种基于文本的分类方法从网页的静态内容出发,分类结果不能体现用户的行为特点。针对传统的基于内容的网站分类方法存在的问题,本文提出了一种基于用户访问行为分析的网站分类方法,该方法把具有相同白旱耐车募即骰嗤耐作为一个处理对象,降低了数据规模;其次采集河南省教育科研计算机网真实的协议业务流数据作为分析对象,从用户对网站的访问行为中提取用于网站分类的特征,不需要逐个分析网页内容;最后针对省级区域性网络数据规模大的特点,采用可伸缩性决策树归纳算法,从河南省教育科研计算机网用户访问的网站中提取出新闻类网站、资源共享类网站和通讯类网站。与传统的网站分类方法相比,本文提出的方法更适合处理大规模数据,且得到的分类结果包含了用户的潜在行为模式,更能反映用户的兴趣趋向和行为规律,从而使网管人员有针对性的优化网络,满足用户对主流应用的需求。关键词:用户行为分析,数据流,网站分类,决策树摘要
輙,甌,,.眞—眛””,鷆..瓼.,瓼瑀,.,,甎,...痶篣,;。
图索引图数据采集框架⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。图诰蚍掷嗤肌谋就诰蛞话愎獭谋痉掷喙ぷ鞴獭图谟没Х梦市形7治龅耐痉掷喙獭协议工作过程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯请求报文示例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图用户识别算法伪代码⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图相似喜⑺惴ㄎ贝搿图确定分裂子集⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。图罴鸦值闼惴ㄎ贝搿图抽样阶段之雏形树⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图假定抽样阶段成立下的最终树示意图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图原始数据包示例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图提取所需信息示例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图时间轴数据统计示例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。图主机名轴访问量统计示例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图稍北浠客臣菩畔ⅰ图用户访问行为指标平均值⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图索弓
表索引表几种决策树算法的比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表数据采集内容及方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..表预处理后符号说明⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..表网络应用使用率排名⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..表网站类别相关参数⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..表构建的决策树相关参数⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..表第三组决策树分类器应用示例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表索弓
魂髻音学位论文作者:贾智蔼日期:工妒甓嘣屡H日期:力护甓嘣挛缛学位论文使用授权声明原创性声明体已经发表或撰写过的科研成果。对本文的研究做出重要贡献的个人和集体,均本人在导师指导下完成的论文及相关的职务作品,知识产权归属郑州大学。保密论文在解密后应遵守此规定。本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集已在文中以明确方式标明。本声明的法律责任由本人承担。学位论文作者:根据郑州大学有关保留、使用学位论文的规定,同意学校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅:本人授权郑州大学可以将本学位论文的全部或部分编入有关数据库进行检索,可以采用影印、缩印或者其他复制手段保存论文和汇编本学位论文。本人离校后发表、使用学位论文或与该学位论文直接相关的学术论文或成果时,第一署名单位仍然为郑州大学。
第引言研究背景和意义已成为人们获取信息的主要手段,;其应用遍布科研、教育、商业、金融、军事等息,它可以在较大程度上解决目前网上信息杂乱无章的现象,从而使用户有依据进性是不够的,还必须充分考虑用户的感受,尤其对于网站这种交互式产品,只随着信息技术的迅速发展,特别是及τ玫钠占埃劳各个领域。但是随着网站数量和畔⒆试闯时ㄐ缘脑龀ぃ嗣谴又凶确、充分、快速地找到有用的信息却越来越难。尽管搜索引擎的出现有效地减轻了人们从海量的信息资源中寻找有价值信息的负担,但是面对海量的信息资源,搜索引擎查准率低、信息更新慢、维护工作量大等缺点逐渐暴露出来。更为重要的是,搜索引擎的智能化水平低,它只

基于用户访问行为分析的网站分类研究 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数66
  • 收藏数0 收藏
  • 顶次数0
  • 上传人ranfand
  • 文件大小3.28 MB
  • 时间2021-06-30