下载此文档

社交网络数据采集算法的设计(软件工程课程设计报告)...docx


文档分类:办公文档 | 页数:约26页 举报非法文档有奖
1/26
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/26 下载此文档
文档列表 文档介绍
软件工程课程设计
社交网络数据收集算法的设计
组号
第21组
组长
姓名:盖云东
学号:130104010049
组员
姓名:任志成
学号:130104010121
组员
姓名:马剑楠
学号:130104010004
组员
姓名:陈海涛
学号:130104010045
摘要
随着互联网的发展,人们正处于一个信息爆炸的时代。社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。一些社交平台如***、新浪微博、人人网等,允许用户申请平台数据的采集权限,并提供了相应的API 接口采集数据,通过注册社交平台、申请API授权、调用API 方法等流程获取社交信息数据。但社交平台采集权限的申请比较严格,申请成功后对于数据的采集也有限制。因此,本文采用网络爬虫的方式,利用社交账户模拟登录社交平台,访问社交平台的网页信息,并在爬虫任务执行完毕后,及时返回任务执行结果。相比于过去的信息匮乏,面对现阶段海量的信息数据,对信息的筛选和过滤成为了衡量一个系统好坏的重要指标。本文运用了爬虫和协同过滤算法对网络社交数据进行收集。
关键词:软件工程;社交网络;爬虫;协同过滤算法
目录
摘要 - 2 -
目录 - 3 -
课题研究的目的 - 1 -
课题研究背景 - 1 -
2 优先抓取策略--PageRank - 2 -
PageRank简介 - 2 -
PageRank流程 - 2 -
3 爬虫 - 4 -
爬虫介绍 - 4 -
- 4 -
工作流程 - 4 -
抓取策略介绍 - 5 -
工具介绍 - 6 -
Eclipse - 7 -
Python语言 - 7 -
BeautifulSoup - 7 -
实现 - 8 -
运行结果 - 9 -
4 算法部分 - 10 -
- 10 -
- 10 -
通过调用微博API接口获取用户微博数据 - 11 -
- 14 -
- 14 -
- 15 -
- 18 -
结论 - 22 -
参考文献 - 23 -
课题研究的目的
课题研究背景
互联网导致一种全新的人类社会组织和生存模式悄然走进我们,构建了一个超越地球空问之上的、巨大的群体——网络群体,21世纪的人类社会正在逐渐浮现出崭新的形态与特质,网络全球化时代的个人正在聚合为新的社会群体。随着社交网站的兴起,网络社交蓬勃发展,新的互联网热再次升温,有分析人士甚至说,网络社交将缔造人际交往的新模式。互联网的兴起打破了传统的社会交往方式,简单、快捷和无距离的社交体验推动社交网络快速发展,以Facebook、***、微博等为代表的应用吸引了大量活跃网络用户,社交网络信息呈现爆发式的增长。社交网络信息反映了用户的网络行为特征,通过对这些信息的研究,可以实现社会舆论监控、网络营销、股市预测等。社交网络信息的重要价值在于实时性,如何快速、准确、有效地获取目标信息非常重要。但社交网络属于Deep Web 的专有网络,信息量大、主题性强,传统搜索引擎无法索引这些Deep Web 页面,只有通过网站提供的查询接口或登录网站才能访问其信息,这增加了获取社交网络信息的难度。
目前国外有关社交网络数据采集模型的研究较少,对社交网络的研究主要集中在社会网络分析领域。国内社交网络平台的数据采集技术研究有一定成果,如文献提出并实现一种利用新浪微博应用程序接口(Application Programming Interface,API)和网络数据流相结合的方式采集数据,文献利用人人网开发平台提供的API 实现数据采集,并通过WebBrowser 和HttpFox 监测信息交互时的数据包,实现动态获取Ajax 页面信息等。
2 优先抓取策略--PageRank
PageRank简介
PageRank,即网页排名,又称网页级别、Google左侧排名或佩奇排名是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,自从Google在商业上获得空前的成功后,该算法也成为其他搜索引擎和学术界十分关注的计算模型。目前很多重要的链接分析算法都是在PageRank算法基础上衍生出来的。
PageRank流程
首先PageRank的计算充分利用了两个假设:数量假设和质量假设。步骤如下:

社交网络数据采集算法的设计(软件工程课程设计报告).. 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数26
  • 收藏数0 收藏
  • 顶次数0
  • 上传人s1188831
  • 文件大小373 KB
  • 时间2018-08-15
最近更新