下载此文档

加强网络管理 构建新型网络舆情系统.pdf.pdf


文档分类:IT计算机 | 页数:约2页 举报非法文档有奖
1/2
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/2 下载此文档
文档列表 文档介绍
.
数可能根据站点的不同而改变。用同样的方法求出任务分片编号的哈希分布非常不均匀。
根据上一步提取出的,可值,并映射到圆上。然后从数据映射到因此,在算法实现的时候,还需
以根据配置文件提取出该主题相对应的位置开始顺时针查找,将数据保存到要加入虚拟节点的思想。所谓虚拟节
的帖子具体内容。找到的第一个服务器上。如果超过点就是为每个物理节点服务器在
可以根据配置文件匹配不同的仍然找不到爬虫节点,就会保存到第一上分配~个点。当
,实现通用性。台爬虫节上。图显示的是台爬虫爬虫点在环上的映射多了~倍,
有一定容错性,当某个信息不能节,个任务分片的分配情况。这样就能抑制分布不均匀, 使得爬虫
提取出来的时候,类中相应属性留空. 间负载尽量相等,同时最大限度地减小
该系统实现信息提取功能,需要网服务器增减时的任务分片重新分布。
页的源文内容作为字符串输入,同时还
敏感信息扩散跟踪
须指定所需的配置文件。输出自定义的
主题类链表,主题类中包含所需信息。本系统提出了特色的舆隋追踪方法,
通过散点图,横纵坐标分别标记敏感话
系统首先使用包将网图一致性算法示意图
页源文件建立成树,然后根据简单来说一致性就是将爬虫题语料出现的时间以及此语料与敏感词
配置文件中的—字段递归寻节和任务分片映射到一个环上,任务的相关性,以散点的方式在图表上显示
找到主题所在的上一级节点,再根据分片顺时针找到的第一个爬虫节点就是最先出现敏感词的前个话题,并在点

—字段识别出特定的包含主负责执行该任务分片的爬虫。这个算法上显示包含敏感词的语料出现的主机名,
题信息的廿,对于每一个找到的主题的实现也很简单明了, 为用户提供舆情追踪的有效信息。
节,利用—字段中的参如果需要添加一台爬虫节,我们
总结
数来读取子节点中的信息并填到主题类知道取模法会造成分配结果的巨大变化
中去。当主题全部提取完后,因为某些而影响到系统性能。但是一致性针对趋复杂的网络环境,本系统
论坛的回复数,点击数可能不分开,需算法没有这个问题,只有在实现了基于敏感词汇的检索分析来监控
要根据—字段分离。该页所有上增加服务器的地点逆时针方向的第一网络,及时发现最新的舆论信息,保障
主题提取完成后,按照类中的贴子页台爬虫节点的任务分片会受到影响。网络信息的安全。系统整体架构采用的
读取贴子具体内容,填人主题类中。是数据耦合的松散分布式结构,通过
采用多通道多任务技术,以及敏感信息
多任务技术
的扩散跟踪技术,大大提高了舆情的完
考虑到传统网页抓取的局限,我们整性和及时性。责编程斌
考虑可以在容忍一定的网页缺失以及容
参考文献:
忍一定的网页重复抓取的前提下,将不图添加爬虫节点示意图

从图中可以看出,只有三个任
:中国博士学位论文全文数据库,
为若干较小规模的任务子集,并将子集务分片收到了影响,从迁移到了.
【】

加强网络管理 构建新型网络舆情系统.pdf 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数2
  • 收藏数0 收藏
  • 顶次数0
  • 上传人tiros009
  • 文件大小0 KB
  • 时间2015-03-17