下载此文档

storm及交通实时数据处理.ppt


文档分类:IT计算机 | 页数:约29页 举报非法文档有奖
1/29
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/29 下载此文档
文档列表 文档介绍
:大数据的产生GBTBPBEBZB数据量的增长:在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011年,。有市场研究机构预测(2009年):到2020年,整个世界的数据总量将会增长44倍,(1ZB=10亿TB)!1GB=2^30字节1TB=2^40字节1PB=2^50字节1EB=2^60字节1ZB=2^:大数据处理模式主要的处理模式可以分为流处理(streamprocessing)和批处理(batchprocessing)两种。批处理是先存储后处理(store-process),而流处理则是直接处理(straight-throughprocess)。(有时也分为在线、离线、近线三种):多种数据处理技术的出现过去的十年是数据处理变革的十年,MapReduce、Hadoop以及一些相关的技术使得我们能处理的数据量比以前要大得多得多。但是这些数据处理技术都不是实时的系统—它们设计的目的也不是为了实时计算。然而大规模的实时数据处理已经越来越成为一种业务需求了,而缺少一个“实时版本的hadoop”已经成为数据处理整个生态系统的一个巨大缺失。Storm填补了这个缺失。Storm出现之前,需要自己手动维护一个由消息队列(Queues)和消息处理者(Workers)所组成的实时处理网络,消息处理者从消息队列取出一个消息进行处理,更新数据库,发送消息给其它队列进行进一步处理,但是这种计算方式的局限性太大:复杂、不健壮且扩展性差。.大数据实时流计算系统(一)Yahoo的S4S4是一个通用的、分布式的、可扩展的、分区容错的、可插拔的流式系统,Yahoo!开发S4系统,主要是为了解决:搜索广告的展现、处理用户的点击反馈。在流式处理领域里,Storm的直接对手是S4。不过,S4冷淡的社区、半成品的代码,在实际商用方面输给Storm不止一条街。.大数据实时流计算系统(二)Facebook的PumaFacebook使用puma和Hbase相结合来处理实时数据,使批处理计算平台具备一定实时计算能力。不过这不算是一个开源的产品。只是内部使用。相关论文:ApacheHadoopGoesRealtimeatFacebook。.WhyStorm?Storm:“Hadoopofrealtime”、Distributedandfault-putationStorm定义了一批实时计算的原语。如同hadoop大大简化了并行批量数据处理,storm的这些原语大大简化了并行实时数据处理。storm的一些关键特性如下: 分布式系统/运维简单/高度容错/无数据丢失/支持多种编程语言…….Storm发展现状最新版本:,全球共有29名代码贡献者。(12年)很多公司在使用Storm,这些公司中不乏淘宝,百度,***,Groupon,雅虎等重量级公司。.:物理的Storm集群主要由一个主节点(masternode)和一群工作节点(workernodes)组成,通过Zookeeper集群进行协调。主节点通常运行一个后台程序——Nimbus,用于响应分布在集群中的节点,分配任务和监测故障。工作节点同样会运行一个后台程序——Supervisor,用于收听工作指派并基于要求运行工作进程。每个工作节点都是topology中一个子集的实现。.

storm及交通实时数据处理 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数29
  • 收藏数0 收藏
  • 顶次数0
  • 上传人相惜
  • 文件大小661 KB
  • 时间2020-05-11