下载此文档

基于Storm的实时大数据处理.doc


文档分类:IT计算机 | 页数:约9页 举报非法文档有奖
1/9
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/9 下载此文档
文档列表 文档介绍
基于Storm的实时大数据处理.doc:..基于Storm的实时大数据处理摘要:随着互联网的发展,需求也在不断地改变,基于互联网的营销业务生命周期越來越短,业务发展变化越来越快,许多业务数据fi以指数级增长等等都耍求对大量的数据做实时处理,并要求保证数裾准确可靠。而对这些挑战云计算、人数裾概念应运而生,Hadoop、Storm等技术如雨后春笋般出现。本文就当今最火的实吋流数据处理系统Storm进行详细介绍。在介绍Storm之前首先详细介绍了实吋计算和分布式系统相关技术概念以便为后面内界做铺垫。通过对Storm的®木概念、核心理念、运行机制和编程场景进行了全而的探W,使得我们对Storm奋了一个比较全面的理解和方便我们在这方面进行更进-•步的学****关键字:Storm;实时人数裾;流数裾处理1概要当今世界,信怠爆炸的吋代,互联网上的数据正以指数级别的速度增长。新浪微博注册用户己经超过3亿,用户日平均迕线时长60min,平均每天发布超过1亿条微博111。在这种背景下,云计算的概念被正式提出,立即引起了学术界和产业界的广泛关注和参与。Google是云计算鉍早的們导者,随f各类大型软件公司都争先在“云计算”领域进行一系列的研究和部署丁作。U前最流行的莫过于Apache的开源项klHadoop分布式计算平台,Hadoop专注于大规模数裾存储和处理。这种模型对以往的许多情形虽已足够,如系统n志分析、网页索引建立(它们往往都是把过去一段时间的数据进行集中处理),但是在实时大数据方而,Hadoop的MapReduce却显得力不从心,业务场景屮需要低延迟的响希単在秒级别成者毫秒级别完成分析,得到响应,并希望能够随着数裾呈的增人而扩展。此时,***公司推!li开源分布式、容错的实吋流计算系统Storm,它的岀现使得大规模数据实时处理成为可能,填补了该领域的空白。Storm是一个类似于Hadoop可以处理人量数据流的分布式实时计算系统。俱是二者存在很人的区,其最主要的区别在于Storm的数裾一S在内存屮流转,Hadoop使用磁盘作为交换介质,需要读写磁盘。在应川领域方面,Storm足基于流的实吋处现,Hadoop足基于任务调度的批量处理。另一个方面,Hadoop难于HDFS需要切分输入数据、产生中间数据文件、排序、数裾压缩、多份复制等,效率比较低,而Storm菽于ZeroMQ这个高性能消息通讯库,不持久化数据12]。2实时计算介绍实时计算(Real-puting)也称为即时计算,是计算机科学中对受到“实时约束”的计算机硬件和计算机软件系统的研究,实时约束是从事件发生到系统回应之间的敁长时间限制。实吋程序必须保证在严格的吋间限制内响应。瓦联网领域的实吋计算一般都是针对海M•数据进行的,实吋计算最秉要的-个需求是能够实时响应计算结果,一般要求为秒级。互联网行业的实时计算可以分为以下两种应用场景:(1)持续计算:主要用于互联网流式数据处理。所谓流式数裾是指将数据看作是数据流的形式來处理。数据流是一系列数据记录的集合体。常见的数据流如网站的访MPV/UV、点击、搜索关键字。(2)实时分析:主要用于特定场合下的数裾分析处理。当数裾朵很人,且存在无穷的査询条件组合,或穷举并提前计算和保存结果的代价很大时,实时计算就可以发挥

基于Storm的实时大数据处理 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数9
  • 收藏数0 收藏
  • 顶次数0
  • 上传人小博士
  • 文件大小374 KB
  • 时间2018-12-03