下载此文档

阿里巴巴分布式流数据实时与持续计算.pdf

文档分类：IT计算机 | 页数：约49页举报非法文档有奖

1/ 49

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/ 49 下载此文档

文档列表 文档介绍

分布式流数据实时与持续计算
强琦
hic2011
提纲
•背景
•目标
•传统方案与业界进展
•设计理念(重点)
•技术架构
•要点
•例子
•系统边界
•计划
背景
•应用背景
–数据量急剧增加
– Web Æ web ,
–电子商务、移动互联网、移动支付
–欺诈、风控对海量交易实时性
–用户体验的个性化和实时性
–由点到面
•实时搜索、个人实时信息服务、SNS等
背景
•技术背景
– MapReduce、Dryad等全量/增量计算平台
– S4、Storm等流计算框架
– CEP以及EDA模型
– Pregel等图计算模型
传统方案与业界进展
•传统方案
– MAPREDUCE:HDFS加载,存储LOCALITY(容错性),
顺序IO,存储HDFS, 单输入,单输出
独立数据 Latency(i)
输入 Di
输入计算
过程
下载
latency 输出
Map
shuffle 独立数据Dn Latency(n)
reduce
Mapreduce Job
IProcess Job
Hadoop之于实时
•问题(hdhadoop本质是为全量而生)
–任务内串行
–重吞吐量,响应时间完全没有保证
–中间结果不可见,不可共享
–单输入单输出,链式浪费严重
–链式MR不能并行
–粗粒度容错,可能会造成陷阱
–图计算不友好
–迭代计算不友好
图计算
• MapReduce为什么不适合图计算?
–迭代
–边的量级远大于节点
•图计算特点
–适应于事件机制,规模大(边),但单条数据不大
–很难分布式(locality、partition,一直都是难点)
–容错性
– GlGoogle PlPregel
•本质上还是全量
•中间结果不可见
•超步过多(IProcess)
Pregel vs. IProcess图计算
• IProcess
9 乱序执行,避免了不必要的超步
9 实时图计算,图计算注定慢,但是效果的可以渐显。
迭代计算
•特点
–结构固定
•本质
– UdUpdate
•方案
–传统MR模型,hadoop效率太低
– Haloop
–
实时计算业界进展
• S4
– 2010年底,Yahoo,,window todo

阿里巴巴分布式流数据实时与持续计算来自淘豆网www.taodocs.com转载请标明出处.

阿里巴巴分布式流数据实时与持续计算.pdf

阿里巴巴研究书系--阿里巴巴的管理模式

阿里巴巴渠道商公司内部-培训经理KPI

阿里巴巴《成为教练式销售主管》教材

阿里巴巴研究书系--阿里巴巴的企业文化【企业文化经典】

高效处理分布式数据流上skyline持续查询算法

阿里巴巴研究书系_--阿里巴巴的人力资源管理

阿里巴巴关闭阿里软件引关注 saas何去何从