分布式流数据实时与持续计算
强琦
hic2011
提纲
•背景
•目标
•传统方案与业界进展
•设计理念(重点)
•技术架构
•要点
•例子
•系统边界
•计划
背景
•应用背景
–数据量急剧增加
– Web Æ web ,
–电子商务、移动互联网、移动支付
–欺诈、风控对海量交易实时性
–用户体验的个性化和实时性
–由点到面
•实时搜索、个人实时信息服务、SNS等
背景
•技术背景
– MapReduce、Dryad等全量/增量计算平台
– S4、Storm等流计算框架
– CEP以及EDA模型
– Pregel等图计算模型
传统方案与业界进展
•传统方案
– MAPREDUCE:HDFS加载,存储LOCALITY(容错性),
顺序IO,存储HDFS, 单输入,单输出
独立数据 Latency(i)
输入 Di
输入计算
过程
下载
latency 输出
Map
shuffle 独立数据Dn Latency(n)
reduce
Mapreduce Job
IProcess Job
Hadoop之于实时
•问题(hdhadoop本质是为全量而生)
–任务内串行
–重吞吐量,响应时间完全没有保证
–中间结果不可见,不可共享
–单输入单输出,链式浪费严重
–链式MR不能并行
–粗粒度容错,可能会造成陷阱
–图计算不友好
–迭代计算不友好
图计算
• MapReduce为什么不适合图计算?
–迭代
–边的量级远大于节点
•图计算特点
–适应于事件机制,规模大(边),但单条数据不大
–很难分布式(locality、partition,一直都是难点)
–容错性
– GlGoogle PlPregel
•本质上还是全量
•中间结果不可见
•超步过多(IProcess)
Pregel vs. IProcess图计算
• IProcess
9 乱序执行,避免了不必要的超步
9 实时图计算,图计算注定慢,但是效果的可以渐显。
迭代计算
•特点
–结构固定
•本质
– UdUpdate
•方案
–传统MR模型,hadoop效率太低
– Haloop
–
实时计算业界进展
• S4
– 2010年底,Yahoo,,window todo
阿里巴巴分布式流数据实时与持续计算 来自淘豆网www.taodocs.com转载请标明出处.