大数据机大数据分析市场行业分布? 2012 年大数据分析需求行业分布–政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。?结论: 各个行业都存在大数据应用的需求,潜在市场空间非常可观。云展大数据机大数据采集大数据存储大数据处理大数据可视化收集网站日志,交易数据,音频视频数据,即时信息……可扩展数据采集框架数据导入元数据管理分布式大数据存储确立分析目标编写分析程序大数据并行处理引擎为分析目标生成报表,趋势图等图表生成工具大数据分析应用大数据分析平台云展大数据机—软件架构数据收集框架基于分布式文件系统的数据存储元数据管理 E3大数据并行处理框架 SQL 接口 E3编程接口 MapReduce 接口可视化工具大数据知识库文本分析工具结构化数据分析工具云展大数据机—硬件架构?标准机架式设计–每个机架可容纳 40台节点机–节点机通过千兆以太网连接–节点机采用标准 PC服务器–可扩展到 20个机架–原型机: awan (2个机架, 76台节点机) 云展关键技术—— E 3引擎? E3将数据处理过程描述为一个线性工作流,工作流中每一个节点称为一个阶段,每阶段包含若干处理单元,每个处理单元对数据进行部分处理。? E3按照工作流的顺序,并行地调度处理单元在计算节点上运行,自动在处理单元之间传递中间运算结果,最终完成整个数据处理过程。 pu1 pu1 pu1 pu1 pu2 pu2 pu3 pu4 pu4 pu5 pu5 pu5 云数据存储服务云数据存储服务 PU – processing unit (处理单元) E 3与阿帕奇 Hadoop 的性能比较? Grep 任务:每个节点 535M ? Select 任务:每个节点 1G Grep 任务 Select 任务混合式数据分析工具?同时支持非结构化的文本分析和结构化的数据库分析?建立在统一的 E 3引擎之上,能够进行交互和联合分析?支持对海量数据的快速分析,发现其中隐藏的知识、行为模式等?提供描述语言,支持用户进行自定义的数据分析文本分析工具结构化数据分析工具非机构化分析工具?分布式存储和处理模型–无需定义表结构–数据直接存储与分布式文件系统中–自动错误处理和恢复?基本的数据访问接口– put/get: 随机的文档数据读取– scan: 批量数据扫描– tokenize: 将文档组织成单词组以提供给上层分析处理?分析数据接口– Extract operator [ ? ]: 提供基于正则表达式和字典的匹配操作– Select operator [ σ]: 提供基于用户选择条件的过滤操作– Join operator [ ?]: 将来自多个数据源的文档/文字流进行合并– Consolidate operator [ Ω]: 去重操作?提供类似于 SQL 的文本处理分析语言: EPQL 非结构化处理流程?每一个 EPQL 将对特定集合的文档进行处理?每个文档将通过 4个操作的处理,然后中间结果传给连接操作和去重操作?结果将是符合用户要求的文档或统计内容,比如: –查找所有包含关键词: [Cloud] [Computing] ,在 2012 年产生的网页–统计近一个月内,出现包含钓鱼岛的文档与包含日本车销量内容的文档的关联度
大数据分析市场行业分布新编 来自淘豆网www.taodocs.com转载请标明出处.