下载此文档

hadoop大数据在智能电网中的应用构想.doc


文档分类:IT计算机 | 页数:约4页 举报非法文档有奖
1/4
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/4 下载此文档
文档列表 文档介绍
Hadoop大数据在智能电网中的应用构想
[摘要]大数据时代即将来临,如何借助大数据技术,实现高度信息化的智能电网,是一项具有实际应用价值的课题。本文介绍了国内领先的大数据技术――Hadoop分布式计算平台,并引用百度迁徙的成功案例阐述大数据在未来智能电网中的应用构想。
[关键词]Hadoop;大数据;分布式计算;HDFS;MapReduce
doi:.1673 -
[中图分类号]TP308; [文献标识码]A [文章编号]1673-0194(2015)20-0041-01
1 大数据
大数据需要新处理模式才具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的核心是预测,它把数学算法应用到海量数据上来预测事件发生的可能性。大数据同时意味着思维的变革:①小数据分析的是随机样本,而大数据分析的是全体数据,全面展示样本无法表达的细节信息;②小数据分析追求精确性,而大数据分析具有混杂性,这意味着大数据的简单算法比采样数据的复杂算法更有效;③小数据分析关注因果关系,而大数据分析更关注相关关系,通过分析事物之间的关联性,来预测事件的发展趋势。
2 Hadoop大数据平台
Hadoop是Apache发布的开源分布式计算平台。受Google大数据论文的启发,Doug Cutting用JAVA实现了以MapReduce和HDFS为核心的Hadoop,并将源代码完全贡献出来。Hadoop充分发挥集群的计算和存储能力,快速完成海量数据的处理。Hadoop采用分布式存储来提高读写速度和扩大存储容量;采用MapReduce整合分布式文件系统上的数据,实现数据高速处理;采用存储冗余数据来保证数据的安全性。
HDFS
HDFS是基于流模式访问和处理超大文件的需求而开发的,它可以运行于廉价的商用服务器上,HDFS的主要特点有以下3个方面。①处理超大文件:在实际应用中,HDFS已经能够用来存储管理PB级的数据了。②流式访问数据:请求读取整个数据集要比读取一条记录更加高效。③运行于廉价的商用机器集群上:HDFS对硬件要求较低,无需昂贵的高可用性机器。
HDFS体系结构中有两类节点:NameNode和DataNode,NameNode负责管理集群中的执行调度,DataNode是具体任务的执行节点。当执行任务时,客户端访问NameNode获取文件数据信息,与DataNode进行交互以访问整个文件系统。HDFS向用户提供类似POSIX的文件接口,开发者在编程时无需考虑NameNode和DataNode的实现细节。
MapReduce
MapReduce是Google公司的核心计算模型。在Hadoop中,用于执行MapReduce任务的机器有两种角色:JobTracker和TaskTracker,一个Hadoop集群中只有一个JobTracker,用于任务管理和调度。一般来说,为了减轻网络传输的压力,数据存储在哪个节点上,就由哪个节点进行这部分数据的计算。JobTracker监控任务运行情况,当一个TaskTracker出现故障时,JobTracker会将其承担的任务转交到另一个空闲的TaskTracker重新

hadoop大数据在智能电网中的应用构想 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数4
  • 收藏数0 收藏
  • 顶次数0
  • 上传人sftnqws018
  • 文件大小0 KB
  • 时间2015-12-08