下载此文档

2020年度最美不过初相见-好程序员教你Hadoop的正确打开方式-汇总.doc


文档分类:生活休闲 | 页数:约5页 举报非法文档有奖
1/5
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/5 下载此文档
文档列表 文档介绍
最美不过初相见好程序员教你Hadoop的正确打开方式?最美不过初相见,我和大数据Hadoop的开始始于好程序员。经历了上一阶段的学****对Java的了解逐渐加深,潜移默化中树立了足够大的自信,并投入到Hadoop的学****从前辈那里得知这一部分知识是整个大数据培训中的重中之重,因此,更是不敢有一点怠慢。Hadoop的初识便带着十分的专注。近期的知识点总结,已足以验证我的努力与付出,以下是我的部分总结,愿和大家一同分享。方式一、 Hadoop 是什么? Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构, 主要解决,海量数据的存储和海量数据的分析计算问题。 广义上来说,HADOOP 通常是指一个更广泛的概念——HADOOP 生态圈。方式二、Hadoop 的优势1 .高可靠性: Hadoop 假设计算元素和存储会出现故障,它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。:在集群间分配任务数据,可方便的扩展数以千计的节点。:在 MapReduce 的思想下,Hadoop 是并行工作的,以加快任务处理速度。:自动保存多份副本数据,并且能够自动将失败的任务重新分配。方式三、 Hadoop的 组成HDFS:一个高可靠、高吞吐量的分布式文件系统。:一个分布式的离线并行计算框架。:作业调度与集群资源管理的框架。:支持其他模块的工具模块(Configuration、RPC、序列化机制、日志操作)。方式四、YARN 架构概述1. ResourceManager(rm):处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度;2. NodeManager(nm):单个节点上的资源管理、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令;3.  ApplicationMaster:数据切分、为应用程序申请资源,并分配给内部任务、任务监控与容错。4. Container:对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息。方式五、大数据技术生态体系1. Sqoop:sqoop 是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql)间进行数据的传递,可以将一个关系型数据库(例如: MySQL,Oracle 等)中的数据导进到Hadoop 的 HDFS 中,也可以将 HDFS的数据导进到关系型数据库中。:Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume 支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。:它 是一种高吞吐量的分布式发布订阅消息系统,它的特性在于:(1)通过磁盘数据结构提供消息的持久化,这种结构对于即使数以 TB 的消息存储也能够保持长时间的稳定性能。(2)高吞吐量,即使是非常普通的硬件 Kafka 也可以支持每秒数百万的消息。(3)支持通过 Kafka 服务器和消费机集群来分区消息。支持Hadoop 并行数据加载。(4)Storm 为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及

2020年度最美不过初相见-好程序员教你Hadoop的正确打开方式-汇总 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数5
  • 收藏数0 收藏
  • 顶次数0
  • 上传人业精于勤
  • 文件大小49 KB
  • 时间2019-12-10