下载此文档

2021年最美不过初相见好程序员教你Hadoop的正确打开方式1.docx


文档分类:生活休闲 | 页数:约5页 举报非法文档有奖
1/5
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/5 下载此文档
文档列表 文档介绍
最美不过初相见 好程序员教你Hadoop正确打开方法?
最美不过初相见,我和大数据Hadoop开始始于好程序员。经历了上一阶段学****对Java了解逐步加深,潜移默化中树立了足够大自信,并投入到Hadoop学****以前辈那里得悉这一部分知识是整个大数据培训中重中之重,所以,更是不敢有一点怠慢。Hadoop初识便带着十分专注。近期知识点总结,已足以验证我努力和付出,以下是我部分总结,愿和大家一同分享。
方法一、 Hadoop 是什么?
 Hadoop 是一个由 Apache 基金会所开发分布式系统基础架构, 关键处理,海量数据存放和海量数据分析计算问题。 广义上来说,HADOOP 通常是指一个更广泛概念——HADOOP 生态圈。
方法二、Hadoop 优势
1 .高可靠性: Hadoop 假设计算元素和存放会出现故障,它维护多个工作数据副本,在出现故障时能够对失败节点重新分布处理。
:在集群间分配任务数据,可方便扩展数以千计节点。
:在 MapReduce 思想下,Hadoop 是并行工作,以加紧任务处理速度。
:自动保留多份副本数据,而且能够自动将失败任务重新分配。
方法三、 Hadoop 组成
HDFS:一个高可靠、高吞吐量分布式文件系统。
:一个分布式离线并行计算框架。
:作业调度和集群资源管理框架。
:支持其它模块工具模块(Configuration、RPC、序列化机制、日志操作)。
方法四、YARN 架构概述
1. ResourceManager(rm):处理用户端请求、开启/监控 ApplicationMaster、监控 NodeManager、资源分配和调度;
2. NodeManager(nm):单个节点上资源管理、处理来自 ResourceManager 命令、处理来自 ApplicationMaster 命令;
3.  ApplicationMaster:数据切分、为应用程序申请资源,并分配给内部任务、任务监控和容错。
4. Container:对任务运行环境抽象,封装了CPU、内存等多维资源和环境变量、开启命令等任务运行相关信息。
方法五、大数据技术生态体系
1. Sqoop:sqoop 是一款开源工具,关键用于在Hadoop(Hive)和传统数据库(mysql)间进行数据传输,能够将一个关系型数据库(比如 : MySQL ,Oracle 等)中数据导进到Hadoop  HDFS 中,也能够将 HDFS数据导进到关系型数据库中。
:Flume 是 Cloudera 提供一个高可用,高可靠,分布式海量日志采集、聚合和传输系统,Flume 支持在日志系统中定制各类数据发送方,用于搜集数据;同时,Flume提供对数据进行简单处理,并写到多种数据接收方(可定制)能力。
:它 是一个高吞吐量分布式公布订阅消息系统,它特征在于:
(1)经过磁盘数据结构提供消息持久化,这种结构对于即使数以 TB 消息存放也能够保持长时间稳定性能。
(2)高吞吐量,即使是很一般硬件 Kafka 也能够支持每秒数百万消息。
(3)

2021年最美不过初相见好程序员教你Hadoop的正确打开方式1 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息