下载此文档

2020年度最美不过初相见-好程序员教你Hadoop的正确打开方式-汇总模板.doc


文档分类:生活休闲 | 页数:约11页 举报非法文档有奖
1/11
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/11 下载此文档
文档列表 文档介绍
2020年度最美不过初相见-好程序员教你Hadoop的正确打开方式-汇总最美不过初相见好程序员教你Hadoop的正确打开方式?最美不过初相见,我和大数据Hadoop的开始始于好程序员。经历了上一阶段的学****对Java的了解逐渐加深,潜移默化中树立了足够大的自信,并投入到Hadoop的学****从前辈那里得知这一部分知识是整个大数据培训中的重中之重,因此,更是不敢有一点怠慢。Hadoop的初识便带着十分的专注。近期的知识点总结,已足以验证我的努力与付出,以下是我的部分总结,愿和大家一同分享。方式一、 Hadoop 是什么? Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构, 主要解决,海量数据的存储和海量数据的分析计算问题。 广义上来说,HADOOP 通常是指一个更广泛的概念——HADOOP 生态圈。方式二、Hadoop 的优势1 .高可靠性: Hadoop 假设计算元素和存储会出现故障,它维护多个工作数据副本,在出现故障时能够对失败的节点重新分布处理。:在集群间分配任务数据,可方便的扩展数以千计的节点。:在 MapReduce 的思想下,Hadoop 是并行工作的,以加快任务处理速度。:自动保存多份副本数据,并且能够自动将失败的任务重新分配。方式三、 Hadoop的 组成HDFS:一个高可靠、高吞吐量的分布式文件系统。:一个分布式的离线并行计算框架。:作业调度与集群资源管理的框架。:支持其它模块的工具模块(Configuration、RPC、序列化机制、日志操作)。方式四、YARN 架构概述1. ResourceManager(rm):处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度;2. NodeManager(nm):单个节点上的资源管理、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令;3.  ApplicationMaster:数据切分、为应用程序申请资源,并分配给内部任务、任务监控与容错。4. Container:对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息。方式五、大数据技术生态体系1. Sqoop:sqoop 是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql)间进行数据的传递,能够将一个关系型数据库(例如: MySQL,Oracle 等)中的数据导进到Hadoop 的 HDFS 中,也能够将 HDFS的数据导进到关系型数据库中。:Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume 支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。:它 是一种高吞吐量的分布式发布订阅消息系统,它的特性在于:(1)通过磁盘数据结构提供消息的持久化,这种结构对于即使数以 TB 的消息存储也能够保持长时间的稳定性能。(2)高吞吐量,即使是非常普通的硬件 Kafka 也能够支持每秒数百万的消息。(3)支持通过 Kafka 服务器和消费机集群来分区消息。支持Hadoop 并行数据加载。(4)Storm 为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm 也可被用于“连续计算”(putation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户。(5)Spark 是当前最流行的开源大数据内存计算框架。能够基于Hadoop 上存储的大数据进行计算。(6)Oozie 是一个管理Hdoop 作业(job)的工作流程调度管理系统。Oozie 协调作业就是通过时间(频率)和有效数据触发当前的Oozie 工作流程。(7)HBase 是一个分布式的、面向列的开源数据库。HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。(8)Hive 是基于 Hadoop 的一个数据仓库工具,能够将结构化的数据文件映射为一张数据库表,并提供简单的 sql 查询功能,能够将 sql 语句转换为 MapReduce 任务进行运行。其优点是学****成本低,能够通过类SQL 语句快速实现简单的 MapReduce 统计,不必开发专门的 MapReduce 应用,十分适合数据仓库的统计分析。(9)R 语言:R 是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。(10)ApacheMahout 是个可扩展的机器学****和数据挖掘库,当前Mahout 支持主要

2020年度最美不过初相见-好程序员教你Hadoop的正确打开方式-汇总模板 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数11
  • 收藏数0 收藏
  • 顶次数0
  • 上传人业精于勤
  • 文件大小57 KB
  • 时间2020-01-14