下载此文档

最美不过初相见-好程序员教你hadoop的正确打开方式-(1).docx


文档分类:生活休闲 | 页数:约11页 举报非法文档有奖
1/11
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/11 下载此文档
文档列表 文档介绍
最美不过初相见-好程序员教你Hadoop的正确打开方式-(1)
最美不过初相见 好程序员教你Hadoop的正确打开方式?
最美不过初相见,我和大数据Hadoop的开始始于好程序员。经历了上一阶段的学****对Java的了解逐渐加深,潜移默化中树立了足够大的自信,并投入到Hadoop的学****从前辈那里得知这一部分知识是整个大数据培训中的重中之重,因此,更是不敢有一点怠慢。Hadoop的初识便带着十分的专注。近期的知识点总结,已足以验证我的努力与付出,以下是我的部分总结,愿和大家一同分享。
方式一、 Hadoop 是什么?
 Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构, 主要解决,海量数据的存储和海量数据的分析计算问题。 广义上来说,HADOOP 通常是指一个更广泛的概念——HADOOP 生态圈。
方式二、Hadoop 的优势
1 .高可靠性: Hadoop 假设计算元素和存储会出现故障,它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。
:在集群间分配任务数据,可方便的扩展数以千计的节点。
:在 MapReduce 的思想下,Hadoop 是并行工作的,以加快任务处理速度。
:自动保存多份副本数据,并且能够自动将失败的任务重新分配。
方式三、 Hadoop的 组成
HDFS:一个高可靠、高吞吐量的分布式文件系统。
:一个分布式的离线并行计算框架。
:作业调度与集群资源管理的框架。
:支持其他模块的工具模块(Configuration、RPC、序列化机制、日志操作)。
方式四、YARN 架构概述
1. ResourceManager(rm):处理客户端请求、启动/监控 ApplicationMaster、监控 NodeManager、资源分配与调度;
据导进到Hadoop 的 HDFS 中,也可以将 HDFS的数据导进到关系型数据库中。
:Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume 支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
:它 是一种高吞吐量的分布式发布订阅消息系统,它的特性在于:
(1)通过磁盘数据结构提供消息的持久化,这种结构对于即使数以 TB 的消息存储也能够保持长时间的稳定性能。
(2)高吞吐量,即使是非常普通的硬件 Kafka 也可以支持每秒数百万的消息。
(3)支持通过 Kafka 服务器和消费机集群来分区消息。支持Hadoop 并行数据加载。
(4)Storm 为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm 也可被用于“连续计算”(continuous computation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户。
(5)Spark 是当前最流行的开源大数据内存计算框架。可以基于Hadoop 上存储的大数据进行计算。
(6)Oozie 是一个管理Hdoop 作业(job)的工作流程调度管理系统。Oozie 协调
作业就是通过时间(频率)和有效数据触发当前的Oozie 工作流程。
(7)HBase 是一个分布式的、面向列的开源数据库。HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。
(8)Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的 sql 查询功能,可以将 sql 语句转换为 MapReduce 任务进行运行。其优点是学****成本低,可以通过类SQL 语句快速实现简单的 MapReduce 统计,不必开发专门的 MapReduce 应用,十分适合数据仓库的统计分析。
(9)R 语言:R 是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个
自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。
(10)Apache Mahout 是个可扩展的机器学****和数据挖掘库,当前Mahout 支持主要的4 个用例:推荐挖掘:搜集用户动作并以此给用户推荐可能喜欢的事物。
聚集:收集文件并进行相关文件分组。
分类:从现有的分类文档中学****寻找文档中的相似特征,并为无标签的文档进行正确的归类。
频繁项集挖掘:将一组项分组,并识别

最美不过初相见-好程序员教你hadoop的正确打开方式-(1) 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数11
  • 收藏数0 收藏
  • 顶次数0
  • 上传人916581885
  • 文件大小1.66 MB
  • 时间2021-05-05