下载此文档

hive介绍.pptx

文档分类：IT计算机 | 页数：约13页举报非法文档有奖

1/13

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/13 下载此文档

文档列表 文档介绍

第一部分Hive
张佳祎
Hive的由来
Hive是Facebook开发的构建于Hadoop集群之上的数据仓库应用,它提供了类似于SQL语法的HQL语句作为数据访问接口,这使得普通分析人员的应用Hadoop的学****曲线变缓。至于Facebook为什么使用Hadoop和Hive组建其数据仓库,大致的过程是如下的:
1,Facebook的数据仓库一开始是构建于MySQL之上的,但是随着数据量的增加某些查询需要几个小时甚至几天的时间才能完成。
2,当数据量接近1T的时候,mysql的后台进程垮掉,这时他们决定将他们数据仓库转移到Oracle。当然这次转移的过程也是付出了很大的代价的,比如支持的SQL方言不同,修改以前的运行脚本等等。
3,Oracle应付几T的数据还是没有问题的,但是在开始收集用户点击流的数据(每天大约400G)之后,Oracle也开始撑不住了,由此又要考虑新的数据仓库方案。
Hive的由来
4,内部开发人员花了几周的时间建立了一个并行日志处理系统Cheetah ,这样的话勉强可以在24小时之内处理完一天的点击流数据。
5,Cheetah也存在许多缺点。后来发现了Hadoop项目,并开始试着将日志数据同时载入Cheetah和Hadoop做对比,Hadoop在处理大规模数据时更具优势,后来将所有的工作流都从Cheetah转移到了Hadoop,并基于Hadoop做了很多有价值的分析。
6,后来为了使组织中的多数人能够使用Hadoop,开发了Hive,Hive提供了类似于SQL的查询接口,非常方便。与此同时还开发了一些其它工具。
7,,并且以每天15TB的数据在增长,每天提交3000个以上的作业,大约处理55TB的数据...
现在很多大的互联网公司出于成本考虑都在研究、使用Hadoop;数据的价值正得到越来越多的人的重视,而这种重视,又体现出Hadoop存在的巨大价值。
Hive?
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
通俗点讲,其实HIVE就是一个SQL解析引擎,它将SQL语句转译成M/R JOB然后在Hadoop执行(本质是将HQL转换为MapReduce程序),来达到快速开发的目的。其实就是一个Hadoop的目录/文件(HIVE默认表存放路径一般都是在你工作目录的hive目录里面),按表名做文件夹分开,如果你有分区表的话,分区值是子文件夹,可以直接在其它的M/R job里直接应用这部分数据。
Hive到底是什么?
Hive 组成与结构
Hive 的结构可以分为以下几部分:
用户接口:包括 CLI, Client(JDBC/ODBC接口), WUI (Web GUI)
用户接口主要有三个:CLI(命令行接口),Client(对外提供服务) 和 WUI(提供界面的)。其中最常用的是 CLI,Client 启动的时候,会同时启动一个 Hive 副本。Client 是 Hive 的客户端,用户连接至 Hive Server(JDBC/ODBC接口)。在启动 Client 模式的时候,需要指出 Hive Server 所在节点,并且在该节点启动 Hive Server。 WUI 是通过浏览器访问 Hive。
中间件:包括Thrift Server接口和JDBC/ODBC的服务端,用于整合Hive和其它程序。
Driver(解释器、编译器、优化器、执行器)
Driver(解释器、编译器、优化器)完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后有 MapReduce 调用执行。
Hive 组成与结构
元数据Metastore:存放系统参数,元数据的存储(Hive的表结构等等)相当于Derby、MySQL等一些数据库中存储表结构,数据类型,不存储数据。Metastore类似于Hive的目录。它存放了有个表、区、列、类型、规则模型的所有信息。并且它可以通过Thrift接口进行修改和查询。它为编译器提供高效的服务,所以,它会存放在一个传统的数据库管理系统(EDBMS)(MySQL),利用关系模型进行管理,这个信息非常重要,所以需要备份,并且支持查询的可扩展性。
Hadoop:用 HDFS 进行存储,利用 MapReduce 进行计算。
Hive 将元数据存储在数据库中,如 mysql、Oracle。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。
Hive与Hadoop的关系
Hadoop本身不能识别Hive,但是它通过Hive架构转化成Hadoop能识别的一个个Job任务。

hive介绍来自淘豆网www.taodocs.com转载请标明出处.