目录
目录 I
初识Hadoop 1
数据!数据 1
数据的存储和分析 3
相较于其他系统 4
Hadoop发展简史 9
Apache Hadoop项目 12
MapReduce简介 15
一个气象数据集 15
使用Unix Tools来分析数据 17
使用Hadoop进行数据分析 19
分布化 30
Hadoop流 35
Hadoop管道 40
Hadoop分布式文件系统 44
HDFS的设计 44
HDFS的概念 45
命令行接口 48
Hadoop文件系统 50
Java接口 54
数据流 68
通过distcp进行并行复制 75
Hadoop归档文件 77
Hadoop的I/O 80
数据完整性 80
压缩 83
序列化 92
基于文件的数据结构 111
MapReduce应用开发 125
API的配置 126
配置开发环境 128
编写单元测试 134
本地运行测试数据 138
在集群上运行 144
作业调优 159
MapReduce的工作流 162
MapReduce的工作原理 166
运行MapReduce作业 166
失败 172
作业的调度 174
shuffle和排序 175
任务的执行 181
MapReduce的类型与格式 188
MapReduce类型 188
输出格式 217
MapReduce 特性 227
计数器 227
排序 235
联接 252
次要数据的分布 258
MapReduce的类库 263
Hadoop集群的安装 264
集群说明 264
集群的建立和安装 268
SSH配置 270
Hadoop配置 271
安装之后 286
Hadoop集群基准测试 286
云计算中的Hadoop 290
Hadoop的管理 293
HDFS 293
监控 306
维护 313
Pig简介 321
安装和运行Pig 322
实例 325
与数据库比较 329
Pig Latin 330
用户定义函数 343
数据处理操作符 353
Pig实践提示与技巧 363
Hbase简介 366
HBase基础 366
概念 367
安装 371
客户端 374
示例 377
HBase与RDBMS的比较 385
实践 390
ZooKeeper简介 394
ZooKeeper的安装和运行 395
范例 396
ZooKeeper服务 405
使用ZooKeeper建立应用程序 417
工业界中的ZooKeeper 428
案例研究 431
431
Hadoop和Hive在Facebook的应用 441
Hadoop在Nutch搜索引擎 451
Hadoop用于Rackspace的日志处理 466
Cascading项目 474
Apache Hadoop的1 TB排序 488
Apache Hadoop的安装 491
Cloudera的Hadoop分发包 497
预备NCDC气象资料 502
第1章初识Hadoop
古时候,人们用牛来拉重物,当一头牛拉不动一根圆木的时候,他们不曾想过培育个头更大的牛。同样,我们也不需要尝试更大的计算机,而是应该开发更多的计算系统。
--格蕾斯·霍珀
数据!数据
我们生活在数据时代!很难估计全球存储的电子数据总量是多少,但是据IDC估计2006年"数字全球"项目(digital universe) ZB, ZB,为2006年的10倍。1 ZB相当于10的21次
Hadoop权威指南---中文版 来自淘豆网www.taodocs.com转载请标明出处.