下载此文档

Hadoop实验--数据去重.doc


文档分类:IT计算机 | 页数:约5页 举报非法文档有奖
1/5
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/5 下载此文档
文档列表 文档介绍
Hadoop 实验报告数据去重问题背景: 随着存储数据信息量的飞速增长, 去重无疑成为众多大数据科研人员要面对的问题之一。因此越来越多的人开始关注存储数据的缩减方法。数据压缩、单实例存储和重复数据删除等都是经常使用的存储数据缩减技术。重复数据删除往往是指消除冗余子文件。不同于压缩, 重复数据删除对于数据本身并没有改变, 只是消除了相同的数据占用的存储容量。重复数据删除在减少存储、降低网络带宽方面有着显著的优势, 并对扩展性有所帮助。举个简单的例子: 在专门为电信运营商定制的呼叫详单去重应用程序中, 我们就可以看到删除重复数据的影子。同样的, 对于包含相同数据包的通信网络,我们可以使用这种技术来进行优化。问题描述: 编写 MapReduce 程序读取文本文件, 去掉所有数据中的重复数据后输出结果。实验名称: 数据去重实验目的: 1 、基本了解一个 Hadoop 程序的结构、编译、封装、运行、查看结果等流程。 2 、掌握并利用并行化编程思想对数据做有意义的筛选。实验要求: 完成 MapReduce 程序,测试其对数据的筛选能力。输入: 输入是一组文本文件,在每个输入文件中每一行是一个数据。每一个元数据都是一个字符串。输出: 输出文件的每一行都是在输入文件中出现过的一个数据, 并且输出文件中的每一行都不相同。【数据样例】输入: input1: 2015-1-1 a 2015-1-2 b 2015-1-3 c 2015-1-4 d 2015-1-5 a 2015-1-6 b 2015-1-7 c 2015-1-8 c input2: 2015-1-1 b 2015-1-2 a 2015-1-3 b 2015-1-4 d 2015-1-5 a 2015-1-6 c 2015-1-7 d 2015 - 1-8 c输出: 2015-1-1 a 2015-1-1 b 2015-1-2 a 2015-1-2 b 2015-1-3 b 2015-1-3 c 2015-1-4 d 2015-1-5 a 2015-1-6 b 2015-1-6 c 2015-1-7 c 2015-1-7 d 2015-1-8 c设计思路: 数据去重的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次。我们自然而然会想到将同一个数据的所有记录都交给一台 reduce 机器,无论这个数据出现多少次,只要在最终结果中输出一次就可以了。具体就是 reduce 的输入应该以数据作为 key , 而对 value-list 则没有要求。当 reduce 接收到一个<key , value-list> 时就直接将 key 复制到输出的 key 中,并将 value 设置成空值。在 MapReduce 流程中, map 的输出<key , value> 经过 shuffle 过程聚集成<key , value-list> 后会交给 reduce 。所以从设计好的 reduc e 输入可以反推出 map 的输出 key 应为数据, value 任意。继续反推, map 输出数据的 key 为数据, 而在这个实例中每个数据代表输入文件中的一行内容, 所以 map 阶段要完成的任务就是在采用 Hadoop 默认的作业输入方式之后,将 value 设置为 key ,并直接输出(输出中的 value

Hadoop实验--数据去重 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数5
  • 收藏数0 收藏
  • 顶次数0
  • 上传人63229029
  • 文件大小341 KB
  • 时间2017-04-13