下载此文档

PB级大数据存储技术与分析技术解析44模板.docx


文档分类:IT计算机 | 页数:约45页 举报非法文档有奖
1/45
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/45 下载此文档
文档列表 文档介绍
PB级大数据存储技术与分析技术解析44PB级大数据存储技术与分析技术解析2013年12月2日目录一、 PB级大数据存储技术解析 2二、 大数据分析系统应规避的问题 5三、 剖析Hadoop和大数据的七误解 8四、 6个优秀的开源文件系统助力大数据分析 13五、 大数据与关系型数据库是否水火不容?NO…… 17六、 大数据探讨:如何整理1700亿条***发布信息? 21七、 畅谈阿里巴巴的大数据梦 26八、 ***利用Storm系统处理实时大数据 35PB级大数据存储技术解析对于存储管理人员来说,大数据应该分为大数据存储和大数据分析,这两者的关系是——大数据存储是用于大数据分析的。然而,到目前为止这是两种截然不同的计算机技术领域。本文就重点解析一下PB级大数据存储技术,希望对您有所帮助。越来越多的存储产品都在融入大数据的概念和功能,并使之成为产品的一大卖点。但对于从事存储管理的专业人员来说,对“大数据”在具体应用场景中的特点和区别有所了解。大数据存储致力于研发可以扩展至PB甚至EB级别的数据存储平台;大数据分析关注在最短时间内处理大量不同类型的数据集。在快速变化的技术趋势中有两个特点需要存储管理人员重视起来。第一,大数据分析流程和传统的数据仓库的方式完全不同,其已经变成了业务部门级别和数据中心级别的关键应用。这也是存储管理员的切入点。随着基础平台(分布式计算或其它架构)变得业务关键化,用户群较以往更加地依赖这一平台,这也使得其成为企业安全性、数据保护和数据管理策略的关键课题。第二,通常用于数据分析平台的分布式计算平台内的存储不是你以往面对的网络附加存储(NAS)和存储区域网络(SAN)——其通常是内置的直连存储(NAS)以及组成集群的分布式计算节点。这使得管理大数据变得更为复杂,因为你无法像以前那样对这些数据部署安全、保护和保存流程。然而,执行这些流程策略的必要性被集成在管理分布式计算集群之中,并且改变了计算和存储层交互的方式。大数据分析和传统的数据仓库的不同大数据分析中包含了各种快速成长中的技术。因此,简单用某一种技术尝试对其定义,比如分布式计算,会比较困难。不过,这些定义大数据分析的通用性技术可以用如下特征阐述:对于传统数据仓库处理流程效率和扩展性方面限制的感知。将数据,不论是结构化还是非结构化数据从多个数据源汇聚的能力。以及认识到数据的及时性是扩展非结构化数据源的关键,其中包括移动设备,RFID,网络和不断增长的自动化感知技术。传统的数据仓库系统通常从现有的关系型数据库中抓取数据。然而,据估计超过80%的企业数据是非结构化的,即无法关系型数据库管理系统(RDBMS),比如DB2和Oracle完成的数据。一般而言,处于此次讨论的目的,非结构化数据可以看成所有无法简单转化到结构化关系型数据库中的所有数据。而企业现在希望从这些非结构化数据类型中抽取有价值的信息,包括:邮件和其它形式的电子通讯记录网站上的资料,包括点击量和社交媒体相关的内容数字视频和音频设备产生的数据(RFID,GPS,传感器产生的数据,日志文件等)以及物联网在大数据分析的情况下,查看远多于RDBMS的数据类型十分必要——这代表了各种重要的新信息源。并且随着每年非结构化数据存储总量较结构化数据增长率高出10到50倍,从业务角度看这些数据也变得更为重要。更重要的数据需要更专业的人员进行分析。但传统的数据仓库技术对海量非结构化数据的处理根本无法满足大数据的需求。所以,存储管理人员也应该更快的跟随技术潮流,更新自己的技术和知识结构,提高自己对大数据的管理和分析能力。大数据分析系统应规避的问题随着互联网技术的不断发展,数据本身是资产,这一点在业界已经形成共识。越来越多的企业涉足到大数据,但是大数据没有想象中的那么简单,所有大数据的属性,包括数量,速度,多样性等反映了数据库不断增长的复杂性。本文从安装、搭建等方面展示了大数据分析系统的应该规避的系列问题。大数据分析前期要做的事其实,每一个数据都有一个ETL,就是抽取、转化,然后去加载,包括做数据的清洗。如果数据大批量进来的话,有些数据可能是有问题的,马先生举了个例子:比如说,好多地址会写得比较模糊,如果要搜索北京这个词的时候,数据仓库里可能只有一个京字,这些都要统一整理成一个,比如说北京,这样后面分析就会简单,比如山东,有人会输入“鲁”字来进行搜索,而不是山东,这就需要在大数据分析前期做好数据清理工作,做规范化,这样后面的数据分析起来就方便很多。搭建大数据分析系统的注意事项在搭建大数据分析系统时,有哪些需要注意的事项?马老师提到:首先要弄明白你所在企业需要什么样的数据,或者你想得到什么价值,想明白了再去做。因为做数据不像做别的东西,一定明确知道要知道你要干什么,不然这个系统搭的时候会有很多困难,不知道该怎么搭

PB级大数据存储技术与分析技术解析44模板 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息