自制PPT - Qi Qi portfolio - Home page.ppt


文档分类:文学/艺术/军事/历史 | 页数:约25页 举报非法文档有奖
1/25
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/25
文档列表 文档介绍
大数据应用的技术体系及潜在问题报告人:,所涉及的资料量的规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的各种资讯。主流定义为3V,即规模性(Volume),多样性(Variety)和高速性(Velocity)。所谓规模性,就是数据的量达到了一定的高度,无法通过当前主流工具来及时处理;多样性指的是对于即将要处理的数据类型,除了有结构化的以外,还有半结构化和非结构化的,增加了操作的复杂性;高速性是指数据的到达与处理必须及时高效,不允许较长的延迟。除此之外,隐私性与有价值性同样是大数据的主要特征。,其中隐藏的商机也被各路商家发现和利用。美国Target百货公司通过一套客户分析工具,可以对顾客的购买记录进行分析,并随后通过购物手册的形式向顾客推荐一系列可能需要的商品;“京东”、“天猫”和“易购”等购物网站将其海量商品按照各种方式进行分类和推荐,大大增强了网站的可用性。不单是商家,大数据处理技术也给普通用户的日常生活带来了方便性和可靠性。购物网站可以使用户足不出户便可购买到廉价优质的商品,地图软件让人们出门再也不用担心迷路的问题,“微信”、“微博”使得人们随时随地能够跟亲人、朋友联络交流,各种互动娱乐软件帮助人们打发无聊地时光等等。:数据获取、数据集成、数据分析和解释3个阶段。数据获取阶段主要是完成对外界数据源的接收和记录操作。其中对大数据的接收方式主要有传感器获取、网页点击获取、移动设备上应用服务的获取以及RFID获取等;对大数据的记录主要完成对元数据的选择,以便构建所需要的数据结构。数据集成阶段主要完成对已接收数据的抽取、清洗和贮存等操作。1)抽取:由大数据的定义可知,获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。2)清洗:对于大数据,并不全是有价值的,有些数据井不是我们所关心的内容,而另一些数据则是完全错误的干扰项,如何“去噪”从而提取出有效数据对我们来说是个巨大挑战。其中一种做法是设计一些过滤器,通过某些规则将那些无用错误的数据过滤出去,防止对最后的分析工作产生影响。3)贮存:将初步处理过得数据进行有效的存储至关重要,若是仅仅将这些记录随便地放入一个数据仓库中,将会造成其访问性受到障碍,从而导致了数据的难以复用。设计一个合适的数据库,可以有效地解决难以复用问题。数据库的选择可以多种多样,针对特定数据设计的特定数据库将会更加高效、适用。数据分析和解释阶段:当用户提出查询请求时,我们需要做的就是进行及时地分析与建模,并将结果以用户可接受的方式返回给用户。这一阶段的用户查询可以是多种多样的,不同的查询输入应该得到对应的结果,即使面对用户的错误查询也应该给出相应的错误友好处理。大数据应用的技术和系统包括:云计算及其编程模型MapReduce大数据获取技术面向大数据处理的文件系统数据库系统大数据分析技术2TEXTHERETEXTHERETEXTHERETEXTHERE云计算及其编程模型MapReduce云计算定义:一个大规模的由规模经济驱动的分布式模型,位于其中的抽象的、虚拟的、动态可扩展的、可管理的计算能源、存储、平台、服务等通过因特网交付给外围客户。云计算能为大数据提供强大的存储和计算能力,可以迅速、方便地为大数据提供服务,另一方面,大数据的处理需求也为云计算提供了更多更好地应用场景。由此,云计算作为大数据的支撑技术而倍受业界关注。2004年,谷歌公司提出的MapReduce技术,以其利用大规模廉价服务器以达到并行处理大数据的目的而倍受学术界和工业界的关注,广泛应用于机器学****数据挖掘等诸多领域。

自制PPT - Qi Qi portfolio - Home page 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息