身处大数据时代
目录
大数据产生的背景与简介
云计算与Google的大数据体系
数据挖掘概念及案例
大数据案例介绍
机器学****简介与案例
大数据与机器学****行业人才需求
互联网发展趋势
体量Volume
多样性Variety
价值密度Value
速度Velocity
已经不是以我们所熟悉G或T为单位来衡量,而是以P、E或Z为计量单位
大数据的异构和多样性
很多不同形式(文本、图像、视频、机器数据)
无模式或者模式不明显
不连贯的语法或句义
大量的不相关信息
对未来趋势与模式的可预测分析
深度复杂分析(机器学****人工智能Vs传统商务智能(咨询、报告等)
实时分析而非批量式分析
数据输入、处理与丢弃
立竿见影而非事后见效
大数据的特性
云计算将计算任务分布在大量计算机构成的资源池上,是各种应用系统能够根据需要获取计算力、存储空间和各种软件服务。
云计算的“云”就是存在于互联网上的服务器集群,它包括硬件资源(服务器、存储器、CPU等)和软件资源(如应用软件、集成开发环境等)大数据的存储和运算就可以建立在这些云主机当中。
什么是云计算
分布式计算的好处:
成本降低,能用PC机,不用高端服务器和高端存储
可靠性增加
处理数据的能力大大增加
Google文件系统GFS(Google File
System)
并行数据处理MapReduce
结构化数据表BigTable
Google 大数据处理技术
数据挖掘
产生背景
随着数据库技术的飞速发展,快速增长的海量数据收集、存放在大量数据储存库中
理解他们已经远远超出人的能力
数据丰富,但信息缺乏
如何对数据进行挖掘?
数据挖掘步骤
结果解释
和评估
数据挖掘
算法执行
数据收集
问题
定义
大数据与机器学习 来自淘豆网www.taodocs.com转载请标明出处.