下载此文档

浅谈大数据分析技术及其应用.doc


文档分类:IT计算机 | 页数:约9页 举报非法文档有奖
1/9
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/9 下载此文档
文档列表 文档介绍
浅谈大数据分析技术及其应用
高聪 熊杰 刘彩云 摘要:该文主要介绍了大数据分析的关键技术,以及大数据分析在行业中的应用,以期对有关人员提供参考。
关键词:大数据;分布式;机器学****可视化
中图分类号:TP311 优化,它将计算过程放入内存,不需要反复读写硬盘,算法运行速度快。更重要的是,它比MapReduce的操作更简单,支持的任务种类更多。计算机科学的发展是不断地将问题进行抽象,从而让人能够在更高的层次解决问题。Spark也是对分布式大数据处理的一种抽象,让工程师或者分析人员能够不必像写MapReduce 一样,太关注底层的实现逻辑,从而在处理层次上投入更多精力。Spark在技术层面兼容存储层,例如Hadoop中的HDFS这种分布式文件存储或者MongoDB、Cassandra这类数据库,Spark支持交互式计算和复杂算法。它还需要一个集群的管理器,比如YARN、Me-sos等用来管理相应的数据处理任务。当然Spark自己也提供集群管理功能,这样集群的每个节点都需要安装Spark,用于进行任务的编排。
Storm
Storm是一个优秀的分布式实时计算系统,是最佳的流式计算框架,支持全内存计算,Storm对于实时计算的意义类似于Hadoop对于批处理的意义。Storm有如下特点:(1)编程模型简单,降低了使用Storm开发业务的成本;(2)流式数据处理,Storm可以用来处理持续不断流人的数据,然后将处理之后的结果写入存储;(3)容错性,Storm具有很好的容错机制,出错时可通过自动重启以及任务重分配来保证计算正常进行;(4)多语言编程,Storm支持多种语言编程,通过实现Storm通信协议就可以支持其他的编程语言;(5)消息处理快速可靠,Storm消息传递以及处理的速度均非常快,并且保证每条消息都至少得到一次完整的处理[1]。 2 大数据分析技术
想要发掘出大数据中蕴含的价值,不仅需要各种大数据处理系统的支持,还需要对大数据的内容进行分析与计算。本节主要介绍机器学****可视化技术在大数据分析中的作用。
机器学****br/> 机器学****是发掘数据价值的关键技术,其通过大量的数据来训练它的算法模型,然后通过模型对数据进行分析处理。传统的机器学****的问题主要包括:(1)学****并模拟人类的学****过程;(2)计算机系统与人类用户之间的自然语言接口的研究;(3)对不完整的信息进行推理的能力;(4)构造可发现新事物的程序[2]。机器学****的核心是“通过选择科学的算法解析相关数据,然后学****进而对相关业务做出决测”,也就是说与其明确地编写程序来完成特定任务,不如教计算机开发用于完成任务的算法。机械学****主要被分为如下几类:监督学****无监督学****和强化学****a)监督学****就是人工给定大量有标记的数据让机器分析以期达到识别数据的目的,回归分析和统计分类是常见的监督学****算法;(b)无监督学****输入的数据没有标记,样本数据的类型并不确定,通过样本的相似性对样本集进行聚类,通过数据集发现其中的规律,实现分析识别的目的;(c)强化学****的本质是教会计算机自动进行决策,并且连续的做出决策,其理论框架是马科夫决策过程(MDP)。
可视化分析
对大数据进行分析最终的目的是发现数据中的规律,进而帮助做

浅谈大数据分析技术及其应用 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数9
  • 收藏数0 收藏
  • 顶次数0
  • 上传人丰儿
  • 文件大小18 KB
  • 时间2022-05-20