下载此文档

大数据之R语言培训课件.pptx


文档分类:IT计算机 | 页数:约35页 举报非法文档有奖
1/35
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/35 下载此文档
文档列表 文档介绍
大数据
BIG DATA
大数据之R语言培训课件
第1页
第五章 R语言
 R语言介绍
 R与数据挖掘
 SparkRof
44
2掘
数据挖掘(Data Mining)是从大量数据中发觉有趣知识过程,包括统计学、机器学****模式识别等多个交叉;
主要技术包含分类与预测、聚类、离群点检测、关联规则、序列分析和文本挖掘以及社交网络分析和情感分析等。
R语言与数据挖掘相关任务视图
MachineLearning:主要包括机器学****和统计学****功效
Cluster:主要包括聚类分析和有限混合模型
TimeSeries:主要包括时间序列分析
Multivariate:主要用于多元统计分析及其算法
Spatial:主要用于空间数据分析
R语言主要用于统计计算和统计制图,提供了大量统计和制图工具
of
44
11
大数据之R语言培训课件
第11页
R与数据挖掘
《大数据》配套PPT课件
K-近邻算法
决议树
支持向量机
分类与预测算法
分类与预测算法
of
44
12
R软件包与常见数据挖掘算法介绍
大数据之R语言培训课件
第12页
R与数据挖掘
《大数据》配套PPT课件
分类与预测算法—K-近邻算法
of
44
13
假如一个样本与特征空间中K个最相同(特征空间中最邻近)样本中大多数属于某一个类别,则该样本也属于这个类别
> library(kknn)  
> data(iris)  
> m <- dim(iris)[1]  
> val <- sample(1:m, size =round(m/3), replace = FALSE,  
> +prob= rep(1/m, m))  
>  <- iris[-val,]  
>  <- iris[val,]  
>  <- kknn(Species~.,, , distance = 5,  
> +kernel= "triangular")  
> summary()  
> fit <- fitted()  
> table($Species, fit) 
fit
setosa versicolor virginica
setosa 12 0 0
versicolor 0 21 0
virginica 0 0 17
kknn函数使用
R软件包与常见数据挖掘算法介绍
大数据之R语言培训课件
第13页
R与数据挖掘
《大数据》配套PPT课件
分类与预测算法—决议树
of
44
14
iris数据集决议树
决议树(Decision Tree)是一个依靠于分类、训练上预测树,依据已知预测、归类未来
生成树阶段
决议树修剪阶段
R软件包与常见数据挖掘算法介绍
大数据之R语言培训课件
第14页
R与数据挖掘
《大数据》配套PPT课件
分类与预测算法—支持向量机
of
44
15
支持向量机(Support Vector Machine,SVM)是一个二分类方法,即将数据集中数据分为两类
SVM中超平面对比
利用超平面分割数据集
R软件包与常见数据挖掘算法介绍
大数据之R语言培训课件
第15页
R与数据挖掘
《大数据》配套PPT课件
聚类算法及其R包
“聚类”是依据“物以类聚”原理,将本身没有类别样本聚集成不一样组(或称为簇),并对每个簇进行描述过程
惯用聚类算法主要包含K-means聚类、层次聚类和基于密度聚类
K-means聚类
层次聚类
基于密度聚类
of
44
16
R软件包与常见数据挖掘算法介绍
大数据之R语言培训课件
第16页
R与数据挖掘
《大数据》配套PPT课件
聚类算法及其R包—K-means聚类
of
44
17
同一聚类中对象相同度较高;而不一样聚类中对象相同度较小
部分鸢尾花数据3-

大数据之R语言培训课件 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数35
  • 收藏数0 收藏
  • 顶次数0
  • 上传人读书百遍
  • 文件大小3.04 MB
  • 时间2022-07-29