下载此文档

第5章 数据分类.ppt


文档分类:IT计算机 | 页数:约32页 举报非法文档有奖
1/32
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/32 下载此文档
文档列表 文档介绍
第5章数据分类
5/18/2018
1
数据仓库与数据挖掘
引例
分类的定义
分类是指把数据样本映射到一个事先定义的类中的学****过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学****算法得出分类。
5/18/2018
2
数据仓库与数据挖掘
引例
Age
Salary
Class
30
high
c1
25
high
c2
21
low
c2
43
high
c1
18
low
c2
33
low
c1



描述属性
类别属性
分类问题使用的数据集格式:
5/18/2018
3
数据仓库与数据挖掘
引例
分类问题使用的数据集格式
描述属性可以是连续型属性,也可以是离散型属性;而类别属性必须是离散型属性。
连续型属性是指在某一个区间或者无穷区间内该属性的取值是连续的,例如属性“Age”
离散型属性是指该属性的取值是不连续的,例如属性“Salary”和“Class”
5/18/2018
4
数据仓库与数据挖掘
引例
分类问题使用的数据集格式
分类问题中使用的数据集可以表示为X={(xi,yi)|i=1,2,…,total}
xi=(xi1,xi2,…,xid) ,其中xi1,xi2,…,xid分别对应d个描述属性A1,A2,…,Ad的具体取值
yi表示数据样本xi的类标号,假设给定数据集包含m个类别,则yi∈{c1,c2,…,cm},其中c1,c2,…,cm是类别属性C的具体取值
未知类标号的数据样本x用d维特征向量x=(x1,x2,…,xd)来表示
5/18/2018
5
数据仓库与数据挖掘
分类问题概述
分类的过程
分类的评价准则
5/18/2018
6
数据仓库与数据挖掘
分类的过程
获取数据
预处理
分类器设计
分类决策
5/18/2018
7
数据仓库与数据挖掘
分类的过程
获取数据
输入数据、对数据进行量化
预处理
去除噪声数据、对空缺值进行处理
数据集成或者变换
分类器设计
划分数据集、分类器构造、分类器测试
分类决策
对未知类标号的数据样本进行分类
5/18/2018
8
数据仓库与数据挖掘
分类的评价准则
给定测试集Xtest={(xi,yi)|i=1,2,…,N}
N表示测试集中的样本个数
xi表示测试集中的数据样本
yi表示数据样本xi的类标号
对于测试集的第j个类别,假设
被正确分类的样本数量为TPj
被错误分类的样本数量为FNj
其他类别被错误分类为该类的样本数据量为FPj
5/18/2018
9
数据仓库与数据挖掘
分类的评价准则
精确度:代表测试集中被正确分类的数据样本所占的比例
5/18/2018
10
数据仓库与数据挖掘

第5章 数据分类 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数32
  • 收藏数0 收藏
  • 顶次数0
  • 上传人w447750
  • 文件大小248 KB
  • 时间2018-05-18