下载此文档

第5章 数据分类(1).ppt


文档分类:IT计算机 | 页数:约55页 举报非法文档有奖
1/55
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/55 下载此文档
文档列表 文档介绍
第5章数据分类
5/18/2018
1
数据仓库与数据挖掘
引例
分类的定义
分类是一个两步过程,即事先利用已有数据样本建立一个数学模型,然后对新的数据进行分类的过程。
用基于归纳的学****算法得出分类。
分类与预测的区别
分类:预测分类标号(离散值),根据训练数据集和类标号属性构建分类模型,对新数据进行分类.
例如:信任度等级划分问题
预测:预测函数值(连续值),根据训练数据集,建立连续函数值模型,然后利用该模型计算新数据的函数值
例如:回归分析,销售预测问题
2
1)数据分类——一个两步过程
假定每个元组属于一个预定义的类,由一个类标号属性确定
训练数据集:由为建立模型而被分析的数据元组形成
训练样本:训练数据集中的单个样本(元组)
得到的学****模型可以用分类规则、判定树或数学公式的形式表示
然后评估模型, 预测准确率
对每个测试样本,将已知的类标号和该样本的学****模型类预测比较
模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比
测试集要独立于训练样本集,否则会出现“过分适应数据”的情况
第二步,使用模型,对新的未知类的对象进行分类
第一步,建立一个模型,描述预定数据类集和概念集
3
Age
Salary
Class
30
high
c1
25
high
c2
21
low
c2
43
high
c1
18
low
c2
33
low
c1



描述属性
类别属性
2)分类问题使用的数据集格式
4
描述属性可以是连续型属性,也可以是离散型属性;而类别属性必须是离散型属性。
连续型属性是指在某一个区间或者无穷区间内该属性的取值是连续的,例如属性“Age”
离散型属性是指该属性的取值是不连续的,例如属性“Salary”和“Class”
5
分类问题中使用的训练数据样本集可以表示为:
X={(xi,yi)|i=1,2,…,total}
xi=(xi1,xi2,…,xid) ,其中xi1,xi2,…,xid分别对应d个描述属性A1,A2,…,Ad的具体取值
yi表示数据样本xi的类标号,假设给定数据集包含m个类别,则yi∈{c1,c2,…,cm},其中c1,c2,…,cm是类别属性C的具体取值
未知类标号的数据样本x用d维特征向量:
x=(x1,x2,…,xd)
来表示。
6
3)有指导的学****VS. 无指导的学****br/>1)有指导的学****用于分类)
模型的学****在被告知每个训练样本属于哪个类的“指导”下进行
新数据使用训练数据集中得到的规则进行分类
2)无指导的学****用于聚类)
每个训练样本的类编号是未知的,要学****的类集合或数量也可能是事先未知的
通过一系列的度量、观察来建立数据中的类编号或进行聚类
7
分类问题概述
分类的过程
获取数据
预处理
分类器设计
分类决策
8
第一步——建立模型
训练数
据集
分类算法
IF rank = ‘professor’
OR years > 6
THEN tenured = ‘yes’
分类规则
9
分类规则
测试集
Tenured?
评估已建立的模型
IF rank = ‘professor’
OR years > 6
THEN tenured = ‘yes’
准确率?
10

第5章 数据分类(1) 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数55
  • 收藏数0 收藏
  • 顶次数0
  • 上传人w447750
  • 文件大小524 KB
  • 时间2018-05-18