分类挖掘:决策树
2021/12/26 星期日
决策树算法概述
决策树算法最早源于人工智能的机器学****技术,用以实现数据内在规律的探究和新数据对象的分类预测。
决策树算法属于有指导的学****br/>根结点
叶结点
内部结点
兄弟结点
2叉树
多叉树
分类预测
分类预测,就是通过向现有数据学****使模型具备对未来新数据的分类预测能力。
数据包含:
输入变量
输出变量
分类和预测
分类:分类型输出变量
预测:数值型输出变量
决策树算法概述
决策树的种类:
分类决策树:树叶结点所含样本的输出变量的众数就是分类结果。
回归决策树:树叶结点所含样本的输出变量的平均值就是预测结果。
利用决策树进行分类预测:
对新数据进行分类预测时,只需按照决策树的层次,从根结点开始依次对新数据输入变量值进行判断并进入不同的决策树分支,直至叶结点为止 。
特点:分类预测是基于逻辑的 。
IF THEN
每个叶节点对应一条推理规则
1 建立决策树,利用训练样本生成决策树模型。
开始,数据都在根节点
递归的进行数据分片
2 修剪决策树
去掉一些可能是噪音或者异常的数据
3 使用决策树对未知数据进行分类
按照决策树上采用的分割属性逐层往下,直
到一个叶子节点
使用决策树进行分类
判定树分类算法
output
训练集
决策树
input
2021/12/26 星期日
决策树的核心问题
第一,决策树的生长,即利用训练样本集完成决策树的建立过程;
;
。
决策树的核心问题
第二,决策树的修剪,即利用检验样本集对形成的决策树进行优化处。
过度拟和(Overfitting)
预修剪(pre-pruning)、后修剪(post-pruning)
训练集(Train):数据库中为建立模型而被分析的数据元组形成训练集。
训练集中的单个元组称为训练样本,每个训练样本有一个类别标记。一个具体样本的形式可为:( v1, v2, ..., vn; c );其中vi表示属性值,c表示类别。
测试集(Test):用于模型参数的估计,评估分类模型的准确率。
验证集(Validation):用于模型误差的估计。
训练集与测试集
2021/12/26 星期日
训练集
分类阶段
评估准确率(测试集)
对类标号未知的新
数据分类
分类的两个阶段
2021/12/26 星期日
基本算法
自上而下分而治之的方法
开始时,所有的数据都在根节点
所有记录用所选属性递归的进行分割
属性的选择是基于一个启发式规则或者一个统计的度量 (如, information gain)
停止分割的条件
一个节点上的数据都是属于同一个类别
没有属性可以再用于对数据进行分割
2021/12/26 星期日
分类挖掘:决策树 来自淘豆网www.taodocs.com转载请标明出处.