模式识别实验题目:基于自助法随机森林分类器设计班 级:信息10-2姓 名: 朱玥学 号: 39指导教师: 钱云目录随机森林介绍...................................3自助法.........................................4实验原理.......................................5实验目的.......................................5实验步骤.......................................5实验内容.......................................6实验结果.......................................7小结与讨论.....................................81、随机森林介绍:随机森林分类(RFC)是由很多决策树分类模型{h(X,θk),k=1,...}组成的组合分类模型,且参数集{θk}是独立同分布的随机向量,在给定自变量X下,每个决策树分类模型都由一票投票权来选择最优的分类结果。RFC的基本思想:首先,利用bootstrap抽样从原始训练集抽取k个样本,且每个样本的样本容量都与原始训练集一样;其次,对k个样本分别建立k个决策树模型,得到k种分类结果;最后,根据k种分类结果对每个记录进行投票表决决定其最终分类。RF通过构造不同的训练集增加分类模型间的差异,从而提高组合分类模型的外推预测能力。通过k轮训练,得到一个分类模型序列{h1(X),h2(X),...,hk(X)},再用它们构成一个多分类模型系统,该系统的最终分类结果采用简单多数投票法。最终的分类决策:其中,H(x)表示组合分类模型,hi是单个决策树分类模型,Y表示输出变量(或称目标变量),I()为示性函数。式(1)说明了使用多数投票决策的方式来确定最终的分类。随机森林具有以下特征:在现有的算法中随机森林算法的精度是无可比拟的。随机森林能够有效的处理大数据集。随机森林可以处理没有删减的成千上万的输入变量。随机森林能够在分类的过程中可以生成一个泛化误差的内部无偏估计。随机森林是一种具有有效的估计缺失数据的方法,当数据集中有大比例的数据缺失时仍然可以保持精确度不变。在不平衡的数据集的类别总体中可以平衡误差。随机森林提供了一种检测变量交互作用的实验方式。特别值得注意的是随机森林的运行速度非常快并且不会产生过度拟合,可以根据需要生成任意多的树。基于随机森林的诸多优点,随机森林在当前的机器学****领域里成为了一个新的研究热点。随机森林常用的构建方法:(Bagging)、。自助法的基本思路:如果不知道总体分布,那么,对总体分布的最好猜测便是由数据提供的分布。自助法的要点是:①假定观察值便是总体;②由这一假定的总体抽取样本,即再抽样。由原始数据经过再抽样所获得的与原始数据集含量相等的样本称为再抽样样本(resamples)或’自助样本(boo
模式识别随机森林报告 来自淘豆网www.taodocs.com转载请标明出处.