下载此文档

10.判别分析.ppt


文档分类:高等教育 | 页数:约65页 举报非法文档有奖
1/65
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/65 下载此文档
文档列表 文档介绍
1判别分析吴喜之 2判别?有一些昆虫的性别很难看出,只有通过解剖才能够判别; ?但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并利用这个标准来判别其他未知性别的昆虫。?这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。 3判别分析( discriminant analysis) ?这就是本章要讲的是判别分析。?判别分析和前面的聚类分析有什么不同呢? ?主要不同点就是,在聚类分析中一般人们事先并不知道或一定要明确应该分成几类,完全根据数据来确定。?而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这个数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。 4判别分析例子?数据 : 企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标(变量)进行评分。?这些指标包括:企业规模( is)、服务(se) 、雇员工资比例( sa)、利润增长( prr )、市场份额(ms) 、市场份额增长( msr )、流动资金比例(cp) 、资金周转速度( cs)等等。?另外,有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。?我们希望根据这些企业的上述变量的打分和它们已知的类别(三个类别之一: group-1 代表上升, group-2 代表稳定, group-3 代表下降)找出一个分类标准,以对没有被该刊物分类的企业进行分类。?该数据有 90 个企业( 90 个观测值),其中 30 个属于上升型, 30 个属于稳定型, 30个属于下降型。这个数据就是一个“训练样本”。 数据 6根据距离判别的思想? 数据有 8 个用来建立判别标准( 或判别函数) 的(预测)变量,另一个( group )是类别。?因此每一个企业的打分在这 8 个变量所构成的 8 维空间中是一个点。这个数据有 90个点, ?由于已经知道所有点的类别了,所以可以求得每个类型的中心。这样只要定义了如何计算距离,就可以得到任何给定的点(企业)到这三个中心的三个距离。?显然,最简单的办法就是离哪个中心距离最近,就属于哪一类。通常使用的距离是所谓的 Mahalanobis 距离。用来比较到各个中心距离的数学函数称为判别函数( discriminant function). 这种根据远近判别的方法,原理简单,直观易懂。 7Fisher 判别法(先进行投影) ?所谓 Fisher 判别法,就是一种先投影的方法。?考虑只有两个(预测)变量的判别分析问题。?假定这里只有两类。数据中的每个观测值是二维空间的一个点。见图。?这里只有两种已知类型的训练样本。其中一类有 38 个点(用“o”表示), 另一类有 44 个点(用“*”表示)。按照原来的变量(横坐标和纵坐标),很难将这两种点分开。?于是就寻找一个方向,也就是图上的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出,如果向其他方向投影,判别效果不会比这个好。?有了投影之后,再用前面讲到的距离远近的方法来得到判别准则。这种首先进行投影的判别方法就是 Fisher 判别法。 8 -4 -2 0 2 4 6 -4 -3 -2 -1 0 1 2 3 9 Fisher 判别法的数学 10 逐步判别法(仅仅是在前面的方法中加入变量选择的功能) ?有时,一些变量对于判别并没有什么作用,为了得到对判别最合适的变量,可以使用逐步判别。也就是,一边判别,一边引进判别能力最强的变量, ?这个过程可以有进有出。一个变量的判别能力的判断方法有很多种,主要利用各种检验,例如 Wilks ’ Lambda 、 Rao ’s V 、 The Squared Mahalanobis Distance 、 Smallest F ratio 或 The Sum of Unexplained Variations 等检验。其细节这里就不赘述了;这些不同方法可由统计软件的各种选项来实现。逐步判别的其他方面和前面的无异。

10.判别分析 来自淘豆网www.taodocs.com转载请标明出处.