下载此文档

费希尔判别法理论.docx


文档分类:研究生考试 | 页数:约9页 举报非法文档有奖
1/9
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/9 下载此文档
文档列表 文档介绍
费希尔判别
费希尔判别(或称典型判别)的基本思想是投影(或降维):用维向量的少数几个线性组合(称为费希尔判别函数或典型变量)(一般明显小于)来代替原始的个变量,以达到降维的目的,并根据这个判别函数对样品的归属做出判别或将各组分离。成功的降维将使样品的归类或组的分离更为方便和有效,并且可以对前三个判别函数作图,从直观的几何图像上区别各组。
在降维的过程中难免会有部分有用信息的损失,但只要使用的方法得当,我们可以最大限度地减少这种损失,从而保留尽可能多的有用信息,即关于能够反应组之间差异的信息。为便于理解,我们以下用一个简单的二维例子来加以说明。
图投影到某个方向再判别
如图所示,两个组的所有样品都测量了两个变量和,将所有()点画于直角坐标系上,一组的样品点用“×”表示,另一组的样品点用“○”表示。假定我们希望将二维空间的点投影到某个一维空间,即一条直线上,然后再对两组进行判别,则投影到不同的直线上,判别的效果一般是不同的。从图中可见,如果两组的点都投影到直线上则这两组的投影点在该直线上的分布几乎无任何差异,他们完全混合在一起,我们无法将这两组的点区别开来,这样的降维把反应两组间差异的信息都给损失了,显然是不可取的。事实上,最好的投影是投
影到直线上,因为它把两组的投影点很清楚地区分了开来,这种降维把有关两组差异的信息很好地保留了下来,几乎没有任何损失,如此就完全可以在一维的直线上作判别分析。
我们现考虑在中将组的维数据向量投影到某个具有最佳方向的上,即投影到上的点能最大限度地显现出各组之间的差异。
设来自组的维观测值为,,,将它们共同投影到某一维常数向量上,得到的投影点可分别对应线性组合,,。这样,所有的维观测值就简化为一维观测值。下面我们用表示组中的均值,表示所有组组的的总均值,即
式中,,。
对于任一用来投影的,我们需要给出一个能反映组之间分离程度的度量。比较图中的上、下半图,上半图三组均值之间的差异程度与下半图是相同的,而前者组之间的分离程度却明显高于后者,原因就在于前者的组内变差要远小于后者,后者组之间有较多重叠。因此,可以考虑将组之间的分离程度度量为相对其组内变差的组间变差。在以下的讨论中,我们需假定各组的协方差矩阵相同,即。
图三组之间的分离程度
的组间平方和
式中为组间平方和及叉积和矩阵。的组内平方和
式中为组内平方和及叉积和矩阵。
可用来度量的组之间分离程度的一个量是
我们应选择这样的,使得达到最大。由于对任意非零常数,用代替上式中的,将保持不变,故考虑对加以约束。我们希望判别函数具有单位方差,即,但因未知,于是用其联合无偏估计替代,所以的约束条件实际应为,即判别函数的联合样本方差为1。
设的全部非零特征值依次为,这里,且有
()
(通常情况下上式等号成立),相应的特征向量依次记为(标准化为,)。由()式知,当时达到最大值。所以,选择投影到上能使各组的投影点最大限度地分离,称为费希尔第一线性判别函数,简称第一判别函数。在许多情况下(如组数是大的,或者原始的数据向量维数是大的),仅仅使用第一判别函数也许不够,因为仅在这一个投影方向上组之间的差异可能还不够清晰,各组未能很好地分开。这时,我们应考虑建立第二线性组合,为使降维最具效率,应要求(在线性关系的意义上)不重复

费希尔判别法理论 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息