下载此文档

SPSS学习系列30主成份分析.docx


文档分类:高等教育 | 页数:约10页 举报非法文档有奖
1/10
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/10 下载此文档
文档列表 文档介绍
30. 主成份分析一、基本原理主成份分析, 是数学上对数据降维的一种方法, 是将多个变量转化为少数综合变量( 集中了原始变量的大部分信息) 的一种多元统计方法。其主要目的是将变量减少, 并使其改变为少数几个相互独立的线性组合形成的新变量(主成份,其方差最大) ,使得原始资料在这些成份上显示最大的个别差异来。在所有的线性组合中所选取的 F1 应该是方差最大的,称为第一主成分。如果第一主成分不足以代表原来所有指标的信息, 再考虑选取第二个线性组合 F2, 称为第二主成分。为了有效地反映原有信息, F1 已有的信息就不需要再出现在 F2 中,用数学语言表达就是要求 Cov(F1 , F2) = 0. 依此类推可以构造出第三、第四、…、第p 个主成分。主成份分析, 可以用来综合变量之间的关系, 也可用来减少回归分析或聚类分析中的变量数目。设有 n 个样品( 多元观测值), 每个样品观测 p 项指标( 变量): X 1,…, X p ,得到原始数据资料阵: 其中, X i=(x 1i, x 2i,…, x ni) T, i= 1,…, p. 用数据矩阵 X的 p 个列向量(即 p 个指标向量) X 1,…, X p 作线性组合,得到综合指标向量: 简写成: F i=a 1iX 1+a 2iX 2+…+a piX pi=1,…,p 限制系数 a i=(a 1i, a 2i,…, a pi) T 为单位向量,即且由下列原则决定: ( 1) F i与 F j 互不相关,即 COV( F i,F j )=a i T∑a i =0 , 其中∑为 X的协方差矩阵; ( 2) F 1是 X 1, X 2,…, X p 的所有满足上述要求的线性组合中方差最大的,即 F 2 是与 F 1 不相关的 X 1,…, X p 所有线性组合中方差最大的,…, F p 是与 F 1,…, F p-1 都不相关的 X 1,…, X p 所有线性组合中方差最大的。满足上述要求的综合指标向量 F 1, F 2,…, F p 就是主成分,这 p 个主成分从原始指标所提供的信息总量中所提取的信息量依次递减, 每一个主成分所提取的信息量用方差来度量, 主成分方差的贡献就等于原指标相关系数矩阵相应的特征值λ i ,每一个主成分的组合系数 a i=(a 1i, a 2i,…, a pi) T 就是特征值λ i 所对应的单位特征向量。方差的贡献率为α i 越大,说明相应的主成分反映综合信息的能力越强。注: 主成分分析是将原始变量组成的坐标系进行平移变换, 使得新的坐标原点和数据群点的重心重合。新坐标第一轴与数据变化最大方向对应。 F 1, F 2,…, F p 可以理解为 p 维空间中互相垂直的 p 个坐标轴。基本步骤: ( 1 )计算样品数据协方差矩阵Σ=(s ij) p?p ,其中( 2) 求出Σ的特征值及相应的特征向量λ 1>λ 2>…>λ p >0, 及相应的正交化单位特征向量: 则 X 的第 i 个主成分为 F i=a i TX, i=1, …, p. ( 3 )选择主成分在已确定的全部 p 个主成分中合理选择 m 个来实现最终的评价分析。一般用方差贡献率解释主成分 F i 所反映的信息量的大小, m 的确定是用累计贡献率达到足够大(一般在 85% 以上)为原则。( 4 )计算 n 个样品在 m

SPSS学习系列30主成份分析 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数10
  • 收藏数0 收藏
  • 顶次数0
  • 上传人63229029
  • 文件大小296 KB
  • 时间2017-05-29