下载此文档

R语言多元分析系列.doc


文档分类:高等教育 | 页数:约13页 举报非法文档有奖
1/13
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/13 下载此文档
文档列表 文档介绍
R语言多元分析系列.docR语言多元分析系列主成分分析(ponentsanalysis,PCA)是一种分析、简化数据集的技术。它把原始数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是在处理观测数目小于变量数目时无法发挥作用,例如基因数据。p函数,将结果输入到summary和plot函数中可分别得到分析结果和碎石图。但psych扩展包更具灵活性。1选择主成分个数选择主成分个数通常冇如下几种评判标准:■■?根据经验与理论进行选择根据累积方差贡献率,例如选择使累积方差贡献率达到80%的主成分个数。根据相关系数矩阵的特征值,选择特征值大于1的主成分。另一种较为先进的方法是平行分析(parallelanalysis)。该方法首先生成若干组与原始数据结构相同的随机矩阵,求出其特征值并进行平均,然后和真实数据的特征值进行比对,根据交叉点的位置来选择主成分个数。我们选择USJudgeRatings数据集举例,首先加载psych包,,从图中可见第一主成分位于红线上方,第二主成分位于红线下方,([厂1],fa="pc,,/=100/=FALSE)提取主成分pc=principal([,-l],=l) ,PC1即观测变量与主成分之间的相关系数,h2是变量能被主成分解释的比例,u2则是不能解释的比例。主成分解释了92%的总方差。p函数结果不同,p函数返回的是主成分的线性组合系数,而principal函数返回原始变量与主成分Z间的相关系数,这样就和因子分析的结果意义相一致。3旋转主成分旋转是在保持累积方差贡献率不变条件下,将主成分负荷进行变换,以方便解释。成分旋转这后各成分的方差贡献率将重新分配,此吋就不可再称之为“主成分”而仅仅是“成分”。旋转乂可分为正交旋转和斜交旋转。正交旋转的流行方法是方差最大化,需要在principal中增加rotate='varimax'参数加以实现。也冇观点认为主成分分析一般不需要进行旋转。4计算主成分得分主成分得分是各变量的线性组合,在计算出主成分得分之后,还可以将其进行回归等做进一步分析处理。但注意如果输入数据不是原始数据时,则无法计算主成分得分。我们需要在principal中增加score二T的参数设置,结果将存放在结果的score元素屮。探索性因子分析(ExploratoryFactorAnalysis,EFA)是一项用来找出多元观测变量的本质结构、并进行处理降维的技术。因而EFA能够将具有错综复杂关系的变量综合为少数几个核心因子。EFA和PCA的区别在于:PCA中的主成分是原始变量的线性组合,而EFA中的原始变量是公共因子的线性组合,因子是影响变量的潜在变量,变量屮不能被因子所解释的部分称为误差,因子和误差均不能直接观察到。进行EFA需要大量的样本,一般经验认为如何估计因子的数目为N,则需要有5N到:LON的样本数目。虽然EFA和PCA冇本质上的区别,但在分析流程上冇相似之处。,其变量是对人的六种能力,例如阅读和拼写能力进行了测验,其数据是一个协方差矩阵而非原始数据。R语言中stats包中的factanal函数可以完成这项丁作,但这里我们使用更为灵活的psych包。一、 选择因子个数一般选择因子个数可以根据相关系数矩阵的特征值,特征值大于0则可选择做为因子。我们仍使用平行分析法(parallelanalysis)。该方法首先生成若干组与原始数据结构相同的随机矩阵,求出其特征值并进行平均,然后和真实数据的特征值进行比对,根据交叉点的位置来选择因子个数。根据下图我们可以观察到特征值与红线的关系,冇两个因子都位于红线上方,显然应该选择两个因子。library(psych)covariances=$covcorrelations=cov2cor(covariances)fa

R语言多元分析系列 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数13
  • 收藏数0 收藏
  • 顶次数0
  • 上传人sssmppp
  • 文件大小71 KB
  • 时间2020-08-05