相关分析与回归分析
(上)
2018年6月15日
内容安排
相关分析
线性回归模型简介
关于线性回归的高级话题
其它回归过程简介
相关分析
常用术语
直线相关
两变量呈线性共同增大
呈线性一增一减
曲线相关
两变量存在相关趋势
并非线性,而是呈各种可能的曲线趋势
正相关与负相关
完全相关
相关分析
分析过程介绍
Bivariate过程
进行两个/多个变量间的参数/非参数相关分析
如果是多个变量,则给出两两相关的分析结果
Partial过程
对其他变量进行控制
输出控制其他变量影响后的相关系数
相关分析
分析过程介绍
Distances过程
对同一变量内部各观察单位间的数值或各个不同变量间进行相似性或不相似性(距离)分析
前者可用于检测观测值的接近程度
后者则常用于考察各变量的内在联系和结构。
一般不单独使用,而是作为MDS的预分析过程。
典型相关分析
相关分析
Bivariate过程
销售额与与竞争对手距离(步行所需时间)间的关系。
散点图
非参数相关系数
相关分析
Partial过程
现已测得20名糖尿病人的血糖(y,mmol/L)、胰岛素(x1,mU/L)及生长激素(x2,μg/L)的测量数据,请分析糖尿病人血糖浓度与生长激素浓度间有无相关关系。
线性回归模型简介
概述
线性回归模型简介
回归模型的分类
线性回归
非线性回归
针对应变量为分类资料的回归方法
其它回归过程
线性回归模型简介
基本模型
希望研究月销售额与广告投入量、销售人员数量间的关系,并建立相应的多元线性回归方程,则实际上拟合的模型如下:
线性回归模型简介
模型适用条件
线性趋势
独立性
正态性
方差齐性
如果只是探讨自变量与因变量间的关系,则后两个条件可以适当放宽
线性回归模型简介
模型适用条件
样本量
根据经验,记录数应当在希望分析的自变量数的20倍以上为宜。
线性回归模型简介
常用指标
偏回归系数
相应的自变量上升一个单位时,应变量取值的变动情况,即自变量对应变量的影响程度。
标化偏回归系数:量纲问题
决定系数
相应的相关系数的平方,用R2表示,它反映应变量y的全部变异中能够通过回归关系被自变量解释的比例。
线性回归模型简介
简单分析实例
建立销售额与距离间的回归方程。
使用方差分析模型拟合
残差分析
对残差的图形化分析
绘制个体参考值范围以及均数值的可信区间
线性回归模型简介
分析步骤
做出散点图,观察变量间的趋势
线性回归模型简介
分析步骤
考察数据的分布,进行必要的预处理。即分析变量的正态性、方差齐等问题
进行直线回归分析
残差分析
残差间是否独立(Durbin-Watson检验)
残差分布是否为正态(图形或统计量)
线性回归模型简介
分析步骤
残差分析
线性回归模型简介
分析步骤
强影响点的诊断
多重共线性问题的判断
这两个步骤和残差分析往往混在一起,难以完全分出先后
综合分析实例
房屋售价影响因素的分析:
几种方法都做一遍
采用方差分析模型来拟合
休息
关于线性回归的高级话题
强影响点的诊断及对策
诊断
做出散点图,观察有无离群值
使用Statistic子对话框中的残差诊断指标
使用残差图
关于线性回归的高级话题
强影响点的诊断及对策
距离指标
Mahalanobis:多个自变量出现大的马氏距离
Cook’s:大于1
Leverage values:杠杆值,大于2*P/N
专门的影响力统计量
DfBeta(s):去除该观察值后回归系数的变化值。
Standardized DfBeta:标化DfBeta值,大于2/Sqrt(N)
DfFit:表示去除该观察值后预测值的变化值。
Standardized DfFit:标准化的DfFit值,大于2/Sqrt(P/N)
Covariance ratio:协方差阵比率。大于3*P/N
关于线性回归的高级话题
强影响点的诊断及对策
对策
去除
补充进行个案分析
变量变换
非参数分析
稳健回归方法
关于线性回归的高级话题
多重共线性问题及对策
多重共线性的确认
相关系数阵
容忍度(Tolerance):
方差膨胀因子(Variance inflation factor, VIF):就是容忍度的倒数
特征根(Eigenvalue):多个维度的特征根约为0
条件指数(Condition Index):大于30时
关于线性回归的高级话题
多重共线性问题及对策
多重共线
SPSS暑假特训B 来自淘豆网www.taodocs.com转载请标明出处.