多重回归与相关( Multiple regression and correlation ) 一、基本概念: 由于大自然是复杂的, 其中的现象大部分不是一对一的关系, 不能用线性回归与相关来解决问题。如: 人的体重与身高有关, 也与胸围有关; 血压值的大小除了与年龄有关外, 还受到性别、劳动强度、饮食****惯、吸烟状况、家族史等因素的影响。多重回归与多重相关是研究一个因变量和多个自变量之间线性关系的统计学分析方法。 1. 多个自变量与一个因变量的数量关系多重回归 2. 多个自变量与多个因变量的数量关系多元回归 3. 多个变量与一个变量的相关关系多重相关 4. 多个变量与多个变量的相关关系典则相关 5. 扣除其它变量影响后一变量与另一变量的相关关系偏相关本章仅讨论多重线性回归、多重线性相关和偏相关。二、多重线性回归模型与参数估计: (一) 多重线性回归模型: 设观察了 n 个对象,每个对象观察了因变量 Y和p 个自变量, 模型表达式: pp p xxxYXXX??????????? 22110,..., 2 ,1 | 样本回归方程: ppXbXbXbaY?????? 2211?β 0 (a) 为截距,β 1,β 2,…,β p(b 1 ,b 2,…,b p)为偏( 部分) 回归系数,β i(b i) 表示除 X i 外的其他自变量固定时, X i 改变一个单位后 Y 的平均变化。标准回归系数: 偏回归系数因各自变量值的单位不同不能直接比较其大小,对变量值作标准化变换, 得到的回归系数为标准回归系数, 可直接比较其大小,反映各自变量对因变量的贡献大小。(二) 参数估计的方法: 最小二乘原则???????????? ni pp i ni i )]Xb...XbXbb(Y[)YY(Q 1 2221101 2?最小。对方程中的每个待估参数求导并设导数为零, 得到一组线性方程组。由于是线性方程组,可以直接求解。具体的计算复杂,手工计算几乎不可能,一般需要计算机软件完成。例: 重庆医科大学附属第二医院的资料, 住院人数与门诊人数、病床利用率和病床周转次数的回归关系分析。参数估计如下: 变量回归系数标准误 tP 截距-4 31 - 5 407 门诊人数 X 15 0 8 病床利用率 X 22 0. 55 0. 5894 病床周转次数 X 3 0 45 得到回归方程: 32192998 .312 14931 .19 19851 .56 05583 .4510 ?XXX Y?????三、多重线性回归的假设检验: 1. 回归方程的方差分析: (1) 检验假设: H 0:0 21???? p...??? H 1: p,.., ,??? 21 不全为 0。05 0.??(2) 计算统计量 F 值: 9461837 ) ?( 1 2????? ni ieyy SS SS T= 36528242 SS r =SS T -SS e =3652824 2- 9461837 = 27066405 26 .15 16 /9461837 3/27066405 / /???? e ree rr MS MS SS SS F??(3) 确定概率和判断结果: p< 01, 拒绝零假设, 认为各偏回归系数不全为零,多重回归方程成立。 2. 回归系数的假设检验: (1) 检验假设: H 0:0 1?? H 1:0 1??05 0.??(2) 计算统计量: 10 .3001 .18 886 .55 )( 0 1 1????b SE bt (3) 确定概率和判断结果: P= ,偏回归系数不是来自 0 的总体。 3. 决定系数计算: 决定系数为: 741 .036528343 27066405 1 2????? SST SSE SST SSM R 说明在该医院住院人数的变异有 %可以用门诊人数,病床利用率及病床周转次数来解释。由于引进变量越多, 决定系数肯定越大, 决定系数不能反映回归方程的优良性。特别是作模型间的比较时,用校正决定系数较好。 6924 .0)1 /( )1 /(11 2????????n SST pn SSE MST MSE AdjR 四、回归分析中的变量筛选: 多重回归分析时, 不是引入模型的变量越多越好。与Y 不相干的变量引入模型不但不能改善模型的预测效果,可能还会增加预测误差。因此筛选“较优”的模型是多重回归分析的重要任务之一。(一)筛选变量的统计学标准: 1. 决定系数 2R 或 SSE 最小。 2. MSE 最小。等价于 MST MSE AdjR ??1 2。 p
多重线性回归 来自淘豆网www.taodocs.com转载请标明出处.