下载此文档

自变量选择与逐步回归.docx

文档分类：文学/艺术/军事/历史 | 页数：约5页举报非法文档有奖

1/5

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/5 下载此文档

文档列表 文档介绍

自变量选择与逐步回归
一、全模型和选模型
设研究某一实际问题，涉及对因变量有影响的因素共有m个，由因变量y和
m个自变量构成的回归模型y =。+ P x + P x + — P x +£称为全模型。
0 1 1 2 2 m m
后的复决定系数，其中，n为样本容量，p为自变量的个数。在实际问题的回归建模中，自由度调整复决定系数R2越大，所对应的回归方程越好。则所有回归 a
子集中R 2最大者对应的回归方程就是最优方程。 a
从另外一个角度考虑回归的拟合效果，回归误差项。2的无偏估计为：
2 =—— SSE,此无偏估计式中也加入了惩罚因子n-p-1，预2实际上就是用 n — p — 1 自由度n-p-1作平均的平均残差平方和。当自变量个数从0开始增加时，SSE逐渐减小，作为除数的惩罚因子n-p-1也随之减小。当自变量个数从0开始增加时， 62先是开始下降然后稳定下来，当自变量个数增加到一定数量后，62又开始增加。这是因为刚开始时，随着自变量个数增加，SSE能够快速减小，虽然作为除数的惩罚因子n-p-1也随之减小，但由于SSE减小的速度更快，因而62是趋于减小的。当自变量数目增加到一定程度，应该说重要的自变量基本上都已经选上了，这时在增加自变量，SSE减少不多，以至于抵消不了除数
n-p-1的减小，最终又导致了62的增加。
用平均残差平方和62和调整的复决定系数作为自变量选元准则实际上是等价的。因为有R2 =1-W，2，由于SST是与回归无关的固定值，因而R2与62是等价的。62小说明模型好，而62小R2就会大也说明模型好。
a
准则二：赤池信息量AIC达到最小。
设模型的似然函数为L(B ,x)，0的维数为p,x为随即样本，则AIC定义为：
AIC=-2lnL(0 ,x) +2p，其中o”为0的极大似然估计；p为未知参数的个数，式中 L L
右边的第一项是似然函数的对数乘以-2，第二项惩罚因子是未知参数个数的2 倍。似然函数越大估计量越好，现在AIC是死然数的对数乘以-2再加上惩罚因子2p，因而选择使AIC达到最小的模型是最优模型。在回归分析的建模过程中，对每一个回归子集计算AIC，其中AIC最小者所对应的模型是最优回归模型。
准则三：*统计量达到最小
即使全模型正确，仍有可能选模型有更小的预测误差，Cp正是根据这一原
理提出来的。C = (n-m-1) p -n + 2p，其中62 = i SSE为全模型中
p SSE n — m — 1 m
m
6 2的无偏估计。选择使。，最小的自变量子集，这个自变量子集对应的回归方程就是最优回归方程。
四、前进法
前进法的思想是变量由少到多，每次增加一个，直至没有可引入的变量为止。
具体做法是首先将去全部m个自变量，分别对因变量y建立m个一元线性回归方程，并分别计算这m个一元回归方程的m个回归系数的F检验值，记为 F1,F 1,...,F1 ｝，选其最大者记为F1 = maxF 1,F1,…,F1｝给定显著性水平a，
1 2 m j 1 2 m
若F1 > F (1,n — 2)，则首先将x引入回归方程，为了方便，设x就是x。
j a j j 1
接下来因变量y分别与（x ,x ）, （ x ,x ）,•••, （ x ,x ）

自变量选择与逐步回归来自淘豆网www.taodocs.com转载请标明出处.