自变量选择与逐步回归
一、 全模型和选模型
设研究某一实际问题,涉及对因变量有影响的因素共有m个,由因变量y和
m个自变量构成的回归模型y =。+ P x + P x + — P x +£称为全模型。
0 1 1 2 2 m m
后的复决定系数,其中,n为样本容量,p为自变量的个数。在实际问题的回归 建模中,自由度调整复决定系数R2越大,所对应的回归方程越好。则所有回归 a
子集中R 2最大者对应的回归方程就是最优方程。 a
从另外一个角度考虑回归的拟合效果,回归误差项。2的无偏估计为:
2 =—— SSE,此无偏估计式中也加入了惩罚因子n-p-1,预2实际上就是用 n — p — 1 自由度n-p-1作平均的平均残差平方和。当自变量个数从0开始增加时,SSE逐 渐减小,作为除数的惩罚因子n-p-1也随之减小。当自变量个数从0开始增加时, 62先是开始下降然后稳定下来,当自变量个数增加到一定数量后,62又开始增 加。这是因为刚开始时,随着自变量个数增加,SSE能够快速减小,虽然作为除 数的惩罚因子n-p-1也随之减小,但由于SSE减小的速度更快,因而62是趋于 减小的。当自变量数目增加到一定程度,应该说重要的自变量基本上都已经选上 了,这时在增加自变量,SSE减少不多,以至于抵消不了除数
n-p-1的减小,最 终又导致了62的增加。
用平均残差平方和62和调整的复决定系数作为自变量选元准则实际上是等 价的。因为有R2 =1-W,2,由于SST是与回归无关的固定值,因而R2与62是 等价的。62小说明模型好,而62小R2就会大也说明模型好。
a
准则二:赤池信息量AIC达到最小。
设模型的似然函数为L(B ,x),0的维数为p,x为随即样本,则AIC定义为:
AIC=-2lnL(0 ,x) +2p,其中o”为0的极大似然估计;p为未知参数的个数,式中 L L
右边的第一项是似然函数的对数乘以-2,第二项惩罚因子是未知参数个数的2 倍。似然函数越大估计量越好,现在AIC是死然数的对数乘以-2再加上惩罚因 子2p,因而选择使AIC达到最小的模型是最优模型。在回归分析的建模过程中, 对每一个回归子集计算AIC,其中AIC最小者所对应的模型是最优回归模型。
准则三:*统计量达到最小
即使全模型正确,仍有可能选模型有更小的预测误差,Cp正是根据这一原
理提出来的。C = (n-m-1) p -n + 2p,其中62 = i SSE为全模型中
p SSE n — m — 1 m
m
6 2的无偏估计。选择使。,最小的自变量子集,这个自变量子集对应的回归方程 就是最优回归方程。
四、前进法
前进法的思想是变量由少到多,每次增加一个,直至没有可引入的变量为止。
具体做法是首先将去全部m个自变量,分别对因变量y建立m个一元线性回 归方程,并分别计算这m个一元回归方程的m个回归系数的F检验值,记为 F1,F 1,...,F1 },选其最大者记为F1 = maxF 1,F1,…,F1}给定显著性水平a,
1 2 m j 1 2 m
若F1 > F (1,n — 2),则首先将x引入回归方程,为了方便,设x就是x。
j a j j 1
接下来因变量y分别与(x ,x ), ( x ,x ),•••, ( x ,x )
自变量选择与逐步回归 来自淘豆网www.taodocs.com转载请标明出处.