下载此文档

最小二乘法数据拟合与回归.docx


文档分类:高等教育 | 页数:约14页 举报非法文档有奖
1/14
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/14 下载此文档
文档列表 文档介绍
最小二乘法数据拟合与回归
简介:
本文主要对PRML—书的第一章总结,结合moore关于回归的课件Predictingrea卜valuedoutputs:anintroductiontoregression
什么是回归(.
考虑order为M的多项式曲线,可以表述为下面的形式:
AJ
卩他W)=血+助需+物/+…+3艇廿"=£明£
曲线拟合的目标可以表述为优化是的下面的E(W)最小化(当然你可能会选取不同的errorfunction这只是其中一种而已):
]"
Eg)={3/(^n>W)-tn}2
对于取到最小值的”我们表示为T,最优的最小距离是(-:;;'<
如果我们选择不同的order值即M不同的多项式曲线去拟合,比如取M=0,1,3,9最小二乘法拟合的结果如下图:
可以看到M=9的情况,曲线和采样观察点拟合的很好但是却偏离了整体,不能很好的反映,这就是传说中的overfitting过度拟合问题。
越高的order值M,对应越flexible的曲线,能够对采样点更好的逼近,毕竟高order的曲线包含了(可以表示)所有低order的曲线。另外
是包含所有order的,所以可以预见M越大对采样点拟合越好。但是从上图可以看出越大的M越flxible的曲线则对于噪声越敏感。
上面提到过度拟合问题,那么如何评判是否过度拟合呢?我们的终极目标是什么呢,终极目标是:
对于一个新的data,我们可以给出精确的值预测,即对于新的'•…给出精确的估计
我们可以采用另外生成一个test数据集比如100个数据,对于每个M值,计算对于训练
集trainningdata的''和对于测试集testdata的''•。有的时候
可能用下面的误差函数更好:
Erms=\/2E(w*)/N
这样可以使得对于不同的N即数据集合的大小有一个公平的比较基准。
Graphsoftheroot-mean-squsreerrorPdefinedby(1r3)„evaluatedonthetrainingsetandonanindependenttestsetforv^riousvaluesofAL
对于过度拟合问题,如果增加观察点,贝y可以看到过度拟合的问题得以缓解,如下图m=9:
数据集合的大小越大,我们可以承受的模型复杂度越大。一个常见做法是数据(datapoints)应该多于参数数目的一定倍数(如,5,10)才能取得较好的效果。
在第3章中我们会看到,参数的数目并不是模型复杂度最好的度量。
同时很不爽的是我们需要根据训练集合的数据大小(sizeoftheavailabletrainingset)来限制模型的参数数目。看上去更自然的是根据要解决问题的复杂度来选择模型的复杂度。
我们将要看到最小二乘法和最大似然法是一致的(前面的单一参数线性回归的例子已经给了一个证明:)。如果采用贝叶斯方法,过度拟合问题可以避免。从贝叶斯的角度,实施用一个参数数目远多于datapoints的模型是可行的,事实上在贝叶斯模型,有效的参数数目可以根据dataset的大小自动调整。
当下从最小二乘法的角度,为了解决过度拟合的问题,我们可以改变优化目标,加入reularization,限制|w|的值过大。
E(w)=£±{讥叽w)
n=1

考虑仍一个硬币3次,假如我们3次观察到的结果都是背面,那么从最大似然的角度,我们会判定硬币观察到背面的可能性是100%,而如果我们有一定的先验知识我们不会得出这种结论。
考虑我们有红色和蓝色两个盒子,红色的盒子里面有2个苹果6个橘子,蓝色的盒子有3
个苹果1个橘子。
假定我们选取红色盒子的概率是40%,选取蓝色盒子的概率是60%,那么我们从2个盒子中取到一个苹果的概率是(2/(2+6))*+
(3/(3+1))*=+==11/20,。
假定我们被告知我们取到了一个水果这个水果是橘子,那么我们是从哪个盒子里面取到它的呢?这个盒子是红色的可能性多大呢?显然直观的想试红色盒子的可能性不再是40%了(先验知识P(B=r)),而是变得更大了,因为红色的盒子里面更有可能取到橘子。即在知道取到是橘子的情况下盒子是红色的概率变大了(后验概率P(B=r|F=o),注意假如橘子在红色和蓝色中出现的可能性相同P(F=o)和P(F=o|B=r)相同则后验概率与先验概率相同,这个时候P(B=r)=P(B=r|F=o)即取到的水果和选取的盒

最小二乘法数据拟合与回归 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息