下载此文档

最小二乘法数据拟合与回归.docx


文档分类:高等教育 | 页数:约13页 举报非法文档有奖
1/13
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/13 下载此文档
文档列表 文档介绍
最小二乘法数据拟合与回归
简介:
本文主要对PRML —书的第一章总结,结合 moo re关于回归的课件Pr edict ing r ea卜valued outputs: an intr oducti on to regr essi o ir^ining daia 事or of = 1() points, shown as blue Girc1esH each Gompri&ing an observation of the input variable -t- along with the corresponding target vari-able t. The greets curve shows the function Kin(2^rj.-) used to gener- ^1@ lhe data. Our goal is to predict the vafue of t. for some new value .r. with out knowledge of the green curve.
考虑or de r为M的多项式曲线,可以表述为下面的形式:
AJ
卩他 W)=血 +助需+物/ +… + 3艇廿"=£明£
曲线拟合的目标可以表述为优化是的下面的E(W)最小化(当然你可能会选取不同的error function这只是其中一种而已):
]"
Eg) = {3/(^n>W)-tn}2

对于取到最小值的”我们表示为T ,最优的最小距离是(-:;;'<
如果我们选择不同的or de r值即M不同的多项式曲线去拟合,比如取M=0, 1, 3, 9最 小二乘法拟合的结果如下图:
可以看到M = 9的情况,曲线和采样观察点拟合的很好但是却偏离了整体,不能很好的反映 ,这就是传说中的over fitting过度拟合问题。
越高的order值M,对应越flexible的曲线,能够对采样点更好的逼近,毕竟高or de r的 曲线包含了(可以表示)所有低or de r的曲线。另外
是包含所有or de r的,所以可以预见M越大对采样点拟合越好。但是从上图可以看出越大 的M越flxible的曲线则对于噪声越敏感。
上面提到过度拟合问题,那么如何评判是否过度拟合呢?我们的终极目标是什么呢,终极目 标是:
对于一个新的data,我们可以给出精确的值预测,即对于新的'•…给出精确的估计
我们可以采用另外生成一个test数据集比如100个数据,对于每个M值,计算对于训练
集trainning data的''和对于测试集test data的'' •。有的时候
可能用下面的误差函数更好:
Erms = \/2E(w*)/N
这样可以使得对于不同的N即数据集合的大小有一个公平的比较基准。
Graphs of the root-mean-sq us re errorP defined by (1 r3)„ evaluated on the training set and on an independent test set for v^rious values of A L
对于过度拟合问题,如果增加观察点,贝y可以看到过度拟合的问题得以缓解,如下图m=9:
数据集合的大小越大,我们可以承受的模型复杂度越大。一个常见做法是数据(data poi nts) 应该多于参数数目的一定倍数(如,5,10)才能取得较好的效果。
在第3章中我们会看到,参数的数目并不是模型复杂度最好的度量。
同时很不爽的是我们需要根据训练集合的数据大小(size of the available training set)来限制模型的参数数目。看上去更自然的是根据要解决问题的复杂度来选择模型的复 杂度。
我们将要看到最小二乘法和最大似然法是一致的(前面的单一参数线性回归的例子已经给 了一个证明:)。如果采用贝叶斯方法,过度拟合问题可以避免。从贝叶斯的角度,实施用 一个参数数目远多于data points的模型是可行的,事实上在贝叶斯模型,有效的参数数 目可以根据data set的大小自动调整。
当下从最小二乘法的角度,为了解决过度拟合的问题,我们可以改变优化目标,加入 reula rizatio n,限制|w |的值过大。
E(w) = £ ± {讥叽 w)
n = 1

考虑仍一个硬币3次,假如我们3次观察到的结果都是背面,那么从最大似然的角度,我 们会判定硬币观察到背面的可能性是100%,而如果我们有一定的先验知识我们不会得出 这种结论。
考虑我们有红色和蓝色两个盒子,红色的盒子里面有2个苹果6个橘子,蓝色的盒子有3
个苹果1个橘子。
假定我们选取红色盒子的概率是4

最小二乘法数据拟合与回归 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数13
  • 收藏数0 收藏
  • 顶次数0
  • 上传人jiyudian11
  • 文件大小236 KB
  • 时间2022-07-29