(1)
自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系,叫做相关关系.
相关关系的概念
2、相关关系与函数关系的异同点
不同点:函数高都是170cm,而父亲的身高分别为173cm,,所以不能用函数模型来刻画.
学****新知
问题3:从成对样本数据的散点图和样本相关系数可以发现,,由于有其他因素的存在,?
影响儿子身高的因素除父亲的身外,还有母亲的身高、生活的环境、饮食****惯、营养水平、体育锻炼等随机的因素,儿子身高是父亲身高的函数的原因是存在这些随机的因素.
问题4:由问题3我们知道,正是因为存在这些随机的因素,使得儿子的身高呈现出随机性各种随机因素都是独立的,,用类似于函数的表达式,表示儿子身高与父亲身高的关系吗?
如果用x表示父亲身高,Y表示儿子的身高,用e表示各种其他随机因素影响之和,称e为随机误差,由于儿子身高与父亲身高线性相关,所以Y=bx+a.
其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差,模型中的Y也是随机变量,其值虽然不能由变量x的值确定,但是却能表示为bx+a与e的和(叠加),前一部分由x所确定,后一部分是随机的,如果e=0,那么Y与x之间的关系就可用一元线性函数模型来描述.
学****新知
追问:为什么要假设E(e)=0,而不假设其为某个不为0的常数?
因为误差是随机的,即取各种正负误差的可能性一样,所以它们均值的理想状态应该为0.
思考:你能结合父亲与儿子身高的实例,说明回归模型①的意义?
①
学****新知
思考:你能结合父亲与儿子身高的实例,说明回归模型①的意义?
①
问题5:你能结合具体实例解释产生模型①中随机误差项的原因吗?
(1)除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、生活环境、饮食****惯和锻炼时间等.
(2)在测量儿子身高时,由于测量工具、测量精度所产生的测量误差.
(3)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,可以利用一元线性回归模型来近似这种关系,这种近似关系也是产生随机误差e的原因.
产生随机误差e的原因有:
学****新知
问题6:为了研究两个变量之间的相关关系,我们建立了一元线性回归模型
达式 刻画的是变量Y与变量x之间的线性相关关系,
其中参数a和b未知,我们能否通过样本数据估计参数a和b?
参数a和b刻画了变量Y与变量x的线性关系,因此通过样本数据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近.
与函数模型不同,回归模型的参数一般是无法精确求出的,只能通过成对样本数据估计这两个参数。
学****新知
追问1:我们怎样寻找一条“最好”的直线,使得表示成对样本数据的这些散点在整体上与这条直线最“接近”?
目标:从成对样本数据出发,用数学的方法刻画“从整体上看,各散点与直线最接近”
方法:利用点到直线y=bx+a的“距离”来刻画散点与该直线的接近程度,然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度.
由yi=bxi+a+ei(i=1,2,…,n),得|yi-(bxi+a)|=|ei|.
显然|ei|越小,表示点(xi,yi)与点(xi,bxi+a)的“距离”越小,即样本数据点离直线y=bx+a的竖直距离越小。特别地,当ei=0时,表示点(xi,yi)在这条直线上.
我们设满足一元线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2),…,(xn,yn)
因此,可以用 来刻画各样本观测数据与直线y=bx+a的整体接近程度。
在实际应用中,因为绝对值使得计算不方便,所以人们通常用各散点到直线的竖直距离的平方之和
来刻画“整体接近程度”
残差平方和:
求a,b的值,使Q(a,b)最小
在上式中,xi,yi(i=1,2,3,…,n)是已知的成对样本数据,所以Q由a和b所决定,即它是a和b的函数,因为Q还可以表示为 即它是随机误差的平方和,这个和当然越小越好,所以我们取使Q达到最小的a和b的值,作为截距和斜率的估计值。下
8.2.1一元线性回归模型 课件-山东省滕州市第一中学高中数学人教A版(2019)选择性必修第三册 来自淘豆网www.taodocs.com转载请标明出处.