下载此文档

数据挖掘方法应用于调查数据的抽样权重问题.docx


文档分类:IT计算机 | 页数:约8页 举报非法文档有奖
1/8
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/8 下载此文档
文档列表 文档介绍
数据挖掘方法应用于调查数据的抽
样权重问题
——基于放回比例抽样的再抽样方法
金勇进 谢佳斌 谢邦昌
内容提要:在将数据挖掘方法应用于抽样调查数据时,会遇到抽样权重的处理问题。本 文提出采用放回的、与样本单元权数大小成比例的再抽样方,直接采用一些简单的图形实现对数据的探索性分 析,进而在对数据进行了充分理解和准备的基础上,直接调用相关算法进行挖掘。
然而,基于一些原因,部分大规模抽样调查并不采用自加权设计,这使得各样本单元对
应的抽样权重大小不一。并且,在大型复杂抽样调查中,为使得调查得到的样本结构尽可能 地与总体结构相一致,在处理样本数据时,还通常采用基于多变量辅助信息等的校准加权方
法对样本结构进行加权调整,以减少样本结构与总体结构的差异性。也就是说,根据入样概 率求得样本单元的初始权数 w ,再利用辅助信息进行加权调整便得到每个样本单元的最终
i
权数w*。从而,即便调查采用的是自加权设计,加权调整后各样本对应的最终权数也大都
i
是不相同的。在这种情况下,一方面,通常用于描述简单随机样本的统计图形在描述权数不 一的样本数据时,往往会产生错误,因为没有考虑不等的权数问题;另一方面,如果忽视权 数问题,直接调用相关算法对收集上来的样本数据实施挖掘,所得到的结果可能是误导性的, 或者很难解释。
二、解决思路
部分文献⑺⑻提出用气泡图(bubble plots)来展示复杂调查数据的信息,图1展示了美 国 1988 年全***亲和婴儿健康调查中30-39 岁母亲的出生体重和女儿的生出体重之间的关 系。图中,每个圆圈对应一条样本数据,每个圆圈的面积与样本的权重成正比。
图 1 母亲和女儿出生体重关系的泡泡图
出请重E克R-.t
相比普通散点图,此类气泡图的优点是将样本数据对应的权重信息也展现出来,避免了 普通散点图误导性的视觉效果。但当样本数据较多,或者个别样本权重差异过大时,气泡图 会显得非常混乱。另外,气泡图只是对普通散点图的改进,我们需要寻找一种方法,既能够 适用于大部分图形,同时又考虑了样本的权重信息。
考虑到如前所述自加权样本的优越性,借鉴文献[4]和文献[6]的思想,本文提出放回的、 与样本权数大小成比例的再抽样方法(re-sampling with probability proportional to the weights with replacement),简称PPWWR再抽样,来实现“事后”自加权设计。具体如下:
假设样本量大小为n,对于样本i,i =1, 2,…,n,其对应的抽样权重为w,经加
i
权调整后的最终权数为w*。其中,£ w*= N,N为总体单元个数。在原样本内,按权数
ii
w*的大小采用有放回比例抽样的方法抽取一个大小为n的子样本。可以证明,实施这样的
i
重抽样后,对于子样本n,每个样本单元的权数都相同。证明如下:
①由于为放回的与样本权数大小成比例的概率抽样,因此,原样本中,样本单元每次
w*
被抽中的概率Z = i-

w*
i=1
w*
i
w*
②原样本中第i个样本单元被重复抽中的期望次数m=叱=卅n
③从大小为n的原样本中抽取大小为n的子样本的过程,可看作是将第i个单元的权数 w*平均分解到子样本中对应的m .个样本单元的过

数据挖掘方法应用于调查数据的抽样权重问题 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数8
  • 收藏数0 收藏
  • 顶次数0
  • 上传人jiyudian11
  • 文件大小48 KB
  • 时间2022-05-17