下载此文档

基于大规模数据尾期望回归的分布式计算方法 潘莹丽.pdf


文档分类:论文 | 页数:约6页 举报非法文档有奖
1/6
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/6 下载此文档
文档列表 文档介绍
该【基于大规模数据尾期望回归的分布式计算方法 潘莹丽 】是由【王善保】上传分享,文档一共【6】页,该文档可以免费在线阅读,需要了解更多关于【基于大规模数据尾期望回归的分布式计算方法 潘莹丽 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。网络首发时间:2022-06-2317:46:06
网络首发地址:.
DOI:.
理论探讨
基于大规模数据尾期望回归的分布式计算方法
潘莹丽1,刘飞2,3,刘展1,赵晓洛1
(,武汉430062;,武汉430074;
,武汉430079)
摘要:大规模数据是需要新处理模式才能具有更强的洞察力和决策力的海量、高增长率和多样化的信息
资产。分析海量数据的工作异常复杂,主要面临两个挑战:数据的难存储性和偏态性。基于此,文章主要研究
12
以下两个问题:()将数据进行分布式存储,减轻单台机器的存储负担,采用尾期望回归分析偏态数据。()基
于尾期望回归构造全局损失函数的一个交互有效的梯度增强型损失函数,为解决该损失函数的优化问题,提出
ADMM
修正的算法。模拟研究表明,在有限次主从机器之间交互次数下,提出的分布式计算方法得到的估计
NHIS
误差递减并趋于全局最优方法得到的估计误差。基于全国健康访谈调查()数据的实证研究表明,提出的
分布式计算方法对国民体重具有良好的预测性能。
ADMMNHIS
关键词:大规模数据;尾期望回归;分布式计算;修正的算法;
中图分类号:C812文献标识码:A文章编号:1002-6487(2022)12-0011-06
常广泛,包括M-估计[1]、贝叶斯方法[2]、非参数回归、分位数
0引言回归等。然而,不同存储机器之间的数据传输直接导致计
算速度变慢,此外,由于带宽有限,不同机器之间的交互成
随着信息化时代的到来和互联网的快速发展,越来越本也非常高昂。为了降低机器之间的交互成本,OneShot
多的信息被数据化,数据规模呈爆炸式增长,致使现代统方法[3,4]只需要进行一轮机器之间的交互,子机器基于存储
计推断在数据存储和计算上面临着巨大的挑战。在大规其上的本地数据计算局部估计值,并将其传输给中央处理
模数据下,考虑将数据集存储在多台机器上并以分布式方器,中央处理器通过对每台机器上的估计值求平均得到最
式进行统计推断受到众多专家学者的关注,其涉及范围非终的估计值。虽然OneShot方法是交互有效的,但Rosen-
11901175
基金项目:国家自然科学基金资助项目()
1987
作者简介:潘莹丽(—),女,河南商丘人,博士,副教授,研究方向:应用统计学。
1980
(通讯作者)刘飞(—),男,湖北汉川人,博士,讲师,研究方向:统计法学。
1981
刘展(—),女,湖北宜昌人,博士,副教授,研究方向:应用统计学。
1998
赵晓洛(—),女,河南漯河人,硕士研究生,研究方向:应用统计学。
ImprovementofMultivariateData-basedSpectralClusteringAlgorithmand
DeterminationoftheNumberofClusters
WangBingcan1,WeiYanhua1,2,ZhangBeibei2
(,TianshuiNormalUniversity,TianshuiGansu741001,China;
,CapitalUniversityofEconomicsandBusiness,Beijing100070,China)
Abstract:Basedonthespectralclusteringalgorithm,thispaperfirstlyusestheeigenvaluesoftheLaplacianmatrixtocon-
structthechangepointmapofthenumberofclusters,andgivesanintuitivemethodfordeterminingthenumberofclusters,then
introducesthepenaltytermofclusteringnumbertotheoptimizationobjectiveinordertoquantitativelydiscusstheselectionofthe
,formultivariatedata,thepairwiseconstraintinformationisprocessedbyrevisingthedistancematrix,
andthreeadaptivesimilaritymatricesareconstructedbasedonthedistancematrix,
simulationshowsthatfordeterminingthenumberofclusters,thechangepointmapofthenumberofclustersisintuitiveandeffec-
tive,whilethepenaltymethoddependsontheweightparametersofthepenaltyitem,whichissubjective,thatthethreeadaptive
spectralclusteringalgorithmsareeffective,alsoconvenientforprocessingpairwiseconstraintinformation,withawiderangeofad-
aptations,andthatthestableadaptivespectralclusteringismorerobustinselectingthenumberofneighbors.
Keywords:spectralclustering;numberofclusters;pairwiseconstraint;adaptive
·11
统计与决策2022年第12期总第600期
理论探讨
blatt和Nadler(2016)[5]的研究表明,要使该方法得到有效容量N非常巨大,如果将所有的样本存储在一台机器之
的估计量,机器的数量要小且存储在每台机器上的样本量中,将会对机器的存储性能要求很大。为了减轻单台机器
要大。由于在大数据背景下,这个条件不易被满足,这就的存储困难,本文采用分布式存储的思想,将N个样本随
直接导致OneShot方法的估计性能达不到最优。本文拟通机存储到K台机器之中。对于任意的kÎ{1 2    K},
过子机器和中央处理器之间的有限轮交互,反复执行局部υ表示储存在第k台机器上样本的指标集,假设υ之间
kk
计算和全局整合来解决OneShot方法的缺点。
是不相交的且满足|υ|=n=N/K,即样本被随机平均分配
在经济、金融、社会科学、生物医学和环境科学等领k
到不同机器之中。记数据集{(XY):    iÎ{12 n}}表
域,研究数据大多不服从正态分布或t分布等对称分布,而kiki
示存储在第台机器上的子样本。考虑尾期望回归模型:
是有一定的偏斜。分位数回归在处理这类偏态数据方面k
Y=XTβ(τ)+ε(τ)kÎ{1 2  K} iÎ{1 2  n}
得到了很多关注,它可以清楚地描述协变量和响应之间的kikiki
关系[6]。在分位数回归中,分位数是通过优化非对称l范(1)
1
数来计算的。Newey和Powell于1987年使用非对称的l其中,β(τ)是p´1维未知的回归参数。假设对于
2
τÎ(01),在给定X时,随机误差ε(τ)的第τ尾期望为
范数提出了尾期望回归[7],并指出尾期望回归也可以有效kiki
零。为了表述简洁,将β(τ)和ε(τ)简记为β和ε。
地处理偏态数据且相对于分位数回归具有两个优势:(1)kiki
样本尾期望的计算比分位数更加方便,
最小二乘法即可得到样本尾期望;(2)基于尾期望回归的函数的OneShot估计量
统计推断比基于分位数回归的统计推断相对容易。自此,基于尾期望回归模型(1),Newey和Powell于1987年
尾期望回归引起了学者们的关注。Waltrup等于2015年的提出如下Oracle估计量[7]:
研究表明,尾期望回归比分位数回归涉及更少的交叉,对β̂=argminl(β)(2)
OraN
βÎp
厚尾分布更稳健[8]。Liao等于2019年讨论了惩罚分位数
式(2)中的l(β)是基于所有数据的全局损失函数,被
和尾期望回归的利弊,并进行了深入的模拟研究,比较两N
定义为:
种方法的有限样本性能[9]。结合分布式优化方法,潘莹丽
1Kn
等(2020)[10]对协变量随机缺失的指示变量建立Logistic模l(β)=ååρ(Y-XTβ)(3)
NNτkiki
型,并基于该模型提出了一个替代似然函数来进行参数估k=1i=1
其中,ρ(×)是一个凸损失函数,定义如下:
计;潘莹丽等(2020)[11]研究了基于尾期望回归模型的分布τ
ìτλ2 λ>0
式优化方法。然而,这两篇文献仅解决了大数据中样本量ρ(λ)=í
τ2
大导致的计算成本高昂的问题,而没有具体研究采用分布î(1-τ)λλ£0
式优化方法时,如何有效处理机器之间交互成本的问题。在分布式框架下,每台机器只能访问存储在其上的数
本文的第一个主要贡献是基于大规模尾期望回归提据,基于第k台机器上数据的局部损失函数可被定义为:
n
出一个较潘莹丽等(2020)[11]的研究中更广义的替代损失l(β)=1åρ(Y-XTβ)kÎ{1 2    K}(4)
knτkiki
函数,即交互有效的梯度增强型损失函数,并基于该替代i=1
则基于局部损失函数l(β)的估计量为:
损失函数提出一个交互有效的分布式优化方法。本文的k
β̂=argminl(β) kÎ{1 2    K}
第二个主要贡献是设计修正的ADMM算法对所提出的替kk
βÎp
代损失函数进行优化。Boyd等于2011年的研究表明,
OneShot方法是将每台机器计算出的估计量求平均作
ADMM算法适用于大规模统计推断和分布式凸优化问
为最终估计量,则基于局部损失函数的OneShot估计量可
题[12]。结合梯度增强型损失函数的特点,本文对Boyd等
被定义为:
(2011)[12]研究中的ADMM算法进行修正来优化所提出的
K
β̂=1åβ̂(5)
替代损失函数。对于提出的修正的ADMM算法,在每次OneShotKk
k=1
迭代中,子机器并行执行计算并与中央处理器进行交互;

中央处理器将汇总的信息传输给子机器以进行新的迭
大数据背景下,样本量N非常大,直接最小化全局损
代。由于多轮交互,一方面,中央处理器为子机器收集和
失函数l(β)将产生昂贵的计算成本,寻找一个替代损失
传播全面的信息,从而改进了相应的估计量;另一方面,可N
函数以代替全局损失函数是有效的解决途径之一。替代
以充分利用数据的相似结构及其在子机器上的计算优势。
损失函数的构造过程如下。将全局损失函数l(β)在β
N
的任意初始估计量β͂处进行一阶泰勒展开:
1方法介绍
l(β)=l(1)(β)+r(β)
NNN
,l(1)(β)=l(β͂)+Ñl(β͂)   β-β͂,r(β)=l(β)
NNNNN
N
记{(X  Y)}为N个独立同分布的随机样本,其中,-l(1)(β),×和Ñ分别表示内积和关于β的偏导数。在分
iii=1N
X是p´1维自变量,Y是因变量。大数据背景下,样本布式框架下,p维梯度向量Ñl(β͂)可以轻易地在每台机
iiN
12·
统计与决策2022年第12期总第600期
理论探讨
器之间交互,因此线性函数l(1)(β)同样可以,但是r(β)含步t+1k=t-t+1k+t+1k-
NNθ:θθσ(xβzy)
有高阶导数,其在机器之间交互较困难。(13)
因此,用基于第k台机器的子样本计算出的r(β)代
k通过简单计算,β步有如下显示解:
替r(β),其中:-1
Nβt+1k=(xTx)[σ-1xT(θt-σzt+σy)-σ-1(Ñl(βt)-
N
r(β)=l(β)-él(β͂)+Ñl(β͂)   β-β͂ù(6)
kkëkkûÑl(βt))]kÎ{1 2    K}(14)
k
基于式(6),全局损失函数l(β)可以被近似替代为
N对于z步,zt+1k的更新可以对其每个分量进行。实
l(1)(β)+r(β),省略和待求参数无关的量后得全局损失函
Nk际上,对于iÎ{12n},zt+1k的更新可以转换为:
数l(β)的一个替代损失函数为:
N2
t+1ké1tσTt+1kù
͂͂z=argminêρ(z)-θz+(z+Xβ-Y)ú
l(β)=l(β)+Ñl(β)-Ñl(β)   β(7)izÎnτiii2ikiki
kNkiëû
将命名为梯度增强型损失函数。在式(7)的基础é2ù
l(β)ìæθtöü
=argminêρ(z)+nσïz-çY-XTβt+1k+i÷ïúkÎ{1 2
上,本文提出的基于梯度增强型损失函数的估计量为:τiíiçkiki÷ý
zÎê2ïσïú
iëîèøþû
β̂=argminl(β)(8)
βÎp  K} (15)
(15),定义ρ的算子
τ
̂
为了求解所提出的估计量β,本文将修正Boyd等于Prox(ξα)如下:
ρ
τ
2011年提出的ADMM算法[12]。将式(7)中β的任意初始估
Prox(ξα)=argminéρ(λ)+α(λ-ξ)2ù(16)
͂tρτ
计量β设为当前第t个迭代值β,则式(7)可重新表示为:τλÎë2û
lt(β)=l(β)+Ñl(βt)-Ñl(βt)   β(9)对于给定的α>0,式(16)的解为:
kNk
ìαξ
基于式(9)和第k台机器上的数据集,优化问题式(8)ξ³0
ï2τ+α
Prox(ξα)=
可以重写为:ρíαξ
τïξ<0 
βt+1k=argminlt(β) kÎ{1 2    K}(10)î2(1-τ)+α
p
βÎ对于iÎ{12n},将算子式(16)应用到z步,可得:
为了便于表示,记h(z)=n-1ånρ(z),其中,z=(z
τi=1τi1  zt+1k=Prox(Y-XTβt+1k+σ-1θtnσ) kÎ{1 2  K}
TTiρkikii
 zz)=y-xβ,y=(YYY)是n´1维向量,τ
2nk1k2kn(17)
x=(X  X  X)T是n´p维矩阵。由于lt(β)是凸函
k1k2kn根据式(13)、式(14)和式(17),对K台机器上的估计
数,因此式(10)等价于:
值求平均得到参数的第t+1次迭代值如下:
ìminh(z)+Ñl(βt)-Ñl(βt)   β
ïτNkKKK
ízÎnβÎp(11)βt+1=K-1βt+1kzt+1=K-1zt+1kθt+1=K-1θt+1k  
ïååå
î.  xβ+z=yk=1k=1k=1
对于给定的σ>0,式(11)的增广的拉格朗日函数为:综上,将修正的ADMM算法汇总为算法1,具体步骤
L(β zθ)=h(z)+Ñl(βt)-Ñl(βt)β-θ  xβ+z如下:
τNk
初始化:β0、z0、θ0。
-y+σxβ+z-y2(12)
22①forl=01L-1do;
其中,θÎn是拉格朗日乘数。对于式(12),Boyd等②fork=12Kdo;
于2011年提出ADMM算法,其迭代过程如下[12]:③每台子机器分别计算Ñl(βl)并发送给中央处理器;
k

ìβt+1k=argminL(β  zt  θt)K
l-1l
ïβÎp④中央处理器计算Ñl(β)=KåÑl(β)并传递给
ïNk
ízt+1k=argminL(βt+1k  z  θt)k=1
ïzÎn子机器;
ïθt+1k=θt-σ(xβt+1k+zt+1k-y)kÎ{1 2    K}
î⑤在每台子机器上执行以下迭代并发送到中央处理
其中,(βt+1 k    zt+1k   θt+1k)表示算法在第k台子机器器;
⑥fordo;
上的第t+1次迭代值。上述迭代过程可以转化为:t=01T-1
t+1k-1
β步: βt+1k=argmin[Ñl(βt)-Ñl(βt)   β-θt  xβ⑦更新β=(xTx)[σ-1xT(θt-σzt+σy)-σ-1(Ñl
NkN
βÎp
tt
2(β)-Ñl(β))];
σtùk
+xβ+z-yú
22û
⑧更新  zt+1k=éProx(Y-XTβt+1k+σ-1θtnσ)ù;
ρkikii
t+1kσt+1këτû
z 步:z=argminéh(z)-θt    z+xβ+z1£i£n
pëτ2
βÎ⑨更新θt+1k=θt-σ(xβt+1k+zt+1k-y);
-y2ù
2û⑩endfor;
·13
统计与决策2022年第12期总第600期
理论探讨
􀃊􀁉􀁓
表1当ε~N(01)时,β的估计结果
endfor;i
􀃊􀁉􀁔KKK=5K=20K=40
中央处理器计算l+1-1Tkl+1-1TkτMethod
β=Kåβz=KåzERSDERSDERSD
k=1k=1

K
θl+1=K-1 θTk ,并将更新值传输给子机器;
å
􀃊􀁉􀁕k=
endfor。
返回:β̂=βL。

[11]
需要注意的是,潘莹丽等(2020)
替代损失函数为l(β)+Ñl(β͂)-Ñl(β͂)   β,
1N1

函数是本文提出的梯度增强型损失函数的特例。

是,前者只有中央处理器解决优化问题,
算梯度,这可能导致中央处理器持续工作,
表2当ε~χ2(3)时,β的估计结果
空转。然而,基于梯度增强型损失函数提出的算法1,每i
K=5K=20K=40
台机器可以并行优化局部损失函数,之后由中央处理器对τMethod
ERSDERSDERSD
结果进行整合,
快收敛速度。






本文通过模拟研究评价所提方法的有限样本性能。

将以下四种方法进行比较:(1)所提出的算法1(记为Pav-

erage);(2)潘莹丽等(2020)[11]提出的分布式优化方法(

为Psingle);(3)

求解估计量β̂(记为Oracle)[12];(4)OneShot方法(标记为
Ora
表3当ε~(1+Xi)N(01)时,β的估计结果
OneShot)。在每台子机器上使用Boyd等(2011)[12]提出的i2
K=5K=20K=40
ADMM算法计算估计量β̂,之后由中央处理器整合并计τMethod
kERSDERSDERSD
算估计量β̂。
OneShot

考虑尾期望回归模型:

Y=XTβ+εiÎ{12N}
iii
其中,X为多元正态分布产生的随机变量,

|i-j|
零向量,协方差矩阵å的第(ij)个元素为å=。
ij

真实参数β服从在[-2,2]上的均匀分布。随机误差分别由三

种不同的分布构成:N(01)、χ2(3)以及(1+Xi)N(01)。


其中Xi是设计矩阵第二列的第i个观测值。设总体总量

为,参数维数为。为了评估所提出方法
N=10000p=50的结果表明,Paverage和Psingle方法生成的估计可以与
在“小机器数K”“中等机器数K”以及“大机器数K”下Oracle方法竞争,OneShot方法相对较差。图1的结果显
的估计性能,设置(nK)=(2000,5),(500,20),(250,示,OneShot方法得到的估计误差是一条水平线,即该方法
40)。为了评估所提方法在不同τ值下的估计性能,设置在主从机器之间仅交互一次,然而,OneShot方法的估计误
τ=,,。将上述产生数据的过程重复100次,并计差大于所提出的方法。对于所提出的方法,经过有限次主
算100次模拟数据集上基于四种方法的参数估计值。从机器之间的交互,估计误差下降并收敛于Oracle方法的
表1至表3汇总了参数β估计值的结果,其中包括估估计误差。此外,Paverage方法比Psingle方法的估计误差
2
计误差β̂-β(ER)和估计误差的样本标准差(SD)。为更快地收敛到Oracle方法的估计误差,这表明所提出的算
0
2法的“平均步”加快了收敛速度。
了显示不同机器之间交互的复杂性,绘制当ε~N(01)
i
时,估计误差与交互次数的关系图(见下页图1)。当
3实证分析
ε~χ2(3)或ε~(1+Xi)N(01)时,估计误差与交互次数的
ii2
关系图与图1类似,限于篇幅,在此不再绘制。表1至表3为了验证本文提出的方法在实际生活中的可实用性,
14·
统计与决策2022年第12期总第600期
理论探讨
=5==20==40=
K,rK,rK,r(PE)和预测误差的标准差(SD)来评估试验结



OracleOracleOracle1
OneShotOneShotOneShot果,其中,PE=åρ(y-ŷ)。为了研究


iÎtest

,考虑三个
。重复上述操
siainErrorEstimationErrorEstimationτ=

作100次并计算平均值。类似模拟研究,基于


三种方法的预测结果见表5。可以看出,Paver-
246810121424681012142468101214
RoundsofCommunicationsRoundsofCommunicationsRoundsofCommunicationsage方法得到的预测误差与Oracle方法相当,
=5==20==40=
K,rK,rK,r

PsinglePsinglePsingleOneShot方法的预测误差大于本文所提方法。




K=5K=20K=40








基于大规模数据尾期望回归的分布式计算方法 潘莹丽 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数6
  • 收藏数0 收藏
  • 顶次数0
  • 上传人王善保
  • 文件大小1.47 MB
  • 时间2022-12-04