下载此文档

模式识别原理 第三章 概率密度函数估计.pdf


文档分类:高等教育 | 页数:约90页 举报非法文档有奖
1/90
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/90 下载此文档
文档列表 文档介绍
该【模式识别原理 第三章 概率密度函数估计 】是由【窝窝爱蛋蛋】上传分享,文档一共【90】页,该文档可以免费在线阅读,需要了解更多关于【模式识别原理 第三章 概率密度函数估计 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。:.
第三章概率密度函数估计
贝叶斯分类器:P(wi)和Px/wi已知,
按一定规则确定判别函数和决策面。
实际情况:类条件概率密度常常未知
如:正常与异常得细胞比例可以从正、异常癌细胞
染色体片样本中得到。但不可能给出,
Px/wi
需要从样本中去推断估计。
估计什么?
①类条件概率密度甚至P(w)
Px/wii
条件:已知:样本(有限数目)
华南理工大学未知:类条件概率密度Px/w甚至P(wi)
i
电信学院任务:用样本集设计分类器.
马丽红2013:.
设计步骤:
(1)从样本集估计Px/wi和P(w),得P^x/w和P^(wi)
ii
(用统计推断中的估计理论)
(2)用上一章的贝叶斯决策规则来设计分类器
称基于样本的两步贝叶斯决策。
P^(x/)Px/
要求达到的性能:样本N,ii
^
PiPi
②估计错误率指标:利用样本集来估计(比第二章方
法容易)
:.
一、从样本集估计总体概率方法类型
1监督参数估计:已知:样本所属类别
pdf类条件概率密度形式
未知:表征概率密度的某些参数
如正态分布,Nu,2,参数未知
已知样本集参数(监督情况下的参数估计)
2非监督参数估计:已知:总体概率密度形式
未知:样本所属类别
推断参数
监督
样本所属类别已知/未知

非监督
:.
最大似然估计方法--参数看作确定而未知的,最好

的估值是在获得实际观察样本

的概率为最大的条件下得到的

参数估计常用方法


贝叶斯估计方法--认为未知参数是具有某种分布的


随机变量样本观察结果,使先验分

布转化为后验分布,再根据后验

分布修正原先对参数的估计
:.
3非参数估计:
1)已知:样本所属类别
2)未知:总体概密形式直接推断概密函数本身
3)适用:典型分布未必拟合实际分布,实际问题会有多峰分布,需用
样本推断总体分布.
4)两种推断类条件概密方法:Parzen窗法,kN近邻法
(非参数方法可直接利用样本设计分类器)
二、几种估计方法
1最大似然参数估计
①k类问题:每类特征矢量的分布,
Px/ii1,2,...,k
②假设最大似然函数以参数向量未知的参数形式给出,
i
i与类别特征分布的依赖关系为
Px/i;i:.
③设各类别特征参数估计互不影响(第i类样本不包
含第j类,以便对每一类分别处理)
④类内各样本也互不影响估计(独立抽取)
x1,x2,...,xM为从中抽取的随机样本
pdfPx;
Xx1,x2,...,xM
∵不同样本间统计独立,则
为的函数,
M
P(X|)p(x1,x2,...,xM|)k1p(xk|)
称为关于X的的似然函数。
最大似然方法估计:使最大似然函数取其最大值。
^M
幅角主值:
MLarcmaxPxk/
k1:.
令最大似然函数的梯度值为0
M
Pxk/
k1
0

对数函数是单调增的,且易分析
M
H()lnPxk/M
H(k)1lnP(x/)
k
0


k1
M
1P(x/)
k


k1Px/
k
0:.
unknown
例:x1,x2,...,xM正态分布,协方差阵已知,均值未知
11T11
Pxk/ud1exp1xkuxk1u
2dt
222
lnP(x|)ln(2)(x)(x)
kkk
22
M个样本:
1
andlnP(x|)(x)
MMkd1MkT1
LulnPxk;uln2xku(xku)
k122k1
L

关于u的梯度u
1
M
Lu1
...xu0
k
uk1
L

u
1
^1M
两边乘以并重排得:uMLxk训练样本算术平均
Mk1
这一估计对非高斯分布密度不一定是最优。
ML:.
多个参数,,...T
12s
/1

/2

...

/s
PHx/ulnLlnPX/
k
lnPx1,x2,...,xM1,2,...,s
M
Lulnpx/u
k
k1
Lu
0
u
^
uMl:.
Assume:已知某类样本集包含有M个样本,Xx1,x2,...xM
类内样本也假设为独立抽取,则
M
Px/Px1,x2,...xM/Pxk/
k1
Px/为相对于样本集x的的似然函数
统计学中似然函数定义:M个随机变量x,x,...x
12M
的似然函数是M个
随机变量的联合密度lPx/Px,x,...x/,
12M
Thatis:

可看作的函数


若x,x,...x独立地抽自Px/总体,则
12M

lPx/Px/...Px/
12M

即l给出从总体中抽出x,x,...x这M个样本的概率
12M:.
Question:
设定值,最可能出现的M个样本使ll最大。
00
未知,对M个抽出样本x1,x2,...xM,参数的可能

(即它来自哪个密度函数的可能性最大?)
(应为使l值最大的)

Defined:

一般来说,最大似然函数值是样本x1,x2,...xM的函数,
:
d(x1,x2,...xM)
令l为样本集x的似然函数,xx,x,...,x,
12M

若dxdx,x,...,x是参数空间中能使
12M

似然函数l极大化的值,则为的最大似然

估计量
:.
求最大似然估计量方法:
(a)在似然函数满足连续、可微的正则条件下,最大似
然估计量是下面微分方程的解。
dl
0
d
(b)使对数似然函数最大的,会使似然函数Max,

此时最大似然估计量是Hlnl最大似然估计
为量
dH
0
d
(用对数表示时容易分析,因为对数函数单调。)
(c)若有多个参数,可表示含多个分量的未知向量

1,2,...,s:.



1




2

梯度算子
...




s
HlnllnPx/lnPx1,x2,...,xM/1,2,...,s
∵M个样ᴩᰰ﬘؀

MM
HlnPxk/lnPxk/
k1k1

M
HlnPxk/0
k1
的s个方程为获得的最大似然估计量的必要条件,但
有时求极大值会有多个解,得最大似然函数的那个才是。:.
11
2
llnP(x|)ln2(x)
k2k1
22
2


(lnP(x|))

k

1

l0



(lnP(x|))

k

2
MLEstimation:1

GaussianCase:unknown(xand)0
2k1
=(,)=(,)
12

2


2
1(x)
k1

0
2

2
2
2
2
2:.
kn
1
(x)0(1)
k1

Summation:ˆ
k1
2

2
knknˆ
1(x)
k1
0(2)
2
ˆˆ
k1k1
22
Combining(1)and(2),oneobtains:
kn
2
(x)
k
kn
x
k2k1
;
k1nn
2:.
Bias
2
MLestimateforisbiased
12n122
E(xix).
nn

Anelementaryunbiasedestimatorforis:
kn
1t
C(x)(xˆ)
kk
n-1k1

Samplecovariancematrix
2:.
Appendix:MLProblemStatement
LetD={x,x,…,x}
12n
1,n
P(x,…,x|)=P(x|);|D|=n
1nk
Ourgoalistodetermine(valueofˆthat
makesthissamplethemostrepresentative!)
2:.
|D|=n
.
.
.x
2
x.
1x.
n.
N(j,j)=P(xj,1)
P(xj|c)
P(xj|k)
D
1x
11
x10D
kD.
..c
.x
8
.
x20..
.
xx.
.19
..
2:.
=(,,…,)
12c
Problem:findsuchthat:ˆ
MaxP(D|)MaxP(x,...,x|)
1n

n
MaxP(x|)
k
k1
2:.
求极大值有时不一定可行,
例:随机变量x为均匀分布,参数未知
1,2
设从总体独立抽取M个样本x1,x2,..,xM
11
1x2
Px/21

0其他
1
Px1,x2,...xM/1,2
M
l()p(X|)(21)

0:.
H1
M0


121
H()Mln()
21
H1

M0

221
用其他方法,21下降,l上升
在M个样本中,x’:min,x’1
x”:max,x”2
最小可能值是x’-x”
21(21)
x’、x”
,2最大似然估计量是
:.
2贝叶斯估计
为随机变量,随着样本集X的出现,找出估计量,

使带来的贝叶斯风险最小。
分类Vs参数估计
x一样本X样本集
I决策决策参数值


w类别参数实际值
j
P(wj)P()

R特征空间(,)p(x,)ddx

特征空间(,)p(|x)p(x)ddx

特征空间p(x)(,)p(|x)ddx

特征空间R(|x)p(x)dx:.
^为给定x下估计量的期望损失―条件风险
R/x

使条件风险^极小的估计量,使Rmin
R/x

定义:贝叶斯估计量:若的估计量使条件风险

^为min,则称为的贝叶斯估计量。
R/x


损失函数
^
,

不同的定义形式,不同的贝叶斯估计量:

例如:若定义平方误差损失函数
^^2

,

则的贝叶斯估计量是在给定x时的条件期望。

^
E/xP/xd
:.
MAP估计例子:如前例,设u为正态分布随机量,求uMAP
2
∵11uu0
Puexp
d2
2d2u
2
u
M
Px/u1exp1xuT1xu
kd112kk11
222dt
lnP(xk|)lnln(2P)x/uP(xku)(xk)
k
22
k1
10
and∴lnP(x|)(x)
kk
u
M
^^
11
xuuu0
2k20

k1
u
2M
u
u0xk
^2
k1
uMAP
2
u
1M
2

1)u20,/u
2)当22时,2宽,M
uu^^1
uMAPuMLXk
Mk1
直接从样本计均值了:.



确定的先验分布P


由样本集x=x,x,...,x样本提供的信息,求出
12M


样本联合分布P(X|)(为的函数)

MAP由如下步骤作估计:
px/p
用贝叶斯公式,求出的后验分布p/x
px/p


^

求估计量=P/xd


:.
BayesianEstimation
Theformofp(x|)isassumedknown
InMLEwassupposedfix
InBEisarandomvariable
Priorinformation:knownpriordensityp()
Computeposteriordensityp(|D)
Ourgoalistocomputep(x|D)
p(x|D)p(x|)p(|D)d:.
BayesianParameterEstimation:
GaussianCase(specialcase)
Theunivariatecase:p(|D)
istheonlyunknownparameter
2
p(x|)~N(,)
2
p()~N(0,0)
(andareknown!)
00:.
p(D|)p()
参数估计
p(|D)(1)
p(D|)p()d

kn
p(x|)p()
k
k1
22
Reproducingdensity,仍为高斯分布,比对之
n
0
.
ˆ
nn0
2222
p(|D)~N(,2)(2)
nn
nn
000
22

20
and
n
22
n
0:.
分布估计
Theunivariatecasep(x|D)
p(|D)computed
p(x|D)remainstobecomputed!
p(x|D)p(x|).p(|D)disGaussian
Itprovides:
p(x|D)~N(,22)
nn
:.
总结:BayesianParameterEstimation:
GeneralTheory
Thebasicassumptionsare:
1)Theformofp(x|)isassumedknown,but
thevalueofisnotknownexactly
2)Ourknowledgeaboutisassumedtobe
containedinaknownpriordensityp()
3)Therestofourknowledgeiscontainedin
asetDofnrandomvariablesx,x,…,xthat
12n
followsp(x)
:.
Thebasicproblemis:
“Computetheposteriordensityp(|D)”
then“Derivep(x|D)”
p(x|D)p(x|)p(|D)d
UsingBayesformula,wehave:MaximumAPosteriori
(MAP)Estimators
p(Dˆ|)argp(max)p(|D)
p(|D)MAP

p(D|)p()d

argmaxp(D|)p()

Andbyindependenceassumption:
kn
p(D|)p(xk|)
k1:.

参数估计目的推断总体分布;分布形式已知估计参数.
P/x
可以直接推断总体分布:估计出的后验密度后,
不求^,直接通过联合密度求条件概密pdf:

px/Xpx,|Xdpx/p/Xd

pX/p()
px/[]d

pX/p()d

如果P/x0P为无样本条件下的条件概密。(等
于的先验概密)反复用上式,可得一个密度序列:

P,P/x1,P/x1x2,...
称为参数估计的递推贝叶斯方法。:.
如果0为无样本条件下的条件概密。
P/xP
(等于的先验概密)反复用上式,可得一个密度序
列P,P/x1等,设为参数估计的递推,P/x1x2,...
贝叶斯方法。
如果此密度序列收敛于以一个真实参数为中心的递推
函数,就把这种性质称为贝叶斯学****br/>若收敛,可通过不断学****获得其估计.
若分布具有贝叶斯学****性质,则当样本数时M,
,的估计量就为真实参数。
^^
Px/Px/

贝叶斯学****的先验分布+样本提供信息后验分布
直接求总体分布
Px/XPx/P/Xd
最大熵估计EM算法(期望最大值):.
设为高斯分布2,方差均值未知
Px/uNu,
设均值也服从高斯分布2,M个样本
Nu0,0
22
Mxu
00
u
M22
M
Pu/x也为高斯分布0

22
2
0
N
22
N
0
1M
其中xx
Mk
k1
当M从1,会产生一个高斯序列NuM,M2
其均值从趋向X
u0
方差下降,以2的下降率附近的尖峰
x
M
以上三种方法(ML、MAP、Bayesian学****在时趋向一致;
N
若训练样本数目N减少,三种结果会不同。
:.
三、总体分布的非参数估计
PARAMETRICDENSITIES(参数密度)
AllParametricdensitiesareunimodal;(asinglelocalmaximum)
whereas(单模态)
manypracticalproblemsinvolvemulti-modaldensities
NONPARAMETRICPROCEDURESCANBEUSED:
witharbitrarydistributions;(任意分布)
withoutknowledgeoftheunderlyingdensityforms
(无相应分布密度形式的知识)
TWOTYPESOFNONPARAMETRICMETHODS:
EstimatingP(x|j)
Bypassprobabilityandgodirectlytoa-posterioriprobability
estimationP(|x)
j
旁路概率估计,直接后验估计:.
三、总体分布的非参数估计
(从样本集x估计样本空间任一点概率)
p(x)
实际问题中往往①不知道总体分布形式
②总体分布非典型分布,
不能写成某些参数的函数
∵设计分类器需要总体分布知识,直接从样本估计。
好处:适合规则分布或不规则分布,单峰或多峰,
总可保证收敛。
缺点:需要很多样本,大量时间和存贮量
基本思想:用直方图近似未知的pdf
思路:例子说明
:.
一维样本集:xx,x,x
123Pp(x')dx'


每个样本xi在以xi为中心,宽为h范围内

每个样本对分布的贡献为a(每个阴影的
1)估计点的密度:每个样本在xj点的贡献总和
xjPxj
2)样本对所在位置的分布贡献最大,离此越远,贡献
所有样本均如此实行,得^,样本数,结果越好
M
Px
估计结果
^

如已知样本集来自某一类别i,估出P(x/i)
^
来自K个类别,分不清哪个样本来自哪一类,估出混合密度P(x)

:.
估计方法很多,基本思想都很简单。
随机向量x落入区域R的概率
Ppxdx
R
总体概密
N个样本从Px中独立抽取,其中有k个落入R的概率
PkCNkPk(1P)NK
P为样本x落入R的概率
对某一区域,
最有可能落入的个数是?
落入R的P如何估计?:.
①设为N中有k个落入,
则k的期望值E(k)
据二项分布性质时,有最大值
km(N1)PPk
m为的整数部分(m为k的众数)
(N1)P
即抽取N个样本,其中k=m个落入区域R的概率最大
∴^
^
km(N1)P因为NNP1
∴^是总体密度在区域R上一个很好估计
Pk/NPx
频数比:.
②设连续,区域R足够小,使在R中没有什么变化
Px
Px
Sincep(x)=constant,itisnotapartofthesum.
PRpxdxpx.V

x为R中的点,V为区域R的体积

^^
k/NPpx.V
∴^kk/N
px

为x点概密Px的估值,与①样本数N
②含x区域体积V
V0③V中的样本数k有关。
K
收敛到真值.
k/N0px
:.
问题:
①V固定,有一定体积,样本数N,则k/N将收敛,
结果将是的空间平均估计
px
②V0,样本数N固定,区域R不断

模式识别原理 第三章 概率密度函数估计 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数90
  • 收藏数0 收藏
  • 顶次数0
  • 上传人窝窝爱蛋蛋
  • 文件大小2.65 MB
  • 时间2023-01-31