【推导过程】常用共轭先验分布
文章目录
- 相关教程
- 相关文献
- 常用共轭先验分布
- 预备知识
- 贝叶斯统计
- 后验分布的计算
- 正态均值(方差已知)的共轭先验分布是正态分布
- 二项分布中的成功概率 θ 的共轭先验分布是贝塔分布
- 正态均值(方差已知)的共轭先验分布是倒伽玛分布
作者:小猪快跑
基础数学&计算数学,从事优化领域7年+,主要研究方向:MIP求解器、整数规划、随机规划、智能优化算法
如有错误,欢迎指正。如有更好的算法,也欢迎交流!!!——@小猪快跑
相关教程
- 常用分布的数学期望、方差、特征函数
- 【推导过程】常用离散分布的数学期望、方差、特征函数
- 【推导过程】常用连续分布的数学期望、方差、特征函数
- Z分位数速查表
- 【概率统计通俗版】极大似然估计
- 【超详图文】多少样本量用 t分布 OR 正态分布
- 【推导过程】常用共轭先验分布
- 【机器学习】【通俗版】EM算法(待更新)
相关文献
- [1] 茆诗松.贝叶斯统计[M].中国统计出版社,1999.
常用共轭先验分布
总体分布 | 参数 | 共轭先验分布 |
---|---|---|
二项分布 | 成功概率 | 贝塔分布 B e ( α , β ) \mathrm{Be}(\alpha,\beta) Be(α,β) |
泊松分布 | 均值 | 伽玛分布 G a ( α , λ ) \mathrm{Ga}(\alpha,\lambda) Ga(α,λ) |
指数分布 | 均值的倒数 | 伽玛分布 G a ( α , λ ) \mathrm{Ga}(\alpha,\lambda) Ga(α,λ) |
正态分布(方差已知) | 均值 | 正态分布 N ( μ , τ 2 ) N(\mu,\tau^2) N(μ,τ2) |
正态分布(均值已知) | 方差 | 倒伽玛分布 I G a ( α , λ ) IGa(\alpha,\lambda) IGa(α,λ) |
预备知识
贝叶斯统计
-
设总体指标 X X X 有依赖于参数 θ \theta θ 的密度函数,在经典统计中常记为 p ( x ; θ ) p(x;\theta) p(x;θ) 或 p θ ( x ) p_\theta(x) pθ(x),它表示在参数空间 Θ = { θ } \Theta=\left\{\theta\right\} Θ={θ}中不同的 θ \theta θ 对应不同的分布。可在贝叶斯统计中记为 p ( x ∣ θ ) p(x|\theta) p(x∣θ),它表示在随机变量 θ \theta θ 给定某个值时,总体指标 X X X 的条件分布。
-
根据参数 θ \theta θ 的先验信息确定先验分布 π ( θ ) \pi(\theta) π(θ)。
-
从贝叶斯观点看,样本 x = ( x 1 , . . . , x n ) \boldsymbol x=(x_1,...,x_n) x=(x1,...,xn) 的产生要分二步进行。首先设想从先验分布 π ( θ ) \pi(\theta) π(θ) 产生一个样本 θ ′ \theta^{\prime} θ′,这一步是“老天爷”做的,人们是看不到的,故用“设想”二字。第二步是从总体分布 p ( x ∣ θ ′ ) p(x|\theta^{\prime}) p(x∣θ′) 产生一个样本 x = ( x 1 , ⋯ , x n ) \boldsymbol x=(x_1,\cdots,x_n) x=(x1,⋯,xn),这个样本是具体的,人们能看得到的,此样本 x \boldsymbol x x 发生的概率是与如下联合密度函数成正比。
p ( x ∣ θ ′ ) = ∏ i = 1 n p ( x i ∣ θ ′ ) p(\boldsymbol{x}|\theta^{\prime})=\prod_{i=1}^np(x_i|\theta^{\prime}) p(x∣θ′)=i=1∏np(xi∣θ′)
这个联合密度函数是综合了总体信息和样本信息,常称为似然函数,记为 L ( θ ′ ) L(\theta^{\prime}) L(θ′)。频率学派和贝叶斯学派都承认似然函数,二派认为:在有了样本观察值 x = ( x 1 , ⋯ , x n ) \boldsymbol x=(x_1,\cdots,x_n) x=(x1,⋯,xn) 后,总体和样本中所含 θ \theta θ 的信息都被包含在似然函数 L ( θ ′ ) L(\theta^{\prime}) L(θ′) 之中,可在使用似然函数作统计推断时,两派之间还是有差异的。
-
由于 θ ′ \theta^\prime θ′ 是设想出来的,它仍然是未知的,它是按先验分布 π ( θ ) \pi(\theta) π(θ) 而产生的,要把先验信息进行综合,不能只考虑 θ ′ \theta^{\prime} θ′,而应对 θ \theta θ 的一切可能加以考虑。故要用 π ( θ ) \pi(\theta) π(θ) 参与进一步综合。这样一来,样本 x \boldsymbol x x 和参数 θ \theta θ 的联合分布
h ( x , θ ) = p ( x ∣ θ ) π ( θ ) h(\boldsymbol x,\theta)=p(\boldsymbol x|\theta)\pi(\theta) h(x,θ)=p(x∣θ)π(θ)
把三种可用的信息都综合进去了。
-
我们的任务是要对未知数 θ \theta θ 统计推断。在没有样本信息时,人们只能据先验分布对 θ \theta θ 作出推断。在有样本观察值 x = ( x 1 , ⋅ ⋅ ⋅ , x n ) \boldsymbol x=(x_1,\cdotp\cdotp\cdotp,x_n) x=(x1,⋅⋅⋅,xn)之后,我们应该依据 h ( x , θ ) h(x,\theta) h(x,θ) 对 θ \theta θ 作出推断。为此我们需把 h ( x , θ ) h(\boldsymbol x,\theta) h(x,θ) 作如下分解:
h ( x , θ ) = π ( θ ∣ x ) m ( x ) h(\boldsymbol x,\theta)=\pi(\theta|\boldsymbol x)m(\boldsymbol x) h(x,θ)=π(θ∣x)m(x)
其中 m ( x ) m(\boldsymbol x) m(x) 是 x \boldsymbol x x 的边缘密度函数。
m ( x ) = ∫ Θ h ( x , θ ) d θ = ∫ Θ p ( x ∣ θ ) π ( θ ) d θ m(\boldsymbol x)=\int_{\Theta}h\left(\boldsymbol x,\theta\right)d\theta=\int_{\Theta}p\left(\boldsymbol x\mid\theta\right)\pi(\theta)d\theta m(x)=∫Θh(x,θ)dθ=∫Θp(x∣θ)π(θ)dθ
它与 θ \theta θ 无关,或者说, m ( x ) m(\boldsymbol x) m(x) 中不含 θ \theta θ 的任何信息。因此能用来对 θ \theta θ 作出推断的仅是条件分布 π ( θ ∣ x ) \pi(\theta|\boldsymbol x) π(θ∣x)。它的计算公式是
π ( θ ∣ x ) = h ( x , θ ) m ( x ) = p ( x ∣ θ ) π ( θ ) ∫ Θ p ( x ∣ θ ) π ( θ ) d θ \pi(\theta\mid \boldsymbol x)=\frac{h(\boldsymbol x,\theta)}{m(\boldsymbol x)}=\frac{p(\boldsymbol x\mid\theta)\pi(\theta)}{\int_{\Theta}p(\boldsymbol x\mid\theta)\pi(\theta)d\theta} π(θ∣x)=m(x)h(x,θ)=∫Θp(x∣θ)π(θ)dθp(x∣θ)π(θ)这就是贝叶斯公式的密度函数形式。这个在样本 x \boldsymbol x x 给定下, θ \theta θ 的条件分布被称为 θ \theta θ 的后验分布。它是集中了总体、样本和先验等三种信息中有关 θ \theta θ 的一切信息,而又是排除一切与 θ \theta θ 无关的信息之后所得到的结果。故基于后验分布 π ( θ ∣ x ) \pi(\theta|\boldsymbol x) π(θ∣x) 对 θ \theta θ 进行统计推断是更为有效,也是最合理的。
-
在 θ \theta θ 是离散随机变量时,先验分布可用先验分布列 π ( θ i ) , i = 1 , 2 , ⋅ ⋅ ⋅ \pi(\theta_i),i=1,2,\cdotp\cdotp\cdotp π(θi),i=1,2,⋅⋅⋅,表示。这时后验分布也是离散形式。
π ( θ i ∣ x ) = p ( x ∣ θ i ) π ( θ ) ∑ j p ( x ∣ θ j ) π ( θ j ) , i = 1 , 2 , ⋯ . \pi(\theta_i\mid \boldsymbol x)=\frac{p(\boldsymbol x\mid\theta_i)\pi(\theta)}{\sum_jp(\boldsymbol x\mid\theta_j)\pi(\theta_j)},\quad i=1,2,\cdots. π(θi∣x)=∑jp(x∣θj)π(θj)p(x∣θi)π(θ),i=1,2,⋯.
假如总体 X X X 也是离散的,那只要把密度函数 p ( x ∣ θ ) p(\boldsymbol x|\theta) p(x∣θ) 改为概率函数 P ( x = x ∣ θ ) P(x=\boldsymbol x\mid\theta) P(x=x∣θ) 即可。
后验分布的计算
在给定样本分布 p ( x ∣ θ ) p(\boldsymbol x|\theta) p(x∣θ) 和先验分布 π ( θ ) \pi(\theta) π(θ) 后可用贝叶斯公式计算 θ \theta θ 的后验分布
π ( θ ∣ x ) = p ( x ∣ θ ) π ( θ ) m ( x ) \pi(\theta|\boldsymbol x)=\frac{p(\boldsymbol x|\theta)\pi(\theta)}{m(\boldsymbol x)} π(θ∣x)=m(x)p(x∣θ)π(θ)
由于 m ( x ) m(\boldsymbol x) m(x) 不依赖于 θ \theta θ,在计算 θ \theta θ 的后验分布中仅起到一个正则化因子的作用。假如把 m ( x ) m(\boldsymbol x) m(x) 省略,把贝叶斯公式改写为如下等价形式
π ( θ ∣ x ) ∝ p ( x ∣ θ ) π ( θ ) \pi(\theta|\boldsymbol x)\propto p(\boldsymbol x|\theta)\pi(\theta) π(θ∣x)∝p(x∣θ)π(θ)
其中符号 ∝ \propto ∝ 表示两边仅差一个常数因子,一个不依赖于 θ \theta θ 的常数因子。上式右端虽不是正常的密度函数,但它是后验分布 π ( θ ∣ x ) \pi(\theta|\boldsymbol x) π(θ∣x) 的核,在需要时可以利用适当方式计算出后验密度,特别当看出 π ( θ ∣ x ) π ( θ ) \pi(\theta|\boldsymbol x)\pi(\theta) π(θ∣x)π(θ) 的核就是某常用分布的核时,不用计算 m ( x ) m(\boldsymbol x) m(x) 就可很快恢复所缺常数因子。这样一来就可简化后验分布的计算,这在共轭先验分布与非共轭先验分布场合都可使用。
正态均值(方差已知)的共轭先验分布是正态分布
设 x 1 , ⋅ ⋅ ⋅ , x n x_1,\cdotp\cdotp\cdotp,x_n x1,⋅⋅⋅,xn 是来自正态分布 N ( θ , σ 2 ) N(\theta,\sigma^{2}) N(θ,σ2) 的一组样本观察值。其中 σ 2 \sigma^2 σ2 已知。此样本的似然函数为:
P ( x ∣ θ ) = ( 1 2 π σ ) n exp { − 1 2 σ 2 ∑ i = 1 n ( x i − θ ) 2 } , − ∞ < x 1 , ⋯ , x n < + ∞ P(\boldsymbol x\mid\theta)=\left(\frac{1}{\sqrt{2\pi}\sigma}\right)^{n}\exp\left\{-\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}{(x_{i}-\theta)^{2}}\right\},\\-\infty<x_{1},\cdots,x_{n}<+\infty P(x∣θ)=(2πσ1)nexp{−2σ21i=1∑n(xi−θ)2},−∞<x1,⋯,xn<+∞
现取另一个正态分布 N ( μ , τ 2 ) N(\mu,\tau^2) N(μ,τ2) 作为正态均值 θ \theta θ 的先验分布,即
π ( θ ) = 1 2 π τ exp { − ( θ − μ ) 2 2 τ 2 } , − ∞ < θ < + ∞ \pi(\theta)=\frac{1}{\sqrt{2\pi}\tau}\exp\left\{-\frac{(\theta-\mu)^2}{2\tau^2}\right\},-\infty<\theta<+\infty π(θ)=2πτ1exp{−2τ2(θ−μ)2},−∞<θ<+∞
其中 μ \mu μ 与 τ 2 \tau^{2} τ2 为已知,由此可以写出样本 x \boldsymbol x x 与参数 θ \theta θ 的联合密度函数
h ( x , θ ) = k 1 exp { − 1 2 [ n θ 2 − 2 n θ x ‾ + ∑ i = 1 n x i 2 σ 2 + θ 2 − 2 μ θ + μ 2 τ 2 ] } h(\boldsymbol x,\theta)=k_1\exp\left\{-\frac{1}{2}\left[\frac{n\theta^2-2n\theta\overline{x}+\sum_{i=1}^nx_i^2}{\sigma^2}+\frac{\theta^2-2\mu\theta+\mu^2}{\tau^2}\right]\right\} h(x,θ)=k1exp{−21[σ2nθ2−2nθx+∑i=1nxi2+τ2θ2−2μθ+μ2]}
其中 k 1 = ( 2 π ) − ( n + 1 ) / 2 τ − 1 σ − n , x ‾ = ∑ i = 1 n x i n k_1=(2\pi)^{-(n+1)/2}\tau^{-1}\sigma^{-n},\overline{x}=\sum_{i=1}^{n}\frac{x_{i}}{n} k1=(2π)−(n+1)/2τ−1σ−n,x=∑i=1nnxi。若再记
σ 0 2 = σ 2 n , A = 1 σ 0 2 + 1 τ 2 , B = x ‾ σ 0 2 + μ τ 2 , C = 1 σ 2 ∑ i = 1 n x i 2 + μ 2 τ 2 \sigma_{0}^{2}=\frac{\sigma^{2}}{n},A=\frac{1}{\sigma_{0}^{2}}+\frac{1}{\tau^{2}},B=\frac{\overline{x}}{\sigma_{0}^{2}}+\frac{\mu}{\tau^{2}},C=\frac{1}{\sigma^{2}}\sum_{i=1}^{n}x_{i}^{2}+\frac{\mu^{2}}{\tau^{2}} σ02=nσ2,A=σ021+τ21,B=σ02x+τ2μ,C=σ21i=1∑nxi2+τ2μ2
则有
h ( x , θ ) = k 1 exp { − 1 2 [ A θ 2 − 2 θ B + C ] } = k 2 exp { − ( θ − B / A ) 2 2 / A } \begin{aligned} h(\boldsymbol x,\theta)= & k_{1}\exp\left\{-\frac{1}{2}[A\theta^{2}-2\theta B+C]\right\} \\ = & k_{2}\exp\left\{-\frac{(\theta-B/A)^{2}}{2/A}\right\} \end{aligned} h(x,θ)==k1exp{−21[Aθ2−2θB+C]}k2exp{−2/A(θ−B/A)2}
其中 k 2 = k 1 exp { − 1 2 ( C − B 2 / A ) } k_{2}=k_{1}\exp\left\{-\frac{1}{2}(C-B^{2}/A)\right\} k2=k1exp{−21(C−B2/A)}。由此容易算得样本 x x x 的边缘分布
m ( x ) = ∫ − ∞ ∞ h ( x , θ ) d θ = k 2 ( 2 π A ) 1 2 m(x)=\int_{-\infty}^{\infty}h(\boldsymbol x,\theta)d\theta=k_2\left(\frac{2\pi}A\right)^{\frac12} m(x)=∫−∞∞h(x,θ)dθ=k2(A2π)21
上面两式相除,即得 θ \theta θ 的后验分布
π ( θ ∣ x ) = ( 2 π A ) − 1 2 exp { − ( θ − B / A ) 2 2 / A } \pi(\theta|\boldsymbol x)=\left(\frac{2\pi}{A}\right)^{-\frac12}\exp\left\{-\frac{(\theta-B/A)^2}{2/A}\right\} π(θ∣x)=(A2π)−21exp{−2/A(θ−B/A)2}
这是正态分布 N ( μ 1 , τ 1 2 ) N(\mu_1,\tau_1^2) N(μ1,τ12) ,其均值 μ 1 \mu_1 μ1 与方差 τ 1 2 \tau_1^2 τ12 分别为
μ 1 = B A = x ‾ σ 0 − 2 + μ τ − 2 σ 0 − 2 + τ − 2 , 1 τ 1 2 = 1 σ 0 2 + 1 τ 2 \mu_1=\frac BA=\frac{\overline{x}\sigma_0^{-2}+\mu\tau^{-2}}{\sigma_0^{-2}+\tau^{-2}},\quad\frac1{\tau_1^2}=\frac1{\sigma_0^2} + \frac1{\tau^2} μ1=AB=σ0−2+τ−2xσ0−2+μτ−2,τ121=σ021+τ21
也就是
μ 1 = σ 0 − 2 σ 0 − 2 + τ − 2 x ‾ + τ − 2 σ 0 − 2 + τ − 2 μ = γ x ‾ + ( 1 − γ ) μ \begin{aligned} \mu_{1}= & \frac{\sigma_{0}^{-2}}{\sigma_{0}^{-2}+\tau^{-2}}\overline{x}+\frac{\tau^{-2}}{\sigma_{0}^{-2}+\tau^{-2}}\mu \\ = & \gamma\overline{x}+(1-\gamma)\mu \end{aligned} μ1==σ0−2+τ−2σ0−2x+σ0−2+τ−2τ−2μγx+(1−γ)μ
其中 γ = σ 0 − 2 / ( σ 0 − 2 + τ − 2 ) \gamma=\sigma_0^{-2}/(\sigma_0^{-2}+\tau^{-2}) γ=σ0−2/(σ0−2+τ−2) 是用方差倒数组成的权,于是后验均值 μ 1 \mu_1 μ1 是样本均值 x ˉ \bar{x} xˉ 与先验均值 μ \mu μ 的加权平均。若样本均值 x ˉ \bar{x} xˉ 的方差 σ 2 / n = σ 0 2 \sigma^2/n=\sigma_0^2 σ2/n=σ02 偏小,则其在后验均值的份额就大,若 σ 0 2 \sigma_0^2 σ02 较大则其在后验均值的份额较小,从而先验均值在后验均值的份额就大,这表明后验均值是在先验均值与样本均值间采取折衷方案。
在处理正态分布时,方差的倒数发挥着重要作用,并称其为精度,于是在正态均值的共轭先验分布的讨论中,其后验方差 τ 1 2 \tau_1^2 τ12 所满足的等式
1 τ 1 2 = 1 σ 0 2 + 1 τ 2 = n σ 2 + 1 τ 2 \frac{1}{\tau_1^2}=\frac{1}{\sigma_0^2}+\frac{1}{\tau^2}=\frac{n}{\sigma^2}+\frac{1}{\tau^2} τ121=σ021+τ21=σ2n+τ21
可解释为:后验分布的精度是样本均值分布的精度与先验分布精度之和,增加样本量 n n n 或减少先验分布方差都有利于提高后验分布的精度。
这就说明了正态均值(方差已知)的共轭先验分布是正态分布。譬如,设 X ∼ N ( θ X{\sim}N(\theta X∼N(θ, 2 2 ) , θ ∼ N ( 10 , 3 2 ) 2^2),\theta{\sim}N(10,3^2) 22),θ∼N(10,32)。若从正态总体 X X X 抽得容量为 5 的样本,算得 x ‾ = 12.1 \overline{x}=12.1 x=12.1,于是可算得 μ 1 = 11.93 \mu_{1}=11.93 μ1=11.93 和 τ 1 2 = ( 6 7 ) 2 \tau_{1}^{2}=\left(\frac{6}{7}\right)^{2} τ12=(76)2。这时正态均值 θ \theta θ 的后验分布为正态分布 N ( 11.93 , ( 6 7 ) 2 ) N(11.93,\left(\frac67\right)^2) N(11.93,(76)2)。
二项分布中的成功概率 θ 的共轭先验分布是贝塔分布
设总体 X X X ∼ b ( n , θ ) \sim b(n,\theta) ∼b(n,θ),其密度函数中与 θ \theta θ 有关部分(核)为 θ x ( 1 − θ ) n − x \theta^x(1-\theta)^{n-x} θx(1−θ)n−x。又设 θ \theta θ 的先验分布为贝塔分布 Be ( α , β ) (\alpha,\beta) (α,β),其核为 θ α − 1 ( 1 − θ ) β − 1 \theta^{\alpha-1}(1-\theta)^{\beta-1} θα−1(1−θ)β−1,其中 α , β \alpha,\beta α,β 已知,从而可写出 θ \theta θ 的后验分布
π ( θ ∣ x ) ∝ θ α + x − 1 ( 1 − θ ) β + n − x − 1 , 0 < θ < 1 \pi(\theta|x)\propto\theta^{\alpha+x-1}(1-\theta)^{\beta+n-x-1},0<\theta<1 π(θ∣x)∝θα+x−1(1−θ)β+n−x−1,0<θ<1
立即可以看出,这是贝塔分布 B e ( α + x , β + n − x ) \mathrm{Be} (\alpha+x,\beta+n-x) Be(α+x,β+n−x) 的核,故此后验密度为
π ( θ ∣ x ) = Γ ( α + β + n ) Γ ( α + x ) Γ ( β + n − x ) θ α + x − 1 ( 1 − θ ) β + n − x − 1 , 0 < θ < 1 \pi(\theta|x)=\frac{\Gamma(\alpha+\beta+n)}{\Gamma(\alpha+x)\Gamma(\beta+n-x)}\theta^{\alpha+x-1}(1-\theta)^{\beta+n-x-1},0<\theta<1 π(θ∣x)=Γ(α+x)Γ(β+n−x)Γ(α+β+n)θα+x−1(1−θ)β+n−x−1,0<θ<1
也就是
E ( θ ∣ x ) = α + x α + β + n = n α + β + n x n + α + β α + β + n α α + β = γ ⋅ x n + ( 1 − γ ) ⋅ α α + β \begin{aligned} E(\theta|x)= & \frac{\alpha+x}{\alpha+\beta+n} \\ = & \frac{n}{\alpha+\beta+n}\frac{x}{n}+\frac{\alpha+\beta}{\alpha+\beta+n}\frac{\alpha}{\alpha+\beta} \\ = & \gamma\cdot\frac{x}{n}+(1-\gamma)\cdot\frac{\alpha}{\alpha+\beta} \end{aligned} E(θ∣x)===α+β+nα+xα+β+nnnx+α+β+nα+βα+βαγ⋅nx+(1−γ)⋅α+βα
Var ( θ ∣ x ) = ( α + x ) ( β + n − x ) ( α + β + n ) 2 ( α + β + n + 1 ) = E ( θ ∣ x ) [ 1 − E ( θ ∣ x ) ] α + β + n + 1 \begin{aligned} \operatorname{Var}(\theta|x)= & \frac{\left(\alpha+x\right)\left(\beta+n-x\right)}{\left(\alpha+\beta+n\right)^{2}\left(\alpha+\beta+n+1\right)} \\ \mathrm{=} & \frac{E(\theta|x)\left[1-E(\theta|x)\right]}{\alpha+\beta+n+1} \end{aligned} Var(θ∣x)==(α+β+n)2(α+β+n+1)(α+x)(β+n−x)α+β+n+1E(θ∣x)[1−E(θ∣x)]
其中 γ = n / ( α + β + n ) , x / n \gamma=n/(\alpha+\beta+n),x/n γ=n/(α+β+n),x/n 是样本均值, α / ( α + β ) \alpha/(\alpha+\beta) α/(α+β) 是先验均值,从上述加权平均可见,后验均值是介于样本均值与先验均值之间,它偏向哪一侧由 γ \gamma γ 的大小决定。另外,当 n n n与 x x x都较大,且 x / n x/n x/n 接近某个常数 θ 0 \theta_0 θ0 时,我们有
E ( θ ∣ x ) ≈ x n V a r ( θ ∣ x ) ≈ 1 n x n ( 1 − x n ) \begin{aligned} E(\theta|x) & \approx\frac{x}{n} \\ \mathrm{Var}(\theta|x) & \approx\frac{1}{n}\frac{x}{n}\left(1-\frac{x}{n}\right) \end{aligned} E(θ∣x)Var(θ∣x)≈nx≈n1nx(1−nx)
这表明:当样本量增大时,后验均值主要决定于样本均值,而后验方差愈来愈小。这时后验密度曲线的变化随着 n n n 与 z z z 在成比例地增加时,后验分布愈来愈向比率 x / n x/n x/n 集中,这时先验信息对后验分布的影响将愈来愈小。
正态均值(方差已知)的共轭先验分布是倒伽玛分布
设 x 1 , ⋅ ⋅ ⋅ , x n x_1,\cdotp\cdotp\cdotp,x_n x1,⋅⋅⋅,xn 是来自正态分布 N ( θ , σ 2 ) N(\theta,\sigma^2) N(θ,σ2) 的一个样本观测值,其中 θ \theta θ 已知,现要寻求方差 σ 2 \sigma^2 σ2 的共轭先验分布,由于该样本的似然函数为
p ( x ∣ σ 2 ) = { 1 2 π σ ) n exp { − 1 2 σ 2 ∑ i = 1 n ( x i − θ ) 2 } ∝ ( 1 σ 2 ) n / 2 exp { − 1 2 σ 2 ∑ i = 1 n ( x i − θ ) 2 } p(x\mid\sigma^{2})=\left\{\frac{1}{\sqrt{2\pi}\sigma}\right)^{n}\exp\left\{-\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}{(x_{i}-\theta)^{2}}\right\} \\ \propto\left(\frac{1}{\sigma^{2}}\right)^{n/2}\exp\left\{-\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}{(x_{i}-\theta)^{2}}\right\} p(x∣σ2)={2πσ1)nexp{−2σ21i=1∑n(xi−θ)2}∝(σ21)n/2exp{−2σ21i=1∑n(xi−θ)2}
上述似然函数中 σ 2 \sigma^2 σ2 的因式将决定 σ 2 \sigma^2 σ2 的共轭先验分布的形式,什么分布具有上述的核呢?
设 X X X 服从伽玛分布 G a ( α , λ ) Ga(\alpha,\lambda) Ga(α,λ),其中 α > 0 \alpha>0 α>0 为形状参数, λ > 0 \lambda>0 λ>0 为尺度参数,其密度函数为
p ( x ∣ α , λ ) = λ α Γ ( α ) x a − 1 e − λ x , x > 0 p(x\mid\alpha,\lambda)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{a-1}e^{-\lambda x},x>0 p(x∣α,λ)=Γ(α)λαxa−1e−λx,x>0
通过概率运算可以求得 Y = X − 1 Y=X^{-1} Y=X−1 的密度函数
p ( y ∣ α , λ ) = λ a Γ ( α ) ( 1 y ) α + 1 e − λ y , y > 0 p(y|\alpha,\lambda)=\frac{\lambda^a}{\Gamma(\alpha)}\left(\frac1y\right)^{\alpha+1}e^{\frac{-\lambda}y},y>0 p(y∣α,λ)=Γ(α)λa(y1)α+1ey−λ,y>0
这个分布称为倒伽玛分布,记为 I G a ( α , λ ) IGa(\alpha,\lambda) IGa(α,λ),其均值为 E ( y ) = λ / ( α − 1 ) E(y)=λ/(α-1) E(y)=λ/(α−1)。假如取此倒伽玛分布为 σ 2 \sigma^2 σ2 的先验分布,其中参数 α \alpha α 与 λ \lambda λ已知,则其密度函数为
π ( σ 2 ) = λ α Γ ( α ) ( 1 σ 2 ) α + 1 e − λ / σ 2 , σ 2 > 0 \pi(\sigma^2)=\frac{\lambda^\alpha}{\Gamma(\alpha)}\:\left(\frac{1}{\sigma^2}\right)^{\alpha+1}e^{-\lambda/\sigma^2}\:,\sigma^2>0 π(σ2)=Γ(α)λα(σ21)α+1e−λ/σ2,σ2>0
于是 σ 2 \sigma^2 σ2 的后验分布为
π ( σ 2 ∣ x ) ∝ p ( x ∣ σ 2 ) π ( σ 2 ) ∞ ( 1 σ 2 ) a + n 2 + 1 exp { − 1 σ 2 [ λ + 1 2 ∑ i = 1 n ( x i − θ ) 2 ] } \pi(\sigma^2\mid x)\propto p(x\mid\sigma^2)\pi(\sigma^2) \\ \infty\left(\frac{1}{\sigma^{2}}\right)^{a+\frac{n}{2}+1}\exp\left\{-\frac{1}{\sigma^{2}}\left[\lambda+\frac{1}{2}\sum_{i=1}^{n}(x_{i}-\theta)^{2}\right]\right\} π(σ2∣x)∝p(x∣σ2)π(σ2)∞(σ21)a+2n+1exp{−σ21[λ+21i=1∑n(xi−θ)2]}
容易看出,这仍是倒伽玛分布 I G a ( α + n 2 , λ + 1 2 ∑ i = 1 n ( x i − θ ) 2 ) IGa\left(\alpha+\frac n2,\lambda+\frac12\sum_{i=1}^n(x_i-\theta)^2\right) IGa(α+2n,λ+21∑i=1n(xi−θ)2),这表明,倒伽玛分布 I G a ( α , λ ) IGa(\alpha,\lambda) IGa(α,λ) 是正态方差 σ 2 \sigma^2 σ2 的共轭先验分布。
有趣的是:这个 σ 2 \sigma^2 σ2后验分布的均值可改等为如下加权平均
E ( σ 2 ∣ x ) = λ + 1 2 ∑ i = 1 n ( x i − θ ) 2 α + n 2 − 1 = γ ⋅ λ α − 1 + ( 1 − γ ) ⋅ 1 2 ∑ i = 1 n ( x i − θ ) 2 \begin{aligned} E(\sigma^2\mid x) &=\frac{\lambda+\frac12\sum_{i=1}^n(x_i-\theta)^2}{\alpha+\frac n2-1} \\ &=\gamma\cdot\frac{\lambda}{\alpha-1}+(1-\gamma)\cdot\frac{1}{2}\sum_{i=1}^n(x_i-\theta)^2 \end{aligned} E(σ2∣x)=α+2n−1λ+21∑i=1n(xi−θ)2=γ⋅α−1λ+(1−γ)⋅21i=1∑n(xi−θ)2
其中权 γ = α − 1 α + n 2 − 1 , λ α − 1 \gamma=\frac{\alpha-1}{\alpha+\frac n2-1},\frac\lambda{\alpha-1} γ=α+2n−1α−1,α−1λ 是 σ 2 \sigma^2 σ2 的共轭先验分布 I G α ( α , λ ) IG\alpha(\alpha,\lambda) IGα(α,λ) 的先验均值 , 1 n ∑ i = 1 n ( x i − θ ) 2 ,\frac1n\sum_{i=1}^{n}(x_{i}-\theta)^{2} ,n1∑i=1n(xi−θ)2 是在 θ \theta θ 已知条件下的样本方差(样本对 θ \theta θ 的偏差平方的平均),由此可知,在取 σ 2 \sigma^2 σ2的共轭先验分布场合,其后验均值是 σ 2 \sigma^2 σ2 的先验均值与样本方差的加权平均。当样本量 n n n足够大时, γ \gamma γ 接近于0,从而后验均值 E ( σ 2 / x ) E(\sigma^2/x) E(σ2/x) 主要由样本方差决定。而当 n n n 不大时,后验均值 E ( σ 2 / x ) E(\sigma^2/x) E(σ2/x) 是介于 σ 2 \sigma^2 σ2的先验均值与样本方差之间的某一个数。
相关文章:
【推导过程】常用共轭先验分布
文章目录 相关教程相关文献常用共轭先验分布预备知识贝叶斯统计后验分布的计算 正态均值(方差已知)的共轭先验分布是正态分布二项分布中的成功概率 θ 的共轭先验分布是贝塔分布正态均值(方差已知)的共轭先验分布是倒伽玛分布 作者:小猪快跑 基础数学&计算数学&…...
notepad++安装教程(超详细)
1.下载地址(可以私信博主) https://notepad-plus.en.softonic.com/download 2.解压安装...
Django快速入门
目录 1 创建django工程2 运行django3 Django工程目录详解4 开始一个app5 CBV和FBV6 使用模板7 使用模板语言8 自定义simple_tag Django 是用 Python 写的一个自由和开放源码 web 应用程序框架。 web框架是一套组件,能帮助你更快、更容易地开发web站点。当你开始构建…...
ISO45001职业健康安全管理体系认证流程
前期准备 领导决策:企业高层领导需认识到实施 ISO 45001 体系的重要性和必要性,做出认证决策,并承诺提供必要的资源支持。成立工作小组:由企业各相关部门人员组成工作小组,明确各成员的职责和分工,确保工作…...
Elasticsearch一分钟
参考 FST有穷状态转换器/咆哮位图/增量缩紧 Es技术难点 架构...
MFC中如何创建一个非模态对话框
对话框是编程中常用的一个控件,非模态对话框与用户交互更加友好,用户不必关闭对话框就能进行其他操作,比如拷贝黏贴,对比数据,执行其他命令。 由于无模态对话经常使用,且用法类似,因此我把它写…...
【设计模式】单例模式 在java中的应用
文章目录 引言什么是单例模式单例模式的应用场景单例模式的优缺点优点缺点 单例模式的基本实现饿汉式单例模式懒汉式单例模式双重检查锁定静态内部类枚举单例 单例模式的线程安全问题多线程环境下的单例模式线程安全的实现方式1. **懒汉式单例模式(线程不安全&#…...
北京2024年CSP-S/J 及NOIP游记
北京2024年CSP-S/J 及NOIP游记 2024.9 开学2024.9 CSP-S12024.9 停课2024.10假期 误入歧途2024.10 CSP-S2 冲刺 2024.9 开学 开学升入初三,9月的前半个月一直在搞文化课(把文化课搞得风生水起),经历了1天的校运动会(摆…...
vue 纯前端对接阿里云oss文件上传封装,支持批量多文件上传,大文件上传时拿到上传进度。
使用阿里云上传先看官方文档(阿里云官方文档) 我这边只做了简单上传和分片上传,也包含了粘贴上传和拖拽上传。 1.首页先安装 npm i ali-oss2.在utils下创建uploadOss.js const OSS require(ali-oss) import { getOsstoken } from /api/in…...
YOLO系列发展历程:从YOLOv1到YOLO11,目标检测技术的革新与突破
文章目录 前言一、YOLOv1:单阶段目标检测的开端二、YOLOv2:更精准的实时检测三、YOLOv3:阶梯特征融合四、YOLOv4:性能和速度的新平衡五、YOLOv5:易用性和扩展性的加强六、YOLOv6:工业部署的利器七、YOLOv7&…...
认识Java中的异常(半成品)
1.异常的概念与体系结构 1.1在Java中,将程序执行过程中发生的不正常行为称为异常.比如 1.算数异常 public class Main1 {public static void main(String[] args){System.out.println(10/0);} } //异常信息为:Exception in thread "main" java.lang.ArithmeticExc…...
Sqoop 指令语法手册
目录 help指令list-databases参数描述示例 codegen参数描述 Sqoop create-hive-table参数描述 eval参数描述 Export参数描述 import参数描述 import-all-tables参数描述 import-mainframe参数描述 job参数描述 list-tables参数描述 merge参数描述 help指令 sqoop help 下面的S…...
网络安全 - SQL Injection
1.1.1 摘要 日前,国内最大的程序员社区CSDN网站的用户数据库被黑客公开发布,600万用户的登录名及密码被公开泄露,随后又有多家网站的用户密码被流传于网络,连日来引发众多网民对自己账号、密码等互联网信息被盗取的普遍担忧。 网络…...
spi 发送与接收 移位写法
spi _tx 发送模块 片选信号cs可以在top顶层控制模块产生 timescale 1ns / 1psmodule spi_rom#(parameter SIZE 8 )(input wire clk ,input wire rst_n,input wire [SIZE-1:0] data ,input wire …...
MyBatis关联映射
目录 一、什么是关联注解? 二、数据库建表 1.学生表 2.教师表 三、一般查询 (1)创建StudentTeacher类 (2)mapper层 (3)Dao接口 (4)Test类 (5&#x…...
通过华为鲲鹏认证的软件产品如何助力信创产业
软件通过华为鲲鹏认证与信创产业有着密切的联系。鲲鹏认证是华为推动信创产业发展的一项重要举措,通过该认证,软件可以在华为的生态系统中实现更好的兼容性和性能优化,从而推动信创产业的全面发展和国产化替代。 鲲鹏认证的定义和重要性 鲲…...
陈志刚解读:国家数据基础设施建设解读(附下载)
本期分享陈志刚解读:国家数据基础设施建设解读,从背景意图、概念内涵、发展愿景与总体功能、总体架构、重点方向、算力底座、网络支撑、安全防护和组织保障十个方面展开,共52页ppt。 加入星球可获取完整版资料 篇幅限制,部分内容…...
QT 中 sqlite 数据库使用
一、前提 --pro文件添加sql模块QT core gui sql二、使用 说明 --用于与数据库建立连接QSqlDatabase--执行各种sql语句QSqlQuery--提供数据库特定的错误信息QSqlError查看qt支持的驱动 QStringList list QSqlDatabase::drivers();qDebug()<<list;连接 sqlite3 数据库 …...
VPN设备
定义: 虚拟专用网络指的是在公用网络上建立专用网络的技术。之所以称为虚拟网主要是因为整个VPN网络的任意两个节点之间的连接并没 有传统专网所需的端到端的物理链路,而是架构在公用网络服务商所提供的网络平台之上的逻辑网络,用户数据在逻辑链路中传输…...
centos部署SkyWalking并在springcloud项目中用法举例
文章目录 场景SkyWalking介绍部署部署Storage [单机版Elasticsearch]部署SkyWalking OAP [下载地址](https://skywalking.apache.org/downloads/#SkyWalkingAPM)部署SkyWalking Java AgentspringCloud 使用举例 场景 SkyWalking是应用性能监控平台,可用于分布式系统…...
[创业之路-186]:《华为战略管理法-DSTE实战体系》-1-为什么UTStarcom死了,华为却活了,而且越活越好?
目录 前言 一、市场定位与战略选择 二、技术创新能力 三、企业文化与团队建设 四、应对危机的能力 五、客户为中心的理念 六、市场适应性与战略灵活性 七、技术创新与研发投入 八、企业文化与团队建设 九、应对危机的能力 前言 UT斯达康(UTStarcom&#…...
算法设计5_分支限界法
分支限界法 分支限界法常以广度优先或以最小耗费(最大效益)优先的方式搜索问题的解空间树,裁剪那些不能得到最优解的子树以提高搜索效率。 步骤: ① 定义解空间(对解编码); ② 确定解空间的树结构; ③ 按BFS等方式搜索: a.每个活…...
【设计模式系列】状态模式(二十三)
一、什么是状态模式 状态模式(State Pattern)是一种行为设计模式,其核心目的是管理一个对象在其内部状态改变时的行为变化,其核心理念是将对象的行为和状态分离。这种模式通过将每个状态相关的行为封装在独立的类中,使…...
github创建发布分支
创建一个名为 latest 的分支,并将其作为稳定版本分支。以下是操作步骤: 1. 创建 latest 分支 首先,确保你在 master 分支(或当前的稳定版本分支)上,并且已经提交了所有更改。然后,你可以创建一…...
【Linux】网络服务
声明,以下内容均学习自《Linux就该这么学》一书 1、创建网络会话 Linux系统使用NetworkManager提供网络服务,它是一种动态管理网络配置的守护进程,能够让网络设备保持连接状态。 nmcli nmcli是一款基于命令行的网络配置工具,它…...
错题:Linux C语言
题目:手写代码:判断一个数(int类型的整数)中有有多少1 题目:手写代码:判断一个数(转换成二进制表示时)有几个1 #include <stdio.h> int main(int argc, const char *argv[]) { //判断一个数…...
机器学习期末速成
文章参考自B站机器学习期末速成课 本文仅作者个人复习使用 一、机器学习分类 聚类和分类的区别: 分类:一开始就知道有哪些类别 聚类:一开始不知道有哪些类别 损失函数:简单来说就是你预测出来的结果和真实值的差距。 0-1损失函数…...
【学习总结|DAY015】Java面向对象高级-抽象类、接口
引言 在今天的课程中,我们详细探讨了 Java 编程语言的几个核心特性:多态、final 关键字、抽象类和接口。这些概念是面向对象编程的基础,对于构建健壮、可维护的应用至关重要。本文将通过具体的例子和解释帮助大家更好地掌握这些知识点。 一…...
单词拼写纠正-04-161.力扣 相隔为 1 的编辑距离
拼写纠正系列 NLP 中文拼写检测实现思路 NLP 中文拼写检测纠正算法整理 NLP 英文拼写算法,如果提升 100W 倍的性能? NLP 中文拼写检测纠正 Paper java 实现中英文拼写检查和错误纠正?可我只会写 CRUD 啊! 一个提升英文单词拼…...
深入理解 NumPy 广播机制:从基础到应用
目录 什么是广播机制?广播机制的规则广播机制示例1. 一维数组与标量运算2. 二维数组与一维数组运算3. 维度不同的数组运算4. 广播失败的情况 广播机制的实际应用场景1. 数据归一化2. 批量计算欧氏距离 总结广播机制的核心要点: 在使用 NumPy 进行数组操作…...
Springboot(五十三)SpringBoot3整合redisson
前边我们有记录Springboot2/3整合redis的方式。是基于Springboot默认集成的Lettuce客户端实现的。 今天我们在项目中集成的redission是在Lettuce之上构建的redis客户端。 Redisson:一个在Jedis和Lettuce之上构建的Redis客户端。提供了一系列分布式Java对象和服务,比如:分布式…...
UAC2.0 speaker——带反馈端点的 USB speaker(16bit 单声道)
UAC2.0 speaker 系列文章 UAC2.0 speaker——单声道 USB speaker(16bit) UAC2.0 speaker——类特殊请求 UAC2.0 speaker——音量控制 UAC2.0 speaker——多采样率支持 UAC2.0 speaker——24/32bit 支持 UAC2.0 speaker——speaker 数据传输 UAC2.0 speaker——同时支持 16bi…...
P2562 [AHOI2002] Kitty猫基因编码
P1498P2562 [AHOI2002] Kitty猫基因编码 #include <iostream> using namespace std; #include <cmath> #include <vector> #include <string> string encode(string str){if(str.find("0") string::npos) return "B";if(str.fin…...
HarmonyOS(65) ArkUI FrameNode详解
Node 1、Node简介2、FrameNode2.1、创建和删除节点2.2、对FrameNode的增删改2.3 FramNode的查询功能3、demo源码4、总结5、参考资料1、Node简介 在HarmonyOS(63) ArkUI 自定义占位组件NodeContainer介绍了自定义节点复用的原理(阅读本本篇博文之前,建议先读读这个),在Node…...
40分钟学 Go 语言高并发:负载均衡与服务治理
负载均衡与服务治理 一、知识要点总览 模块核心内容技术实现难度负载策略轮询、权重、最小连接数自定义负载均衡器中服务降级服务降级、熔断降级、限流降级Hystrix模式高熔断机制熔断器状态机、失败计数、自动恢复Circuit Breaker高限流设计令牌桶、滑动窗口、计数器Rate Lim…...
Python 从入门到实战45(Pandas数据操作)
我们的目标是:通过这一套资料学习下来,可以熟练掌握python基础,然后结合经典实例、实践相结合,使我们完全掌握python,并做到独立完成项目开发的能力。 上篇文章我们学习了pandas数据读写的相关基础知识。今天学习一下…...
node js 历史版本下载
此为node历史版本下载地址 https://nodejs.org/dist/https://nodejs.org/dist/...
无代码探索AI大模型:腾讯云函数计算的卓越实践
在数字化转型的浪潮中,人工智能(AI)技术已经成为企业提升竞争力的关键。然而,对于许多业务人员来说,技术门槛高、开发周期长等问题限制了他们快速探索和应用AI大模型的能力。同时,对于缺乏GPU资源的开发者来…...
网页数据抓取:融合BeautifulSoup和Scrapy的高级爬虫技术
网页数据抓取:融合BeautifulSoup和Scrapy的高级爬虫技术 在当今的大数据时代,网络爬虫技术已经成为获取信息的重要手段之一。Python凭借其强大的库支持,成为了进行网页数据抓取的首选语言。在众多的爬虫库中,BeautifulSoup和Scra…...
vivado中,generate output product 和Create HDL wrapper的作用
generate output product 以zynq的ip核举例,没有generate output product之前,在ip source 什么也看不到。 但是同样的一个ip核,generate output product之后,会生成综合,布线和仿真文件,约束文件等等。 …...
欧盟R156法规注意事项及实例展示
欧盟 R156 法规即《关于批准车辆的软件升级和软件升级管理体系统一规定的法规》,其注意事项及实例如下: 注意事项: 软件升级管理体系方面: 体系建立与维持:汽车制造商和供应商必须建立完善的软件升级管理体系ÿ…...
HTML语义化的案例分析
HTML语义化的案例分析:对比实际网站中语义化与非语义化标签的差异 在现代Web开发中,HTML语义化被广泛认为是提升网页结构和可访问性的重要做法。HTML语义化不仅仅是为了让代码更清晰,更是为了增强搜索引擎优化(SEO)&a…...
使用 pyperclip 进行跨平台剪贴板操作
简介:pyperclip 是一个轻量级的 Python 库,支持在不同操作系统(Windows、macOS、Linux)中进行剪贴板的复制和粘贴。这个库的设计简单易用,非常适合需要频繁进行文本复制粘贴操作的场景。 历史攻略: 使用f…...
微信小程序报错:http://159.75.169.224:7300不在以下 request 合法域名列表中,请参考文档
要解决此问题,需打开微信小程序开发者工具进行设置,打开详情-本地设置重新运行,该报错就没有啦...
Java:181 基于springboot的考编论坛管理系统
作者主页:舒克日记 简介:Java领域优质创作者、Java项目、学习资料、技术互助 文中获取源码 项目介绍 本系统一共管理员,用户角色。 主要功能:收货地址管理、经验交流平台管理、公告信息管理、跳蚤市场管理、商品留言管理、商品订…...
通义千问sft-甄嬛对话
流程步骤 https://www.datawhale.cn/activity/110/21/76?rankingPage1 按照上面的流程,准备好数据之后就可以直接对7b的模型进行指令微调了,整个流程不是很复杂,操作起来比较方便。但是发布服务等了较长时间,以为出了bug 结果展…...
如何配置Jackson以忽略Java类中为null或空(empty)的字段
Jackson库提供了JsonInclude注解和ObjectMapper配置选项,可以用来控制是否在JSON输出中包含null或空值的字段。 默认情况下,Jackson会包含所有字段,不论其值为何。 本教程将展示如何使用Include.NON_NULL来忽略null值字段,以及使…...
设置笔记本同时连接内外网
原理:通过笔记本和手机相连,实现双网卡功能能。笔记本连接内网wifi、同时手机端开启usb网络共享,笔记本就有了两个网,然配置那个访问外网,那个访问内网。 1.笔记本wifi连接内网wifi 2.手机端共享网络。 手机打开 -【…...
让文章更具说服力:如何巧妙运用逻辑
在写作的过程中,不论是创作小说、撰写学术论文,还是撰写营销文案,逻辑的运用都至关重要。一个没有逻辑支撑的文章,很容易让读者产生困惑、迷失方向,甚至失去阅读兴趣。因此,如何巧妙地运用逻辑,…...
阿里云云服务器Docker-Execrise
申请云服务器 阿里云每个人可以免费申请三个月的使用的服务器可以用作学习使用建议申请规格2核4g的,2g的有点捉襟见肘了选择服务器建议alibaba-linux服务器,就是linux;选择windows可能由于2核4g的限制,docker不匹配系统起码我就是…...