0%

参数估计问题

典型的离散型随机变量分布有二项式分布,多项式分布,泊松分布;典型的连续型随机变量分布有正态分布,拉普拉斯分布,$Student\;t$ 分布。它们都可以看成是参数分布,因为它们的函数形式被一小部分参数所控制。因此,给定一堆数据,我们希望用一个给定的分布去拟合实际数据分布的时候,就要估计出这些参数的值,以便能够利用分布模型来做密度估计。

对于参数估计,一直存在两个学派的不同解决方案:

  • 频率学派:通过某些优化准则(比如似然函数)来选择特定参数值
  • 贝叶斯学派:首先假定参数服从一个先验分布,通过观测到的数据,使用贝叶斯理论计算对应的后验分布且选择的先验与后验都满足共轭性质

相关概念

似然和概率

在开始之前,我们需要明确似然概率的区别,大多数人倾向于混用似然和概率这两个名词,但统计学家和概率理论家都会区分这两个概念。通过观察下面这个等式,我们可以更好地明确这种混淆的原因。

$$ L(\mu,\sigma; data) = P(data; \mu,\sigma) $$

这两个表达式是相等的,所以这是什么意思?我们先来定义概率 $P(data; \mu,\sigma)$, 它的意思是在模型参数 $\mu,\sigma$ 条件下,观察到数据 $data$ 的概率,我们可以将其推广到任意数量的参数和任何分布。

另一方面,似然 $L(\mu,\sigma; data)$ 的意思是我们在观察到一组数据 $data$ 之后,参数 $\mu,\sigma$ 取特定的值的似然度

上面的公式表示,给定参数后数据的概率等于给定数据后参数的似然度。但是,尽管这两个值是相等的,但是似然度和概率从根本上是提出了两个不同的问题:一个是关于数据的,另一个是关于参数值的。这就是为什么这种方法被称为最大似然法(极大可能性),而不是最大概率。

最小二乘和最大似然

最小二乘法是另一种常用的机器学习模型参数估计方法。结果表明,当模型向上述例子中一样被假设为高斯分布时,最大似然估计等价于最小二乘法。

直觉上,我们可以通过理解两种方法的目的来解释这两种方法之间的联系。对于最小二乘参数估计,我们想要找到最小化数据点和回归线之间距离平方之和的直线(见下图)。在最大似然估计中,我们想要最大化数据同时出现的总概率当待求分布被假设为高斯分布时,最大概率会在数据点接近平均值时找到。由于高斯分布是对称的,这等价于最小化数据点与平均值之间的距离。

最大似然估计

最大似然估计(Maximum Likelihood Estimation)描述的是当给定一堆数据 $ \mathcal{D} $ 且假定我们已经知道数据的分布,这个分布的参数 $\theta$ 是固定的,目标就是找出这样一个固定的参数 $\theta$ ,使得模型产生出观测数据的概率最大:

$$\hat{\theta}= \mathop{argmax}_\theta p(\mathcal{D}|\theta)$$

举个例子,对于抛硬币的问题,正面朝上的次数满足二项分布,正面朝上的概率是$\mu$ 。现在我们抛 $10$ 次硬币,正面朝上的次数是 $2$ 次,显然 $\mu=0.2$,下面我们用最大似然估计来求解这个参数,写出似然函数:

$$p(\mathcal{D};\mu)=\prod_{i=1}^n \mu^{x_i} (1-\mu)^{1-x_i}$$

其中 $x=1$ 表示正面朝上,$x=0$ 表示反面朝上,$n$ 是抛硬币的次数。对数似然函数为:

$$\begin{align} \mathcal{L} = \log p(\mathcal{D}|\mu) & = \log[\prod_{i=1}^n \mu^{x_i} (1-\mu)^{1-x_i}] \nonumber \\
&=\sum_{i=1}^n \log [\mu^{x_i} (1-\mu)^{1-x_i}] \nonumber \\
&=\sum_{i=1}^n [\log \mu^{x_i}+ \log (1-\mu)^{1-x_i}] \nonumber \\
&=\sum_{i=1}^n [x_i \log \mu+ (1-x_i)\log (1-\mu)] \nonumber \end{align}$$

对参数 $\mu$ 求导:

$$\begin{align} \frac{\partial \mathcal{L}}{\partial \mu} & =\sum_{i=1}^n \frac{\partial }{\partial \mu}[x_i \log \mu+ (1-x_i)\log (1-\mu)] \nonumber\\
&=\sum_{i=1}^n [x_i \frac{\partial }{\partial \mu}\log \mu+ (1-x_i) \frac{\partial }{\partial \mu} \log (1-\mu)]\nonumber\\
&=\frac{1}{\mu}\sum_{i=1}^n x_i - \frac{1}{1-\mu}\sum_{i=1}^n (1-x_i) \nonumber \end{align}$$

令导数等于 $0$,可以得到:

$$\hat{\mu}_{ML}=\frac{1}{n}\sum_{i=1}^n x_i=0.2$$

最大后验估计

最大后验估计 (Maximum a Posteriori) 是最大似然估计的扩展并与其类似,都是假设在给定数据的情况下,分布的参数都是固定的数值。但是不同的是,最大后验估计假设这个参数服从一个分布,既参数取到每个值的可能性不是相等的,而是服从一个分布的。而最大似然估计的参数是不服从分布的,或者说服从均匀分布,因此取到每一值是等可能的。

比如说,在上面抛硬币的例子,假如我们的经验告诉我们,硬币一般都是匀称的,也就是 $\mu=0.5$ 的可能性最大,$\mu=0.2$ 的可能性比较小,那么参数该怎么估计呢?这就是最大后验估计要考虑的问题。最大后验估计优化的是一个后验概率,即给定了观测值后使概率最大,这个概率是由贝叶斯定理推导过来的:

$$\begin{align} \hat{\theta} &= \mathop{argmax}_\theta p(\theta|\mathcal{D})\nonumber \\
&= \mathop{argmax}_\theta \frac{p(\mathcal{D}|\theta) p(\theta|\eta)}{p(\mathcal{D})}\nonumber \\
&= \mathop{argmax}_\theta p(\mathcal{D}|\theta) p(\theta|\eta) \nonumber \end{align}$$

上式中第一项 $p(\mathcal{D}|\theta)$ 即为似然函数,而第二项 $p(\theta|\eta)$ 则是一个先验分布,其中 $ \eta $ 是超参数。

在抛硬币的例子中,我们假设参数 $\mu$ 的先验分布是 $Beta$ 分布:

$$p(\theta|\eta)=p(\mu|a,b)=Beta(\mu|a,b)=\frac{\Gamma(a + b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{(b-1)}$$

对后验估计 $p(\mathcal{D}|\mu) Beta(\mu|a,b)$ 取对数:

$$ \mathcal{L}=\log p(\mathcal{D}|\mu) Beta(\mu|a,b) = \log p(\mathcal{D}|\mu) + \log Beta(\mu|a,b) $$

对参数 $\mu$ 求导:

$$ \frac{\partial \mathcal{L}}{\partial \mu}= \frac{\partial \log p(\mathcal{D}|\mu)}{\partial \mu} + \frac{\partial \log Beta(\mu|a,b)}{\partial \mu} $$

其中第一项的导数已经在最大似然估计中求出,现在只需要求出第二项的导数:

$$\begin{align} \frac{\partial \log Beta(\mu|a,b)}{\partial \mu} &=\frac{\partial }{\partial \mu} \log [\frac{\Gamma(a + b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{(b-1)}]\nonumber\\
&=\frac{\partial }{\partial \mu} \log \frac{\Gamma(a + b)}{\Gamma(a)\Gamma(b)} + \frac{\partial }{\partial \mu} \log \mu^{a-1}(1-\mu)^{(b-1)}\nonumber \\
&=0+(a-1) \frac{\partial }{\partial \mu}\log{\mu}+(b-1) \frac{\partial }{\partial \mu}\log{(1-\mu)}\nonumber \\
&=\frac{a-1}{\mu}-\frac{b-1}{1-\mu} \nonumber \end{align}$$

即:

$$ \frac{\partial \mathcal{L}}{\partial \mu}=\frac{1}{\mu}\sum_{i=1}^n x_i - \frac{1}{1-\mu}\sum_{i=1}^n (1-x_i) + \frac{a-1}{\mu}-\frac{b-1}{1-\mu} $$

令导数等于 $0$,可以得到:

$$\hat{\mu}_{MAP}=\frac{\sum_{i=1}^n x_i+a-1}{n+a+b-2} $$

其中 $a$ 与 $b$ 是先验概率分布的参数,往往根据人的经验给定,比如我们认为一枚均匀硬币正反两面朝上的概率都是相等的,那么我们就可以假设 $a=b$,这样在一定程度上可以防止因为数据不足导致训练出的模型参数太差,通常情况下,这两个越大,偏离匀称的可能性就越小。

例如,取 $a=b=2$,有 $\hat{\mu}_{MAP}=0.25$,取 $a=b=4$,有 $\hat{\mu}_{MAP}=0.3125$,

贝叶斯估计

贝叶斯估计是最大后验估计的进一步扩展,和最大后验估计一样,也认为参数不是固定的,都假设参数服从一个先验分布。但是最大后验估计是直接估计出参数的值,而贝叶斯估计是估计出参数的分布,这就是贝叶斯与最大似然估计和最大后验估计最大的不同。

$$ p(\theta|\mathcal{D}) =\frac{p( \mathcal{D}|\theta)p(\theta|\eta)}{p(\mathcal{D})}=\frac{p( \mathcal{D}|\theta)p(\theta|\eta)}{\int_\theta p( \mathcal{D}|\theta)p(\theta|\eta) d \theta} $$

贝叶斯定理给出了最小化误差的最优解决方法,可用于分类和预测。理论上,它看起来很完美,但在实际中,它并不能直接利用,它需要知道证据的确切分布概率,而实际上我们并不能这个信息,因此我们在很多分类方法中都会作出某种假设以逼近贝叶斯定理的要求。

附:Beta分布

在概率论中,$B$ 分布也称 $Beta$ 分布,是指一组定义在 $(0,1)$ 区间的连续概率分布,有两个参数 $\alpha ,\beta >0$ 。

概率密度函数

w369

概率分布性质

众数:$$ \frac {\alpha -1}{\alpha + \beta -2} $$
期望:$$ \frac {\alpha}{\alpha + \beta} $$
方差:$$ \frac {\alpha \beta}{(\alpha + \beta)^2(\alpha + \beta+1)} $$

参考文献:
[1] 周晓飞,《统计机器学习》,中国科学院大学2017年秋季研究生课程
[2] 参数估计-CSDN
[3] B 分布-维基百科