回归分析

概述

问题定义

根据给定的训练集 $T={(x_1, y_1),\dots,(x_l, y_l)}$,其中 $x_i \in C = R^n$,$y_i \in Y = R$,预测的结果 $y$ 为连续函数值,要求寻找 $R^n$ 上的决策函数 $f(x): C \rightarrow Y$。

性能评价


线性回归

对于所谓的一元、二元、多元回归,$N$ 元对应的就是变量 $x$ 的维度。

最小二乘估计

“二乘”的意思就是“平方”,其目标函数也就是最小化平方误差的和:

$$ \min_{\theta} \sum_{t=1}^n (y_t - \theta^Tx_t - \theta_0)^2 $$

矩阵求解过程:

最大似然估计

最大似然估计中最重要的是“似然”的概念,即模型已知,参数未定。关于概率和似然的相关概念,这里有更为详细的解释。本章节讨论的是似然函数服从正态分布假设的最大似然估计。

这里我们所说的正态分布指的是误差服从正态分布:
$$ y_t = \theta^Tx + \theta_0 + \epsilon_t \; t=1,2,\dots, n $$

其中,$\epsilon_t \sim N(0, \sigma^2)$ 并且 $\epsilon$ 之间相互独立。

正态分布概率密度函数:
$$f(x) = \frac 1 {\sqrt[]{2\pi \sigma^2}} exp (-\frac {(x-\mu)^2} {2\sigma^2}) $$

写出似然函数:

对数似然:

显然,此时最大化对数似然估计等价于最小化二乘估计,这种情况出现在正态分布的情况下是完全可解释的。

优化学习方法

对于最大似然估计的优化学习方法,第一种方法就是在最小二乘估计中介绍的矩阵求解方法,另外一种就是梯度下降方法:

最大后验估计

在本部分的最大化后验估计中,我们依旧使用正态分布的误差数据,写出正态分布的先验概率:

$$ p(y|x, \theta, \theta_0) = L(\theta, \theta_0, \sigma^2) = \prod_{t=1}^n \frac 1 {\sqrt[]{2\pi \sigma^2}} exp \left(-\frac 1 {2\sigma^2} (y_t-\theta^Tx_t-\theta_0)^2 \right)$$

参数先验:

$$ \begin{align} \pi(\theta, \theta_0) &= \frac 1 {(\sqrt[]{2\pi \sigma_{\theta}^2})^m} \prod_{k=0}^M \left(-\frac {\theta_k^2} {2\sigma_{\theta}^2}\right) \nonumber
\\& = = \frac 1 {(\sqrt[]{2\pi \sigma_{\theta}^2})^m} exp \left(-\frac 1 {2\sigma_{\theta}^2} \sum_{k=0}^M \theta_k^2 \right) \nonumber
\\& = = \frac 1 {(\sqrt[]{2\pi \sigma_{\theta}^2})^m} exp \left(-\frac 1 {2\sigma_{\theta}^2} ||\theta||^2 \right) \nonumber
\end{align} $$

参数后验:
$$ p(\theta, \theta_0 |x, y) \propto \pi(\theta, \theta_0)p(y|x, \theta, \theta_0 )$$

对数参数后验:
$$ log \pi(\theta, \theta_0)p(y|x, \theta, \theta_0 ) = -\frac 1 {2\sigma^2} \sum_{t=1}^n (y_t-\theta^Tx_t-\theta_0)^2 -\frac 1 {2\sigma^2}||\theta||^2 + const $$

目标函数:
$$ \min_{\theta} -\frac 1 2 \sum_{t=1}^n (y_t-\theta^Tx_t-\theta_0)^2 -\frac \lambda 2||\theta||^2 $$
其中,$\lambda = \frac {\sigma^2} {\sigma^2_{\theta}}$

于是,最大后验估计可以看做是正则化的最小二乘估计。

非线性回归模型

常见的基函数形式:


误差分析

对于文章开篇提到的泛化误差:

我们可以将其展开:

正则项对偏差和方差的影响:

而正则化的最小二乘估计是有偏估计,增加正则项相当于增加白噪声,使得参数估计更加稳定。

参考文献:
[1] 周晓飞,《统计机器学习》,中国科学院大学2017年秋季研究生课程