线性回归 | 早起星人

本章内容：

1、最小二乘法（矩阵表达与几何意义）

2、概率角度：最小二乘法 noise为Gaussian 的 MLE（最大似然估计）

3、正则化

4、线性回归4（正则化-岭回归-贝叶斯角度-高斯噪声高斯先验-MAP）

5、小结

符号说明：

$D={ (x_1,y_1),(x_2,y_2),,(x_N,y_N)} $(数据集)

$x_i\in \mathbb R^p y_i \in \mathbb R i=1,2,\cdots ,N$

$X=\begin{pmatrix} x_1&x_2& \cdots& x_N \end{pmatrix}^T= \begin{pmatrix} x_1^T\\x_2^T\\\vdots\\x_N^T \end{pmatrix}= \begin{pmatrix} x_{11}&x_{12} & \cdots& x_{1p}\\ x_{21}&x_{22}&\cdots&x_{2p}\\ \vdots&\vdots&\ddots&\vdots\\ x_{N1}&x_{N2}&\cdots &x_{NP} \end{pmatrix}_{N\times P}$

$Y=\begin{pmatrix} y_1\\y_2\\\vdots\\y_N \end{pmatrix}_{N\times 1}$

一、线性回归（最小二乘法及其几何意义）

1、矩阵表达下的最小二乘法

Loss Function:

$L(W)=\displaystyle\sum^{N}_{i=1}{\Vert W^Tx_i-y_i\Vert}^2$

此式为均方差，若 $L$ 越小，则回归结果与真实结果越接近此处 $W$ 是一个 $p\times 1$ 的向量，表示 $x_i$ 的系数一般情况应该是 $W^Tx_i+b$ 此处在 $x_i$ 中增加一个 $x_{i0}=1$ ，在 $W$ 中增加一个 $w_0=b$ ，即可用 $W^Tx_i$ 表示

$ \[\begin{equation}\begin{split} L(W)&=\displaystyle\sum^{N}_{i=1}(W^Tx_i-y_i)^2\\ &= \begin{pmatrix} W^Tx_1-y_1 & W^Tx_2-y_2&\cdots&W^Tx_N-y_N \end{pmatrix} \begin{pmatrix} (W^Tx_1-y_1)^T\\(W^Tx_2-y_2)^T\\\vdots\\(W^Tx_N-y_N)^T \end{pmatrix}\\ &=[W^T\begin{pmatrix} x_1&x_2&\cdots&x_N \end{pmatrix} -\begin{pmatrix} y_1&y_2&\cdots&y_N \end{pmatrix}] \begin{pmatrix} x_1^TW-y_1^T\\x_2^TW-y_2^T\\\vdots\\x_N^TW-y_N^T \end{pmatrix}\\ &=(W^TX^T - Y^T)(XW-Y)\\ &=W^TX^TXW-W^TX^TY-Y^TXW+Y^TY\\ &=W^TX^TXW-2W^TX^TY+Y^TY \end{split}\end{equation}\] $

$W^TX^TY=(Y^TXW)^T$ 因为 $W^TX^TY$ 是一个数，因此$ W^TXTY=Y^TXW$ 接下来求最优 $W 使得 L$ 最小

$\hat W=\underset {W}{argmin}L(W)$

令 ${\partial L(W)\over\partial W}=2X^TXW-2X^TY=0$

此处为矩阵求导，使用了基本的矩阵求导公式，其中： ${\partial (W^TX^TXW)\over\partial W}=X^TXW+(X^TX)^TW=2X^TXW ( X^TX 为常数)$

则$ W=(X^TX){-1}X^TY$

视频作者说 $(X^TX){-1}X^T $为伪逆，记为$ A^+$ 根据线性代数来看，此处$ (X^TX){-1}X^T 为 X 的左逆 X_{left}^{-1}$ 因为$ X_{left}^{-1}X=(XTX)^{-1}(XTX)=I$

2、最小二乘法的几何意义

①从每一个数据点的误差来看：

每一个点对应的 $y_i$ 与其在 $f(W)$ 上所对应的点 $W^Tx_i$ 之间的差值便是误差

因此将所有点的误差求和 $\displaystyle\sum^{N}_{i=1}{\Vert W^Tx_i-y_i\Vert}^2$ ，使得其最小，便可求得最优的回归函数

②从投影角度来看：

$\begin{equation}\begin{split} X_{N\times p}W_{p \times 1}&= \begin{pmatrix} x_{11}&x_{12} & \cdots& x_{1p}\\ x_{21}&x_{22}&\cdots&x_{2p}\\ \vdots&\vdots&\ddots&\vdots\\ x_{N1}&x_{N2}&\cdots &x_{NP} \end{pmatrix} \begin{pmatrix} w_1\\w_2\\\vdots\\w_p \end{pmatrix}\\ &=\begin{pmatrix} x_{11}w_1+x_{12}w_2+\cdots+x_{1p}w_p\\ x_{21}w_1+x_{22}w_2+\cdots+x_{2p}w_p\\ \vdots\\ x_{N1}w_1+x_{N2}w_2+\cdots+x_{Np}w_p \end{pmatrix}\\ &=\begin{pmatrix} w_1\begin{pmatrix}x_{11}\\x_{21}\\\vdots\\x_{N1}\end{pmatrix} +w_2\begin{pmatrix}x_{12}\\x_{22}\\\vdots\\x_{N2}\end{pmatrix} +\cdots+ w_p\begin{pmatrix}x_{1p}\\x_{2p}\\\vdots\\x_{Np}\end{pmatrix} \end{pmatrix} \end{split}\end{equation}$

因此可以将 $X$ 中每一列看作一个向量， $XW$ 便是 $W$ 对 $X$ 列向量的线性组合

其实这里就是 $X$ 的列空间，关于向量空间推荐观看MIT 18.06 的线性代数课程，老爷子讲的非常形象！这里其实可以看作 $X$ 的所有列向量组成了一个 $p$ 维空间

从二维角度来看，每一个数据点并不都在同一条直线上

引入到高维空间中，便是 $Y$ 无法由 $X$ 的列向量线性表示，即 $Y$ 不属于 $X$ 的列空间，因此需要找到 $Y$ 在 $X$ 列空间上的投影（即 $X$ 列向量的一个线性组合）

将 $Y$投影在空间 $F$中，便可保留 $Y$在这一空间上的所有信息

因此假设$XW是Y在 X$列空间上的投影

如上图所示，虚线部分为$Y-XW$,其垂直于$X$列空间（即与$X$的每一个列向量都垂直）

$因此 X^T(Y-XW)=0$

所以可求得 $W=(X^TX)^{-1}X^TY$

从投影角度来看最小二乘法推荐去看MIT 18.06的课程，其中专门有一节讲最小二乘法，附上视频链接如下：

总结：

第一种角度是把误差分散在了每一个数据点上

第二种角度是把误差分散在了 $X$的每一个列向量上， $p$个维度上面

不同的角度得到了同样的结果横看成岭侧成峰，体现了数学的美！

二、线性回归2（最小二乘法-概率视角-高斯噪声-MLE）

最小二乘估计：

$L(W)=\displaystyle\sum^{N}_{i=1}{\Vert W^Tx_i-y_i\Vert}^2$

$\hat W=arg\underset {W}{min}L(W)$

$\hat W=(X^TX)^{-1}X^TY$

当数据都在一条直线上时是最完美的情况，误差为0 但现实中不可能出现这种情况，因为数据都带有一定的噪声

假设噪声 $\epsilon\sim N(0,\sigma^2)$

$y = f(W)+\epsilon$

因为 $f(W)=W^TX$

所以 $y=W^TX+\epsilon$

此处把 $W^TX$ 看成常数，因为当 $W$ 固定后， $W^TX$ 是固定值

因此 $y|X,W\sim N(W^TX,\sigma^2)$

$p(y|X,W)={1\over\sqrt{2\pi}\sigma}\exp(-{(y-W^TX)^2\over2\sigma^2})$

接下来使用$MLE$（最大似然估计）求解最优 $W$

此结果与上节用$loss function求解 W$ 的结果一模一样因此从概率角度用MLE求解与用最小二乘法$LSE$的本质一样也因此可以得出，最小二乘估计隐含了一个噪声服从正态分布的假设

因此 $LSE \Leftrightarrow MLE (noise is Gaussian Distribution)$

三、线性回归3（正则化-岭回归）

$Loss Function: L(W)=\displaystyle\sum^{N}_{i=1}{\Vert W^Tx_i-y_i\Vert}^2$

$\hat W = (X^TX)^{-1}X^TY$

$其中 X_{N\times p} 为 N 个样本， p 个特征， x_i \in \mathbb R^p$ $通常 N \gg p 才好$ $但实际问题中可能出现数据样本少，或数据的特征过多，使得 N \gg p 不满足$ $此时 X^TX 将不可逆，导致不能求出 \hat W 的解析解$ $实际上这种情况也很容易导致过拟合，因为少量样本去学习多个特征（假设1个数据点去做回归，有无数种回归方式，无论哪一种都会拟合）$

$过拟合\rightarrow \begin{cases} 1. 加数据\\ 2. 降维/特征选择/特征提取(PCA)\\ 3. 正则化 \end{cases}$

正则化框架： $L(W)+\lambda P(W)$

其中L L 为Loss Function， P 为penalty（惩罚函数）

目标： $arg \underset{W}{min}[L(W)+\lambda P(W)]$

正则化方式：

$L1：Lasso: \ \ P(W)=\Vert W\Vert$

$L2：Ridge: \ \ P(W)=\Vert W\Vert ^2=W^TW$

本节主要介绍L2 岭回归，也称权值衰减下面计算添加了岭回归的Loss Function的最优 W

$\begin{equation} \begin{split} J(W)&=\displaystyle\sum^{N}_{i=1} {\Vert W^Tx_i-y_i\Vert}^2+\lambda W^TW\\ &=(W^TX^T-Y^T)(XW-Y)+\lambda W^TW\\ &=W^TX^TXW-Y^TXW-W^TX^TY+\lambda W^TW\\ &=W^TX^TXW-2W^TX^TY+\lambda W^TW\\ &=W^T(X^TX+\lambda I)W-2W^TX^TY \end{split} \end{equation}$

此推导步骤类似于第一节

令${\partial J(W)\over\partial W}=2(X^TX+\lambda I)W-2X^TY=0$

$\hat W = (X^TX+\lambda I)^{-1}X^TY$

其中 $X^TX$ 为半正定，当加上 $\lambda I$ 后必然正定，即可逆从数学角度上看，使得其可逆；从直观角度来看，抑制了过拟合的可能性

四、线性回归4（正则化-岭回归-贝叶斯角度-高斯噪声高斯先验-MAP）

本节从贝叶斯的角度来看岭回归

使用MAP（最大后验估计）计算最优参数

此处简单介绍一下MAP是什么： MAP为贝叶斯学派常用的参数估计方法，他们认为模型参数服从某种潜在分布。其首先对参数有一个预先估计，然后根据所给数据对预估计进行不断调整，因此同一事件，先验不同则事件状态不同先验假设较为靠谱时有显著的效果，当数据较少时，先验对模型的参数有主导作用，随着数据的增加，真实数据样例将占据主导地位

回归结果： $f(W)=W^TX$

预先所给数据： $y=f(W)+\epsilon=W^TX+\epsilon$

$与第二节一样， \epsilon 为噪声 (\epsilon\sim N(0,\sigma^2))$ $并且 y|X;W \sim N(W^TX,\sigma^2)$

接下来使用MAP进行计算：

从MAP的角度来看，参数必然服从某个分布，故假设 $W\sim N(0, \sigma^2_0)$

因此： $\hat W = arg\underset{W}{max}\ \ p(W|y)$

首先根据条件概率可得 $p(W|y)= {p(y|W)\cdot p(W)\over p(y)}$ 由于已知 $y|X;W$ 和 $W$ 的分布，因此可得：

观察上式结果，其与加了Ridge正则化的Loss Function一致： $J(W)=\displaystyle\sum^{N}_{i=1}{\Vert W^Tx_i-y_i\Vert}^2+\lambda W^TW$ $其中 \lambda = {\sigma^2\over\sigma^2_0}$

根据第三节和本节内容，可以发现加入了正则项的最小二乘估计与包含服从高斯分布的噪声和先验的MAP是等价的

$regularized\ \ LSE \Leftrightarrow MAP(noise为Guassian \ Distribution;Prior为Guassian \ Distribution)$

小结

线性回归虽然是最简单的模型，但我们通过四种不同的方法和角度得到的结果有着千丝万缕的联系。

第一节与第二节使用最小二乘法的求解结果与包含高斯噪声的MLE求解结果等价

第三节和第四节使用加了$Ridge$正则项的最小二乘法求解结果与高斯先验下的MAP结果等价

因此可以大致给出他们的联系 $MAP(\theta)\approx MLE(\theta)+P(\theta)$

其中MLE为概率学派常用的参数估计方法，MAP为贝叶斯学派常用的参数估计方法 MLE的思想是通过数据得到参数，其完全依赖于数据，若数据过少，则很容易出现管中窥豹的情况（过拟合） MAP的思想是先给出一个预先估计（即先验证），然后根据数据进行优化，这种情况下若先验较为靠谱则效果显著若数据量大的情况下，MAP与MLE将如出一辙