multivariate normal distribution

多元正态分布(Multivariate normal distribution)

前言

我们通常讨论正态分布都是在一元(univariate)的情况下,相信下面的定义大家都很熟悉了:假设随机变量\(X\)服从正态分布,则\(X\)具有概率密度函数: \[ f(x)=(\sqrt{2\pi}\sigma)^{-1}\text{exp}(-\frac{(x-\mu)^2}{2\sigma^2}) \] 其中\(\mu\)表示\(X\)的均值,\(\sigma^2\)表示其方差。

有不少读者应该也看到过下面这个公式: \[ \begin{aligned} f(x_1,x_2)=&(2\pi\sigma_1\sigma_2\sqrt{1-\rho^2} )^{-1}\text{exp}[-\frac{1}{2(1-\rho^2)}(\frac{(x_1-\mu_1)^2}{\sigma_1^2}\\ &-\frac{2\rho(x_1-\mu_1)(x_2-\mu_2)}{\sigma_1\sigma_2}+\frac{(x_2-\mu_2)^2}{\sigma_2^2})] \end{aligned} \] 没错,这正是将正态分布拓展到二维的情况,即: \[ X=[X_1,X_2]^T \] 其中\(X_1\),\(X_2\)分别服从正态分布。

有不少读者应该和我一样,看到这个二维的公式就头痛了,这他娘的一堆是啥玩意儿啊?老实说把上面的公式准确的打出来还花费了我不少功夫,可见公式之复杂,如果再往三元以上,简直不敢想象了。

由于许多本文许多内容我是从wikipedia看的,现学现卖,自己也是似懂非懂,不敢误人子弟,只能把自己确定的一些心得写一写,以作备忘,如果可以,也能给一些同有此问的后来者一些帮助。

多元正态分布

假设\(X=(X_1,X_2,\cdots,X_k)^T\)是一个\(k\)维的列向量,服从多元正态分布,我们可以把它记做: \[ X\sim N(\mu,\Sigma) \] 其中, \[ \begin{aligned} &\mu=E(X)=(\mu_1,\mu_2,\cdots,\mu_k)\\ &\Sigma_{i,j}=Cov(X_i,X_j) \end{aligned} \] 对于多元随机变量,我们最关心的是它的概率函数,当上述协方差矩阵是正定的(positive definite),分布才有概率密度函数,这种情况被称为“非退化的”(non-degenerate)。这里笔者亦不甚解,猜测大概和协方差矩阵\(\Sigma\)是否可逆有关。

如果多元正态分布的概率密度函数存在,它被定义如下: \[ f(x_1,x_2,\cdots,x_k)=\frac{\text{exp}(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))}{\sqrt{(2\pi)^k|\Sigma|}} \] 其中\(|\Sigma|\)表示协方差矩阵的行列式(determinant)。

二元情况的推导

我们根据上面多元正态分布概率密度函数的定义,来求一求二元(bivariate)的情况,即令\(k\)=2。

此时\(x=(x_1,x_2)^T,\mu=(\mu_1,\mu_2)^T\)\[ \Sigma= \begin{pmatrix} \sigma_1^2&\rho\sigma_1\sigma_2\\ \rho\sigma_1\sigma_2&\sigma_2^2 \end{pmatrix} \] 其中\(\rho\)为相关系数,定义为: \[ \rho=\frac{Cov(X_1,X_2)}{\sigma_2\sigma_2} \] 对于\(2\times2\)的矩阵A,如果: \[ A= \begin{pmatrix} a&b\\ c&d \end{pmatrix} \] 通常有: \[ A^{-1}=\frac{1}{ad-bc} \begin{pmatrix} d&-b\\ -c&a \end{pmatrix} \] 根据上公式求得; \[ \Sigma^{-1} =\frac{1}{(1-\rho^2)\sigma_1^2\sigma_2^2} \begin{pmatrix} \sigma_2^2&-\rho\sigma_1\sigma_2\\ -\rho\sigma_1\sigma_2&\sigma_1^2 \end{pmatrix} \] 又: \[ |\Sigma|=(1-\rho^2)\sigma_1^2\sigma_2^2 \] 代入上式得: \[ \begin{aligned} f(x_1,x_2)&=\frac{\text{exp}(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))}{\sqrt{(2\pi)^2|\Sigma|}}\\ &=\frac{1}{\sqrt{(2\pi^2)(1-\rho^2)\sigma_1^2\sigma_2^2}}\text{exp}(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))\\ &=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}\text{exp}(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))\\ \end{aligned} \] 其中: \[ \begin{aligned} &(x-\mu)^T\Sigma^{-1}(x-\mu)\\ &=(x_1-\mu_1,x_2-\mu_2) \frac{1}{(1-\rho^2)\sigma_1^2\sigma_2^2} \begin{pmatrix} \sigma_2^2&-\rho\sigma_1\sigma_2\\ -\rho\sigma_1\sigma_2&\sigma_1^2 \end{pmatrix} (x_1-\mu_1,x_2-\mu_2)^T\\ &=\frac{1}{(1-\rho^2)\sigma_1^2\sigma_2^2}(\sigma_2^2(x_1-\mu_1)-\rho\sigma_1\sigma_2(x_2-\mu_2),\sigma_1^2(x_2-\mu_2)-\rho\sigma_1\sigma_2(x_2-\mu_2))(x_1-\mu_1,x_2-\mu_2)^T\\ &=\frac{1}{(1-\rho^2)\sigma_1^2\sigma_2^2}[\sigma_2^2(x_1-\mu_1)^2-2\rho\sigma_1\sigma_2(x_1-\mu_1)(x_2-\mu_2)+\sigma_1^2(x_2-\mu_2)^2]\\ &=\frac{1}{(1-\rho^2)}[\frac{(x_1-\mu_1^2)}{\sigma_1^2}-2\rho\frac{(x_1-\mu_1)(x_2-\mu_2)}{\sigma_1\sigma_2}+\frac{(x_2-\mu_2^2)}{\sigma_2^2}] \end{aligned} \] 和上面的式子整合一下即可的到二元变量的概率密度。

参考资料

[1] Multivariate normal distribution

[2] 概率论与数理统计,陈希孺,中国科学技术大学出版社