SLAM 公开课笔记 1：高斯分布 · Aiur

最近宾大在 Coursera 上开了一个机器人系列课程，包含了视觉、运动规划、机械设计等课题。我对 SLAM 很感兴趣，于是就选了 Robotics Estimation and Learning 这门课，课程主页是https://www.coursera.org/learn/robotics-learning/。第一周的内容是高斯分布。

一元高斯分布

给定数据集 ${x_{i}}$ ，可以通过最大似然 (Maximum Likelihood Estimate) 来估计均值 $μ$ 和标准差 $σ$ $\hat{μ}, \hat{σ} = \underset{μ, σ}{argmax} p ({x_{i}} | μ, σ)$

假设所有观测数据独立分布，则有

$p ({x_{i}} | μ, σ) = \prod_{i = 1}^{N} p (x_{i} | μ, σ)$

解这个优化函数：

$\begin{aligned} \hat{μ}, \hat{σ} & = \underset{μ, σ}{argmax} \prod_{i = 1}^{N} p (x_{i} | μ, σ) \\ = \underset{μ, σ}{argmax} \prod_{i = 1}^{N} \ln p (x_{i} | μ, σ) \\ = \underset{μ, σ}{argmax} \prod_{i = 1}^{N} \ln (\frac{1}{\sqrt{2 π} σ} \exp (- \frac{(x_{i} - μ)^{2}}{2 σ^{2}})) \end{aligned}$

设损失函数 $J (μ, σ) = \sum_{i = 1}^{N} (\frac{(x_{i} - μ)^{2}}{2 σ^{2}} + \ln σ)$ ，则有 $\hat{μ}, \hat{σ} = \underset{μ, σ}{argmin} J (μ, σ)$

$\begin{aligned} \frac{\partial J}{\partial μ} & = \frac{\partial}{\partial μ} \sum_{i = 1}^{N} (\frac{(x_{i} - μ)^{2}}{2 σ^{2}} + \ln σ) = \sum_{i = 1}^{N} (\frac{\partial}{\partial μ} \frac{(x_{i} - μ)^{2}}{2 σ^{2}}) \\ \frac{\partial J}{\partial σ} & = \frac{\partial}{\partial σ} \sum_{i = 1}^{N} (\frac{(x_{i} - μ)^{2}}{2 σ^{2}} + \ln σ) = (\frac{\partial}{\partial σ} \frac{1}{2 σ^{2}}) (\sum_{i = 1}^{N} (x_{i} - μ)^{2}) + \frac{N}{σ}) \end{aligned}$

求极值令两式都为 0，可以解得 $\begin{aligned} \hat{μ} & = \frac{1}{N} \sum_{i = 1}^{N} x_{i} \\ {\hat{σ}}^{2} & = \frac{1}{N} \sum_{i = 1}^{N} (x_{i} - \hat{μ})^{2} \end{aligned}$

多元高斯分布

$p (x) = \frac{1}{(2 π)^{\frac{D}{2}} | Σ |^{\frac{1}{2}}} \exp (- \frac{1}{2} (x x - μ μ)^{T} Σ^{- 1} (x x - μ μ))$

$D$ : 维数
$X X$ : 数据集
$μ μ$ : 均值向量
$Σ$ : 协方差矩阵 (covariance matrix)，对角线元素表示方差，非对角线元素表示变量相关性

用最大似然估计多元高斯分布：

$\hat{μ μ}, \hat{Σ} = \underset{μ μ, Σ}{argmax} p ({x x_{i}} | μ μ, Σ)$ 类似于一元高斯分布，假设所有观测独立，则有 $\begin{aligned} \hat{μ μ}, \hat{Σ} & = \underset{μ μ, Σ}{argmax} \prod p (x x_{i} | μ μ, Σ) \\ = \underset{μ μ, σ}{argmax} \prod_{i = 1}^{N} \ln p (x_{i} | μ μ, σ) \\ = \underset{μ μ, σ}{argmax} \sum_{i = 1}^{N} (- \frac{1}{2} (x x_{i} - μ μ)^{T} Σ^{- 1} (x x_{i} - μ μ) - \frac{1}{2} \ln | Σ | + C) \\ = \underset{μ μ, σ}{argmin} \sum_{i = 1}^{N} (\frac{1}{2} (x x_{i} - μ μ)^{T} Σ^{- 1} (x x_{i} + μ μ) + \frac{1}{2} \ln | Σ |) \end{aligned}$

设损失函数 $J (μ, Σ μ, Σ) = \sum_{i = 1}^{N} (\frac{1}{2} (x x_{i} - μ μ)^{T} Σ^{- 1} (x x_{i} + μ μ) + \frac{1}{2} \ln | Σ |))$ ，用类似估计一元高斯分布的方法，令 $\frac{\partial J}{\partial μ μ}$ 和 $\frac{\partial J}{\partial Σ}$ 为 0，可以解得 $\begin{aligned} \hat{μ μ} & = \frac{1}{N} \sum_{i = 1}^{N} x x_{i} \\ \hat{Σ} & = \frac{1}{N} \sum_{i = 1}^{N} (x x_{i} - \hat{μ μ}) (x x_{i} - \hat{μ μ})^{T} \end{aligned}$

高斯混合模型 (Gaussian Mixture Model)

GMM 就是多个高斯模型的加权和：

$p (x) = \sum_{k = 1}^{K} w_{k} g_{k} (x x | u u_{k}, Σ_{k})$

$g_{k}$ : 单个高斯分布函数
$w_{k}$ : 权值函数，总和为 1

解 GMM 的方法之一就是 EM (Expectation-Maximization)。

EM 法解 GMM

引入隐含变量 $z_{k}^{i} = \frac{g_{k} (x x_{i}) | u u_{k}, Σ_{k}}{\sum_{k = 1}^{K} g_{k} (x x_{i}) | u u_{k}, Σ_{k}}$

$z_{k}^{i}$ 的表示第 i 个观测数据中，第 k 个高斯函数占全体的比重，直观表示如下图

均值向量和协方差矩阵可以通过 $z_{k}$ 估计 $\begin{aligned} {\hat{μ μ}}_{k} & = \frac{1}{z_{k}} \sum_{i = 1} N z_{k}^{i} x x_{i} \\ {\hat{Σ}}_{k} & = \frac{1}{z_{k}} \sum_{i = 1} N z_{k}^{i} (x x_{i} - \hat{μ_{k} μ_{k}}) (x x_{i} - \hat{μ_{k} μ_{k}})^{T} \\ z_{k} & = \sum_{i = 1}^{N} z_{k}^{i} \end{aligned}$

EM 法具体过程

初始化 $μ μ$ and $Σ$
固定 $μ μ$ 和 $Σ$ ，并更新 $z_{k}^{i}$ 的值 (E-step)
固定 $z_{k}^{i}$ ，并更新 $μ μ$ 和 $Σ$ 的值 (M-step)
重复第 2、3 步，直到稳定

全课程的笔记链接

Robotics Estimation and Learning 的课程主页
第一周笔记：高斯分布
第二周笔记：卡尔曼滤波
第三周笔记：地图
第四周笔记：定位