线性代数笔记 · Aiur · Zellux 的博客

最近抽空把线性代数重新过了一遍，整理了一份概念笔记，希望对别人也有用。主要参考了同济大学的《线性代数》和《Deep Learning》的第二章。

行列式

行列式 (determinant) 与它的转置行列式相等。\(D^T = D\)
余子式 (minor)：在 n 阶行列式中，把 \((i, j)\) 元 \(a_{ij}\) 所在的第 \(i\) 行和第 \(j\) 列划去后留下的 \(n - 1\) 阶行列式叫做 \((i, j)\) 元 \(a_{ij}\) 的余子式，记作 \(M_{ij}\)
代数余子式 (cofactor) \(A_{ij} = (-1)^{i+j}M_{ij}\)
行列式按行展开：\(D = a_{i1}A_{i1} + a_{i2}A_{i2} + \cdots + a_{in}A_{in}\)
行列式按列展开：\(D = a_{1j}A_{1j} + a_{2j}A_{2j} + \cdots + a_{nj}A_{nj}\)
克拉默法则 (Cramer’s rule)：如果线性方程组的系数行列式不等于零，那么方程组有唯一解 \(x_1 = \frac{D_1}{D}, x_2 = \frac{D_2}{D}, \cdots, x_n = \frac{D_n}{D}\)，其中 \(D_j\) 是把系数行列式 D 中第 j 列的元素用方程组右端的常数项代替后得到的 n 阶行列式。

伴随矩阵 (adjugate matrix) \[ adj(A) = \begin{bmatrix} A_{11} & A_{21} & \cdots & A_{n1} \\ A_{12} & A_{22} & \cdots & A_{n2} \\ \vdots & \vdots & \ddots & \vdots \\ A_{1n} & A_{2n} & \cdots & A_{nn} \\ \end{bmatrix} \]

其中 \(A_{ij}\) 为代数余子式

线性组合 (linear combination)：对于一个向量集 \({v^{(1)}, v^{(2)}, \cdots, v^{(n)}}\)，\(\sum_i{c_iv^{(i)}}\) 为它的一个线性组合。一组向量的生成子空间 (span) 是指原是向量线性组合后所能抵达的点的集合。
判断 \(Ax=b\) 是否有解相当于确定向量 b 是否在 A 列向量的生成子空间中。这个特殊的生成子空间被称为 A 的列空间 (column space) 或者 A 的值域 (range)。
线性无关 (linear independene)：如果一组向量中的任意一个向量都不能表示称其他向量的线性组合，那么这组向量被称为线性无关。
奇异矩阵 (singular matrix)：列向量线性相关的方阵。

范数 (norm) 用来衡量向量大小，\(L^p\) 范数定义为 \(\Vert{x}\Vert_p=(\sum_{i}^{} {\vert{x_i}\vert^p})^{\frac{1}{p}}\)
欧几里得范数 (Euclidean norm)：\(L^2\) 范数
最大范数 (max norm)：\(L^{\infty}\) 范数
Frobenius 范数可以用来衡量矩阵大小：\(\Vert{A}\Vert_F = \sqrt{\sum_{i,j} A_{i,j}^2}\)
向量点积也可以用范数表示，即 \(x^Ty = \Vert{X}\Vert_2 \Vert{Y}\Vert_2 \cos{\theta}\)，其中 \(\theta\) 为 x 和 y 的夹角。

推荐阅读 Eigenvectors and Eigenvalues
特征向量 \(v\) (eigenvector) 满足 \(Av = \lambda{}v\)。其中标量 \(\lambda\) 为这个特征向量对应的特征值 (eigenvalue)。
如果矩阵 A 有 n 个线性无关的特征向量 \(\{v^{(1)}, \cdots, v^{(n)}\}\)，对应特征值 \(\{\lambda_1, \cdots, \lambda_n\}\)。A 的特征分解为 \(A = V\text{diag}{(\mathbf{\lambda})}V^{-1}\)
每个实对称矩阵可以分解成实特征向量和实特征值：\(A=Q\Lambda{}Q^T\)。其中 Q 是 A 的特征向量组成的正交矩阵。
正定矩阵 (positive definite)：所有特征值都是正数的矩阵。
半正定矩阵 (positive semidefinite)：所有特征值都是非负数。半正定矩阵 A 满足 \(\forall x, x^TAx \geq 0\)
类似的还有负定 (negative definite) 和半负定 (negative semidefinite)。
奇异值分解 (singular value decomposition) 把矩阵 A 分解成三个矩阵的乘积 \(A=UDV^T\)。推荐阅读 Andrew Gibiansky 的博客。
Moore-Penrose 逆伪 (psedoinverse)：\(A^{+}=VD^{+}U^T\)。其中 U, D, V 是矩阵 A 在 SVD 后的结果。\(x=A^{+}y\) 是所有可行解中 \(\Vert{x}\Vert_2\) 最小的一个。当没有解存在时，伪逆可以使 \(\Vert Ax-y \Vert_2\) 最小。

迹 (trace) 定义为矩阵对焦元素之和：\(\text{Tr}(A) = \sum_i A_{i,i}\)
迹的一些特性：
- \(\text{Tr}(A) = \text{Tr}(A^T)\)
- \(\text{Tr}(ABC) = \text{Tr}(CAB) = \text{Tr}(BCA)\)
- \(\text{Tr}(AB) = \text{Tr}(BA)\) （如果乘法可行）