线性代数学习笔记,主要参考了同济大学的《线性代数》《Deep Learning》 的第二章。

行列式

  • 行列式 (determinant) 与它的转置行列式相等。\(D^T = D\)
  • 余子式 (minor):在 n 阶行列式中,把 \((i, j)\)\(a_{ij}\) 所在的第 \(i\) 行和第 \(j\) 列划去后留下的 \(n - 1\) 阶行列式叫做 \((i, j)\)\(a_{ij}\) 的余子式,记作 \(M_{ij}\)
  • 代数余子式 (cofactor) \(A_{ij} = (-1)^{i+j}M_{ij}\)
  • 行列式按行展开:\(D = a_{i1}A_{i1} + a_{i2}A_{i2} + \cdots + a_{in}A_{in}\)
  • 行列式按列展开:\(D = a_{1j}A_{1j} + a_{2j}A_{2j} + \cdots + a_{nj}A_{nj}\)
  • 克拉默法则 (Cramer’s rule):如果线性方程组的系数行列式不等于零,那么方程组有唯一解 \(x_1 = \frac{D_1}{D}, x_2 = \frac{D_2}{D}, \cdots, x_n = \frac{D_n}{D}\), 其中 \(D_j\) 是把系数行列式 D 中第 j 列的元素用方程组右端的常数项代替后得到的 n 阶行列式。

矩阵及其运算

  • 伴随矩阵 (adjugate matrix) \[ adj(A) = \begin{bmatrix} A_{11} & A_{21} & \cdots & A_{n1} \\ A_{12} & A_{22} & \cdots & A_{n2} \\ \vdots & \vdots & \ddots & \vdots \\ A_{1n} & A_{2n} & \cdots & A_{nn} \\ \end{bmatrix} \]

其中 \(A_{ij}\) 为代数余子式

  • \(A \text{adj}(A) = \text{adj}(A) A = |A|I\)
  • 奇异矩阵 (singular matrix):\(|A| = 0\)
  • 非奇异矩阵 (non-singular matrix):\(|A| \neq 0\)

线性相关和生成子空间

  • 线性组合 (linear combination):对于一个向量集 \({v^{(1)}, v^{(2)}, \cdots, v^{(n)}}\)\(\sum_i{c_iv^{(i)}}\) 为它的一个线性组合。一组向量的生成子空间 (span) 是指原是向量线性组合后所能抵达的点的集合。
  • 判断 \(Ax=b\) 是否有解相当于确定向量 b 是否在 A 列向量的生成子空间中。这个特殊的生成子空间被称为 A 的列空间 (column space) 或者 A 的值域 (range)。
  • 线性无关 (linear independene):如果一组向量中的任意一个向量都不能表示称其他向量的线性组合,那么这组向量被称为线性无关。
  • 奇异矩阵 (singular matrix):列向量线性相关的方阵。

范数

  • 范数 (norm) 用来衡量向量大小,\(L^p\) 范数定义为 \(\Vert{x}\Vert_p=(\sum_{i}^{} {\vert{x_i}\vert^p})^{\frac{1}{p}}\)
  • 欧几里得范数 (Euclidean norm):\(L^2\) 范数
  • 最大范数 (max norm):\(L^{\infty}\) 范数
  • Frobenius 范数可以用来衡量矩阵大小:\(\Vert{A}\Vert_F = \sqrt{\sum_{i,j} A_{i,j}^2}\)
  • 向量点积也可以用范数表示,即 \(x^Ty = \Vert{X}\Vert_2 \Vert{Y}\Vert_2 \cos{\theta}\),其中 \(\theta\) 为 x 和 y 的夹角。

特殊矩阵和向量

  • 对焦矩阵 (diagonal matrix):\(\forall {i \neq j}, D_{i,j}=0\),可以用 diag(v) 表示。
  • 对称矩阵 (symmetric matrix):\(A=A^T\)
  • 单位向量 (unit vector):\(\Vert{x}\Vert_2=1\)
  • 正交 (orthogonal):如果 \(x^Ty = 0\),那么向量 x 和向量 y 互相正交。
  • 标准正交 (orthonormal):在 \(ℝ^n\) 中,至多有 n 个范数非零向量互相正交。如果他们互相正交且范数都为 1,则称它们为标准正交。
  • 正交矩阵 (orthogonal matrix):行向量和列向量分别标准正交,即 \(A^TA = AA^T = I\)

特征分解

  • 推荐阅读 Eigenvectors and Eigenvalues
  • 特征向量 \(v\) (eigenvector) 满足 \(Av = \lambda{}v\)。其中 标量 \(\lambda\) 为这个特征向量对应的特征值 (eigenvalue)。
  • 如果矩阵 A 有 n 个线性无关的特征向量 \(\{v^{(1)}, \cdots, v^{(n)}\}\),对应特征值 \(\{\lambda_1, \cdots, \lambda_n\}\)。A 的特征分解为 \(A = V\text{diag}{(\mathbf{\lambda})}V^{-1}\)
  • 每个实对称矩阵可以分解成实特征向量和实特征值:\(A=Q\Lambda{}Q^T\)。其中 Q 是 A 的特征向量组成的正交矩阵。
  • 正定矩阵 (positive definite):所有特征值都是正数的矩阵。
  • 半正定矩阵 (positive semidefinite):所有特征值都是非负数。半正定矩阵 A 满足 \(\forall x, x^TAx \geq 0\)
  • 类似的还有负定 (negative definite) 和半负定 (negative semidefinite)。
  • 奇异值分解 (singular value decomposition) 把矩阵 A 分解成三个矩阵的乘积 \(A=UDV^T\)。推荐阅读 Andrew Gibiansky 的博客
  • Moore-Penrose 逆伪 (psedoinverse):\(A^{+}=VD^{+}U^T\)。其中 U, D, V 是矩阵 A 在 SVD 后的结果。\(x=A^{+}y\) 是所有可行解中 \(\Vert{x}\Vert_2\) 最小的一个。当没有解存在时,伪逆可以使 \(\Vert Ax-y \Vert_2\) 最小。

  • 迹 (trace) 定义为矩阵对焦元素之和:\(\text{Tr}(A) = \sum_i A_{i,i}\)
  • 迹的一些特性:
    • \(\text{Tr}(A) = \text{Tr}(A^T)\)
    • \(\text{Tr}(ABC) = \text{Tr}(CAB) = \text{Tr}(BCA)\)
    • \(\text{Tr}(AB) = \text{Tr}(BA)\) (如果乘法可行)