线性代数笔记
最近抽空把线性代数重新过了一遍,整理了一份概念笔记,希望对别人也有用。主要参考了同济大学的《线性代数》和 《Deep Learning》 的第二章。
行列式
- 行列式 (determinant) 与它的转置行列式相等。\(D^T = D\)
- 余子式 (minor):在 n 阶行列式中,把 \((i, j)\) 元 \(a_{ij}\) 所在的第 \(i\) 行和第 \(j\) 列划去后留下的 \(n - 1\) 阶行列式叫做 \((i, j)\) 元 \(a_{ij}\) 的余子式,记作 \(M_{ij}\)
- 代数余子式 (cofactor) \(A_{ij} = (-1)^{i+j}M_{ij}\)
- 行列式按行展开:\(D = a_{i1}A_{i1} + a_{i2}A_{i2} + \cdots + a_{in}A_{in}\)
- 行列式按列展开:\(D = a_{1j}A_{1j} + a_{2j}A_{2j} + \cdots + a_{nj}A_{nj}\)
- 克拉默法则 (Cramer’s rule):如果线性方程组的系数行列式不等于零,那么方程组有唯一解 \(x_1 = \frac{D_1}{D}, x_2 = \frac{D_2}{D}, \cdots, x_n = \frac{D_n}{D}\), 其中 \(D_j\) 是把系数行列式 D 中第 j 列的元素用方程组右端的常数项代替后得到的 n 阶行列式。
矩阵及其运算
- 伴随矩阵 (adjugate matrix) \[ adj(A) = \begin{bmatrix} A_{11} & A_{21} & \cdots & A_{n1} \\ A_{12} & A_{22} & \cdots & A_{n2} \\ \vdots & \vdots & \ddots & \vdots \\ A_{1n} & A_{2n} & \cdots & A_{nn} \\ \end{bmatrix} \]
其中 \(A_{ij}\) 为代数余子式
- \(A \text{adj}(A) = \text{adj}(A) A = |A|I\)
- 奇异矩阵 (singular matrix):\(|A| = 0\)
- 非奇异矩阵 (non-singular matrix):\(|A| \neq 0\)
线性相关和生成子空间
- 线性组合 (linear combination):对于一个向量集 \({v^{(1)}, v^{(2)}, \cdots, v^{(n)}}\),\(\sum_i{c_iv^{(i)}}\) 为它的一个线性组合。一组向量的生成子空间 (span) 是指原是向量线性组合后所能抵达的点的集合。
- 判断 \(Ax=b\) 是否有解相当于确定向量 b 是否在 A 列向量的生成子空间中。这个特殊的生成子空间被称为 A 的列空间 (column space) 或者 A 的值域 (range)。
- 线性无关 (linear independene):如果一组向量中的任意一个向量都不能表示称其他向量的线性组合,那么这组向量被称为线性无关。
- 奇异矩阵 (singular matrix):列向量线性相关的方阵。
范数
- 范数 (norm) 用来衡量向量大小,\(L^p\) 范数定义为 \(\Vert{x}\Vert_p=(\sum_{i}^{} {\vert{x_i}\vert^p})^{\frac{1}{p}}\)
- 欧几里得范数 (Euclidean norm):\(L^2\) 范数
- 最大范数 (max norm):\(L^{\infty}\) 范数
- Frobenius 范数可以用来衡量矩阵大小:\(\Vert{A}\Vert_F = \sqrt{\sum_{i,j} A_{i,j}^2}\)
- 向量点积也可以用范数表示,即 \(x^Ty = \Vert{X}\Vert_2 \Vert{Y}\Vert_2 \cos{\theta}\),其中 \(\theta\) 为 x 和 y 的夹角。
特殊矩阵和向量
- 对焦矩阵 (diagonal matrix):\(\forall {i \neq j}, D_{i,j}=0\),可以用 diag(v) 表示。
- 对称矩阵 (symmetric matrix):\(A=A^T\)
- 单位向量 (unit vector):\(\Vert{x}\Vert_2=1\)
- 正交 (orthogonal):如果 \(x^Ty = 0\),那么向量 x 和向量 y 互相正交。
- 标准正交 (orthonormal):在 \(ℝ^n\) 中,至多有 n 个范数非零向量互相正交。如果他们互相正交且范数都为 1,则称它们为标准正交。
- 正交矩阵 (orthogonal matrix):行向量和列向量分别标准正交,即 \(A^TA = AA^T = I\)。
特征分解
- 推荐阅读 Eigenvectors and Eigenvalues
- 特征向量 \(v\) (eigenvector) 满足 \(Av = \lambda{}v\)。其中 标量 \(\lambda\) 为这个特征向量对应的特征值 (eigenvalue)。
- 如果矩阵 A 有 n 个线性无关的特征向量 \(\{v^{(1)}, \cdots, v^{(n)}\}\),对应特征值 \(\{\lambda_1, \cdots, \lambda_n\}\)。A 的特征分解为 \(A = V\text{diag}{(\mathbf{\lambda})}V^{-1}\)
- 每个实对称矩阵可以分解成实特征向量和实特征值:\(A=Q\Lambda{}Q^T\)。其中 Q 是 A 的特征向量组成的正交矩阵。
- 正定矩阵 (positive definite):所有特征值都是正数的矩阵。
- 半正定矩阵 (positive semidefinite):所有特征值都是非负数。半正定矩阵 A 满足 \(\forall x, x^TAx \geq 0\)
- 类似的还有负定 (negative definite) 和半负定 (negative semidefinite)。
- 奇异值分解 (singular value decomposition) 把矩阵 A 分解成三个矩阵的乘积 \(A=UDV^T\)。推荐阅读 Andrew Gibiansky 的博客。
- Moore-Penrose 逆伪 (psedoinverse):\(A^{+}=VD^{+}U^T\)。其中 U, D, V 是矩阵 A 在 SVD 后的结果。\(x=A^{+}y\) 是所有可行解中 \(\Vert{x}\Vert_2\) 最小的一个。当没有解存在时,伪逆可以使 \(\Vert Ax-y \Vert_2\) 最小。
迹
- 迹 (trace) 定义为矩阵对焦元素之和:\(\text{Tr}(A) = \sum_i A_{i,i}\)
- 迹的一些特性:
- \(\text{Tr}(A) = \text{Tr}(A^T)\)
- \(\text{Tr}(ABC) = \text{Tr}(CAB) = \text{Tr}(BCA)\)
- \(\text{Tr}(AB) = \text{Tr}(BA)\) (如果乘法可行)
本作品采用知识共享署名-非商业性使用 3.0 版本许可协议进行许可,欢迎转载,演绎,但是必须保留本文的署名 zellux(包含链接),且不得用于商业目的。