最近抽空把线性代数重新过了一遍,整理了一份概念笔记,希望对别人也有用。主要参考了同济大学的《线性代数》《Deep Learning》 的第二章。

行列式

  • 行列式 (determinant) 与它的转置行列式相等。DT=D
  • 余子式 (minor):在 n 阶行列式中,把 (i,j)aij 所在的第 i 行和第 j 列划去后留下的 n1 阶行列式叫做 (i,j)aij 的余子式,记作 Mij
  • 代数余子式 (cofactor) Aij=(1)i+jMij
  • 行列式按行展开:D=ai1Ai1+ai2Ai2++ainAin
  • 行列式按列展开:D=a1jA1j+a2jA2j++anjAnj
  • 克拉默法则 (Cramer’s rule):如果线性方程组的系数行列式不等于零,那么方程组有唯一解 x1=D1D,x2=D2D,,xn=DnD, 其中 Dj 是把系数行列式 D 中第 j 列的元素用方程组右端的常数项代替后得到的 n 阶行列式。

矩阵及其运算

  • 伴随矩阵 (adjugate matrix) adj(A)=[A11A21An1A12A22An2A1nA2nAnn]

其中 Aij 为代数余子式

  • Aadj(A)=adj(A)A=|A|I
  • 奇异矩阵 (singular matrix):|A|=0
  • 非奇异矩阵 (non-singular matrix):|A|0

线性相关和生成子空间

  • 线性组合 (linear combination):对于一个向量集 v(1),v(2),,v(n)iciv(i) 为它的一个线性组合。一组向量的生成子空间 (span) 是指原是向量线性组合后所能抵达的点的集合。
  • 判断 Ax=b 是否有解相当于确定向量 b 是否在 A 列向量的生成子空间中。这个特殊的生成子空间被称为 A 的列空间 (column space) 或者 A 的值域 (range)。
  • 线性无关 (linear independene):如果一组向量中的任意一个向量都不能表示称其他向量的线性组合,那么这组向量被称为线性无关。
  • 奇异矩阵 (singular matrix):列向量线性相关的方阵。

范数

  • 范数 (norm) 用来衡量向量大小,Lp 范数定义为 xp=(i|xi|p)1p
  • 欧几里得范数 (Euclidean norm):L2 范数
  • 最大范数 (max norm):L 范数
  • Frobenius 范数可以用来衡量矩阵大小:AF=i,jA2i,j
  • 向量点积也可以用范数表示,即 xTy=X2Y2cosθ,其中 θ 为 x 和 y 的夹角。

特殊矩阵和向量

  • 对焦矩阵 (diagonal matrix):ij,Di,j=0,可以用 diag(v) 表示。
  • 对称矩阵 (symmetric matrix):A=AT
  • 单位向量 (unit vector):x2=1
  • 正交 (orthogonal):如果 xTy=0,那么向量 x 和向量 y 互相正交。
  • 标准正交 (orthonormal):在 n 中,至多有 n 个范数非零向量互相正交。如果他们互相正交且范数都为 1,则称它们为标准正交。
  • 正交矩阵 (orthogonal matrix):行向量和列向量分别标准正交,即 ATA=AAT=I

特征分解

  • 推荐阅读 Eigenvectors and Eigenvalues
  • 特征向量 v (eigenvector) 满足 Av=λv。其中 标量 λ 为这个特征向量对应的特征值 (eigenvalue)。
  • 如果矩阵 A 有 n 个线性无关的特征向量 {v(1),,v(n)},对应特征值 {λ1,,λn}。A 的特征分解为 A=Vdiag(λ)V1
  • 每个实对称矩阵可以分解成实特征向量和实特征值:A=QΛQT。其中 Q 是 A 的特征向量组成的正交矩阵。
  • 正定矩阵 (positive definite):所有特征值都是正数的矩阵。
  • 半正定矩阵 (positive semidefinite):所有特征值都是非负数。半正定矩阵 A 满足 x,xTAx0
  • 类似的还有负定 (negative definite) 和半负定 (negative semidefinite)。
  • 奇异值分解 (singular value decomposition) 把矩阵 A 分解成三个矩阵的乘积 A=UDVT。推荐阅读 Andrew Gibiansky 的博客
  • Moore-Penrose 逆伪 (psedoinverse):A+=VD+UT。其中 U, D, V 是矩阵 A 在 SVD 后的结果。x=A+y 是所有可行解中 x2 最小的一个。当没有解存在时,伪逆可以使 Axy2 最小。

  • 迹 (trace) 定义为矩阵对焦元素之和:Tr(A)=iAi,i
  • 迹的一些特性:
    • Tr(A)=Tr(AT)
    • Tr(ABC)=Tr(CAB)=Tr(BCA)
    • Tr(AB)=Tr(BA) (如果乘法可行)