Skip to content

附录:数学基础

本附录包含模式识别中常用的数学知识和计算方法,为理解和实现各种算法提供数学基础。

1. 行列式的计算方法

1.1 定义与基本性质

定义 阶方阵 的行列式定义为:

其中 的一个排列, 是排列 的逆序数。

基本性质

  1. 阶矩阵)
  2. 交换两行(列),行列式变号
  3. 一行(列)乘以常数加到另一行(列),行列式不变

1.2 具体计算方法

方法一:代数余子式展开(适用于小矩阵)

对于 阶矩阵,按第 行展开:

其中 是元素 的余子式, 是代数余子式。

示例:计算 矩阵行列式

按第一行展开:

方法二:高斯消元法(适用于大矩阵)

通过初等行变换将矩阵化为上三角矩阵,然后计算对角线元素的乘积。

算法步骤

  1. 对矩阵进行初等行变换,化为上三角矩阵
  2. 记录行交换次数

方法三:LU分解法

将矩阵分解为 ,其中 是下三角矩阵, 是上三角矩阵。

1.3 特殊矩阵的行列式

  • 对角矩阵
  • 三角矩阵:对角线元素的乘积
  • 范德蒙德矩阵

2. 矩阵逆的求法

2.1 逆矩阵的定义与条件

定义:对于 阶方阵 ,如果存在 阶方阵 使得 ,则称 的逆矩阵,记为

存在条件:矩阵 可逆当且仅当

基本性质

2.2 求逆方法

方法一:伴随矩阵法(适用于小矩阵)

其中伴随矩阵 是代数余子式。

示例:求 矩阵的逆

方法二:高斯-约旦消元法(推荐)

算法步骤

  1. 构造增广矩阵
  2. 通过初等行变换将左侧化为单位矩阵
  3. 右侧即为

示例

因此

方法三:LU分解法

如果 ,则求解 相当于求解 个线性方程组:

其中 是第 个标准基向量。

2.3 数值稳定性考虑

对于数值计算,推荐使用:

  1. QR分解,则
  2. SVD分解,则

3. 矩阵广义逆(伪逆)

3.1 定义与背景

当矩阵 不是方阵或不可逆时,需要使用广义逆矩阵。最常用的是Moore-Penrose伪逆

定义:矩阵 的Moore-Penrose伪逆 满足以下四个条件:

3.2 计算方法

方法一:基于SVD分解(推荐)

是SVD分解,其中:

  • 为正交矩阵

则伪逆为:

其中

方法二:基于正规方程

情况1 列满秩(

情况2 行满秩(

3.3 应用

伪逆主要用于求解超定或欠定线性方程组

最小二乘解

在模式识别中,伪逆常用于:

  • 线性回归
  • 主成分分析(PCA)
  • 线性判别分析(LDA)

4. 特征值与特征向量

4.1 定义与基本概念

定义:对于 阶方阵 ,如果存在非零向量 和标量 使得:

则称 特征值 为对应的特征向量

特征多项式

基本性质

  1. (迹等于特征值之和)
  2. (行列式等于特征值之积)
  3. 有相同的特征值
  4. 相似矩阵有相同的特征值

4.2 计算方法

方法一:特征多项式法(小矩阵)

步骤

  1. 计算特征多项式
  2. 求解多项式方程得到特征值
  3. 对每个特征值 ,求解 得到特征向量

示例

特征多项式:

特征值:

对于

特征向量:

对于

特征向量:

方法二:幂法(主特征值)

用于求解最大特征值及其对应的特征向量。

算法

  1. 选择初始向量
  2. 迭代:
  3. 特征值估计:

方法三:QR算法(所有特征值)

这是数值计算中最常用的方法:

算法步骤

  1. 初始化:
  2. 对于
    • QR分解:
    • 更新:
  3. 收敛到上三角矩阵,对角线元素即为特征值

4.3 特殊矩阵的特征值

对称矩阵

  • 所有特征值都是实数
  • 特征向量相互正交
  • 可对角化:

正定矩阵

  • 所有特征值都大于0
  • 常用判定方法:
    1. 所有主子式大于0
    2. 所有特征值大于0
    3. 存在可逆矩阵 使得

5. 矩阵求导

5.1 基本概念与记号

标记约定

  • 为列向量
  • 为矩阵
  • 为标量函数

梯度定义

5.2 常用求导公式

基本公式

特别地,当 对称时:

二阶导数(Hessian矩阵)

常用二阶导数

  1. 对称时:

5.3 矩阵对矩阵的导数

迹的导数

行列式的导数

5.4 在机器学习中的应用

最小二乘法

目标函数:

梯度:

最优解:

逻辑回归

目标函数:

梯度:

其中

6. 其他重要数学概念

6.1 向量空间与线性变换

向量空间的基本概念

  • 线性无关:向量组 线性无关当且仅当方程 只有零解
  • 基与维数:向量空间 的基是 的一个线性无关的生成集,基中向量的个数称为 的维数
  • 正交基:基中向量两两正交
  • 标准正交基:正交基且每个向量的模长为1

线性变换

线性变换 可以用矩阵 表示:

重要性质

  • 零空间(核)
  • 列空间(像)
  • 秩-零化定理

6.2 二次型与正定性

二次型

元二次型是形如下式的函数:

其中 是对称矩阵(不失一般性)。

正定性判定

矩阵 正定的等价条件:

  1. 所有特征值大于0
  2. 所有顺序主子式大于0
  3. 存在可逆矩阵 使得
  4. 对所有非零向量 ,都有

Sylvester判据

  • 正定:所有顺序主子式
  • 负定
  • 半正定:所有主子式

6.3 矩阵分解

QR分解

任意矩阵 (列满秩) 可分解为:

其中 列正交, 上三角且对角元素为正。

Gram-Schmidt正交化过程

Cholesky分解

对于正定矩阵 ,存在唯一的下三角矩阵 (对角元素为正)使得:

计算公式

6.4 范数与条件数

向量范数

  • 1-范数
  • 2-范数(欧几里得范数)
  • -范数
  • -范数

矩阵范数

  • Frobenius范数
  • 谱范数(2-范数)(最大奇异值)
  • 1-范数(最大列和)
  • -范数(最大行和)

条件数

矩阵 的条件数定义为:

对于2-范数:

意义:条件数衡量线性方程组 的数值稳定性。条件数越大,方程组越病态。


总结:本附录涵盖了模式识别中最常用的数学工具和计算方法。这些数学基础对于理解PCA、LDA、SVM等算法的原理和实现至关重要。在实际应用中,建议使用成熟的数值计算库(如LAPACK、BLAS)来进行矩阵运算,以确保数值稳定性和计算效率。

模式识别课程学习笔记