2. 贝叶斯决策论
贝叶斯决策论为模式识别提供了理论基础,通过概率方法来进行最优决策。
贝叶斯决策理论基础
贝叶斯定理
对于模式识别问题,我们有:
其中:
- :后验概率
- :类条件概率密度函数(似然函数)
- :先验概率
- :证据因子
贝叶斯决策规则
最小错误率决策:选择具有最大后验概率的类别
最小风险决策:当不同错误的代价不同时
其中风险函数为:
多元正态分布的判别函数推导
多元正态分布是模式识别中最重要的概率分布之一。对于 维特征向量 ,多元正态分布的概率密度函数为:
为了简化计算,我们通常使用判别函数 ,其中:
情况一:协方差矩阵为对角阵(独立同分布)
当各特征相互独立且方差可能不同时,协方差矩阵为对角阵:
推导过程
第一步:计算行列式和逆矩阵
第二步:计算二次型
第三步:得到判别函数
特点:
- 决策边界为超椭球面
- 各特征维度独立处理
- 计算复杂度较低
情况二:所有类的协方差矩阵相同
当所有类别具有相同的协方差矩阵时,即 ,这是线性判别分析(LDA)的基础假设。
推导过程
第一步:展开判别函数
第二步:展开二次型
第三步:消除公共项 由于 和 对所有类别都相同,在比较不同类别时可以忽略。
第四步:得到线性判别函数
这可以写成线性形式:
其中:
- (权重向量)
- (偏置项)
决策边界
两类 和 之间的决策边界由 确定:
特点:
- 决策边界为超平面(线性边界)
- 这是**线性判别分析(LDA)**的理论基础
- 计算效率高,广泛应用于实际问题
情况三:协方差矩阵任意(一般情况)
这是最一般的情况,每个类别都有自己独特的协方差矩阵 ,对应二次判别分析(QDA)。
推导过程
完整的判别函数:
第一步:展开二次型
第二步:整理得到二次判别函数
其中:
第三步:二次型的标准形式 判别函数可以写成:
其中:
- (二次项系数矩阵)
- (线性项系数向量)
- 如上所定义(常数项)
决策边界
两类之间的决策边界由 确定,这是一个二次方程:
特点:
- 决策边界为二次曲面(椭圆、抛物线、双曲线等)
- 这是二次判别分析(QDA)的理论基础
- 能够处理更复杂的分类问题,但计算复杂度较高
- 需要更多的训练样本来准确估计协方差矩阵
三种情况的比较
| 情况 | 协方差矩阵假设 | 判别函数形式 | 决策边界 | 参数数量 | 适用场景 |
|---|---|---|---|---|---|
| 情况一 | 对角阵(独立) | 加权欧氏距离 | 超椭球面 | 特征独立,方差不同 | |
| 情况二 | 所有类相同 | 线性函数 | 超平面 | 经典LDA,效率高 | |
| 情况三 | 任意矩阵 | 二次函数 | 二次曲面 | 复杂分布,QDA |
其中 是类别数, 是特征维数。
问题:得到贝叶斯风险函数需要得到什么条件,处理两类问题时如果一个类的先验远高于另一个,那么贝叶斯误差函数还会生效吗,为什么,如何克服这个问题
得到贝叶斯风险函数需要的条件
需要四个条件:先验概率、类条件概率密度、损失函数、决策规则。
先验极不平衡时的效果
当时,决策规则为:
仍然生效,但会严重偏向主导类。即使比大很多倍,只要似然比小于99,仍选择。这数学上是最优的,因为错分的期望损失(0.99)远大于错分的期望损失(0.01)。
克服方法
- 调整损失函数:设置平衡决策阈值
- 重采样技术:欠采样主导类或过采样少数类
- 阈值调整:通过验证集优化决策阈值
- 评价指标:使用F1-score、AUC等替代准确率