Skip to content

5. 线性判别函数

5.1 线性判别函数概述

线性判别函数是模式识别中最基础且重要的分类方法,它假设不同类别之间的决策边界是线性的,即可以用超平面来分离。在d维特征空间中,线性判别函数的一般形式为:

其中:

  • 是权重向量(法向量)
  • 是偏置项
  • 是输入特征向量

决策规则:对于二分类问题,通常采用:

  • 如果 ,则
  • 如果 ,则
  • 定义了两类之间的决策边界(超平面)

线性判别函数的优势

  1. 计算简单:计算复杂度低,适合大规模数据
  2. 可解释性强:权重向量直接反映了特征的重要性
  3. 理论完备:有坚实的数学基础和理论保障
  4. 泛化能力好:在线性可分或近似线性可分的问题上表现优异

适用场景

  • 高维稀疏数据(如文本分类)
  • 线性可分或近似线性可分的数据
  • 需要快速预测和模型解释的应用场景

5.2 常用线性判别函数方法

5.2.1 感知机(Perceptron)

基本思想:感知机是最早的线性分类算法,通过错误驱动的学习方式逐步调整权重,直到所有训练样本都能被正确分类。

算法流程

  1. 初始化权重向量
  2. 对每个错分类样本 ,更新权重:
  3. 重复步骤2直到没有错分类样本

特点

  • 优势:算法简单,易于理解和实现
  • 局限:只适用于线性可分数据;对于线性不可分数据无法收敛
  • 收敛性:在线性可分情况下保证有限步收敛

5.2.2 最小平方误差(MSE)方法

基本思想:将分类问题转化为回归问题,通过最小化预测输出与期望输出之间的平方误差来求解最优权重。

目标函数

其中 是样本 的目标值(如 +1/-1)。

解析解

特点

  • 优势:有解析解,计算稳定;总是能收敛
  • 局限:优化目标与分类目标不完全匹配;对异常值敏感
  • 适用性:即使在线性不可分情况下也能找到解,但不保证分类效果

5.2.3 支持向量机(SVM)

基本思想:寻找最优超平面,使得两类样本之间的间隔(margin)最大化,从而获得最好的泛化能力。

硬间隔SVM:适用于线性可分数据

软间隔SVM:通过引入松弛变量处理线性不可分数据

特点

  • 优势:具有最大间隔原理;支持非线性扩展(核技巧);对异常值鲁棒
  • 局限:计算复杂度较高;参数选择需要经验
  • 理论基础:基于统计学习理论,有良好的泛化保证

5.2.4 线性判别分析(LDA)

基本思想:Fisher线性判别寻找一个投影方向,使得不同类别在该方向上的投影具有最大的类间散度和最小的类内散度。

优化目标

其中:

  • 是类间散度矩阵
  • 是类内散度矩阵

特点

  • 优势:考虑了数据的统计特性;可以处理多类问题;有概率解释
  • 局限:假设各类具有相同的协方差矩阵;对非高斯分布敏感
  • 应用:广泛用于降维和特征提取

5.2.5 逻辑回归(Logistic Regression)

基本思想:使用sigmoid函数将线性函数的输出映射到概率空间,通过最大似然估计求解参数。

模型形式

损失函数

特点

  • 优势:输出具有概率解释;凸优化问题保证全局最优;可扩展到多类
  • 局限:假设线性决策边界;对特征尺度敏感
  • 应用:广泛用于二分类和多分类问题

5.3 线性判别函数方法比较

方法优化目标收敛性线性不可分概率输出计算复杂度主要优势主要局限
感知机错分类最小化线性可分时保证收敛不收敛简单直观仅适用于线性可分
MSE平方误差最小化总是收敛可处理有解析解目标与分类不匹配
SVM间隔最大化凸优化保证收敛软间隔处理中等最大间隔原理参数调节复杂
LDAFisher准则有解析解可处理统计理论基础高斯假设
逻辑回归最大似然凸优化保证收敛可处理概率解释清晰线性决策边界

5.4 线性判别函数的理论问题与深入分析

问题:线性判别函数的均方误差MSE和SVM的最大间隔有何异同?

相同点:

两者都是用来寻找最优线性判别函数(即决策超平面)的准则。它们的目标都是确定一个权向量 (或记为 ),从而定义一个分类边界。

不同点:

  1. 优化目标不同
    • MSE (最小平方误差):目标是让所有样本的函数输出 与预设的目标值 (如+1/-1)之间的平方误差和最小。它是一个回归拟合问题,关心所有点到目标值的"代数"距离。
    • SVM (最大间隔):目标是找到一个超平面,使其与两类中最近的样本点(即支持向量)的几何距离最大化。它只关心边界上的点,追求最大化的"安全区域"。
  2. 关注的样本不同
    • MSE:其解受到所有训练样本的影响,包括那些远离边界的点。
    • SVM:其解仅由支持向量决定,其他远离边界的样本对最终的超平面没有影响,因此对异常值更鲁棒。
  3. 结果保证不同
    • MSE:即使数据线性可分,MSE找到的解也不保证能将样本完全分开。
    • SVM:如果数据线性可分,SVM保证能找到一个分隔超平面,并且是间隔最大的那一个。

问题:SVM的最大间隔是一种归纳偏执吗?是否对所有问题都有效?为什么?

SVM的最大间隔是一种归纳偏置。归纳偏置是学习算法在训练数据之外进行泛化的内在假设。SVM的偏置是:在所有能将数据分开的超平面中,那个与最近的训练样本有最大距离(即最大间隔)的超平面是最好的,因为它最有可能对新数据做出正确的分类。

它并非对所有问题都有效。

原因如下:

  1. "没有免费的午餐"定理:在机器学习中,没有任何一个算法能在所有问题上都表现最优。一个算法的有效性取决于其归纳偏置是否与特定问题的内在结构相匹配。
  2. 对噪声和重叠敏感:当两个类别的数据有大量重叠或包含很多噪声时,强制寻找一个"干净"且宽阔的间隔可能并不合适。在这种情况下,一个允许一些错误分类(通过软间隔)或者能提供概率输出(如逻辑回归)的模型可能会更实用。真实的决策边界可能本身就穿过了数据混杂的区域。
  3. 计算成本:对于超大规模的数据集,求解最大间隔所涉及的二次规划问题计算成本非常高,其他更简单的算法(如逻辑回归或朴素贝叶斯)可能在实践中更具可行性。

总之,最大间隔这个偏置在数据类别清晰、可分性较好的高维问题上非常有效,能有效防止过拟合。但当数据本身高度混杂或不符合其"最大间隔"假设时,它的效果就会打折扣。

问题:SVM对异常点的敏感性吗?表现在哪里?如何克服?

经典(硬间隔)SVM对异常点非常敏感。

表现在哪里:

SVM的目标是找到间隔最大的超平面。这个间隔完全由距离超平面最近的样本(即支持向量)决定。如果一个异常点恰好落在靠近决策边界的位置,它就会成为一个支持向量。为了将这个异常点也正确分类,整个决策超平面就必须向它"妥协",这会导致:

  1. 间隔急剧变小:模型为了迁就一个异常点,牺牲了整体的"安全边界"。
  2. 决策面倾斜:超平面的方向会发生显著偏移,偏离了数据主体本应有的最优边界。

这本质上是一种过拟合,模型为了完美划分训练集(包括异常点),损害了其对新数据的泛化能力。

如何克服:

通过引入"软间隔SVM (Soft Margin SVM)"来克服这个问题。其核心思想是允许一些样本不满足严格的间隔约束(即 )。

具体方法是:

  1. 引入松弛变量 (Slack Variables) :允许样本点可以进入间隔甚至被错误分类, 度量了该点违反约束的程度。
  2. 设置惩罚参数 C:在优化目标中加入惩罚项 。参数 C 控制了"最大化间隔"和"最小化训练错误"之间的权衡。
    • 较小的 C:对错误的惩罚小,允许更多的点违反间隔,从而忽略异常点的影响,获得更宽的间隔和更好的泛化能力。
    • 较大的 C:对错误的惩罚大,试图将每个点都正确分类,模型行为接近硬间隔SVM,对异常点敏感。

通过调节参数C,可以控制SVM对异常点的容忍度,使其变得更加鲁棒。

问题:SVM的硬间隔和软间隔有何区别?软间隔的松弛变量有何作用?

硬间隔 (Hard Margin) SVM:

  • 目标:寻找一个能将所有训练样本完全正确分类,且没有任何样本点落在间隔内的超平面。
  • 要求:训练数据必须是线性可分的。
  • 缺点:对异常点或噪声极其敏感。一个异常点就可能导致找不到解,或者得到一个泛化能力很差的、间隔极窄的解。它是一种"零容忍"的完美主义模型。

软间隔 (Soft Margin) SVM:

  • 目标:在"最大化间隔"和"最小化训练错误"之间找到一个平衡。
  • 要求:不要求数据完全线性可分,更加实用和普遍。
  • 优点:通过允许一些样本被"容忍"地错分,模型对异常点和噪声更加鲁棒,泛化能力更强。

松弛变量 的作用:

松弛变量是软间隔SVM的核心。它是一个为每个样本 引入的非负值,其作用是量化该样本违反"硬间隔"约束的程度

  • : 样本被正确分类,且在间隔边界上或之外(满足硬间隔要求)。
  • : 样本被正确分类,但它进入了间隔区域。
  • : 样本被错误分类。

通过最小化所有松弛变量之和 ,软间隔SVM的目标就变成了在保持间隔尽量大的同时,让违反间隔的样本数量和程度尽可能小。这使得模型能够"有策略地"忽略某些异常点,以换取更好的整体分类性能。

问题:SVM的核函数有何作用?会引入过拟合吗?为什么?如何克服?

核函数的作用:

核函数(Kernel Function)是SVM处理非线性问题的核心。其主要作用有两点:

  1. 实现非线性映射:它能将原始特征空间中的数据隐式地映射到一个更高维甚至无限维的特征空间中。这样做的目的是,在原始空间中线性不可分的数据,在更高维的空间中可能就变得线性可分了。
  2. 避免维度灾难("核技巧"):直接计算高维映射 的成本极高。核函数的精妙之处在于,它不需要显式计算这个高维向量,而是直接计算出高维空间中两个向量的内积 。这极大地降低了计算复杂度,使得在高维空间中寻找超平面变得可行。

会引入过拟合吗?为什么?

是的,不恰当的核函数或参数选择会引入严重的过拟合。

原因在于,核函数直接决定了决策边界的复杂度和灵活性。一个过于强大的核函数(例如,高阶多项式核,或 值非常大的高斯核)可以生成一个极其扭曲和复杂的决策边界。这个边界可以完美地"记住"所有训练样本,包括其中的噪声和异常点,但在面对新的、未见过的数据时表现会很差,这就是过拟合。

如何克服?

克服核函数带来的过拟合主要通过正则化模型选择

  1. 调整软间隔参数 C:这是最重要的正则化手段。减小参数 C 会增大对松弛变量的容忍度,允许更多的分类错误,从而迫使模型寻找一个更简单、间隔更宽的决策边界,降低过拟合风险。
  2. 选择合适的核函数及参数
    • 优先选择更简单的核(如线性核)。
    • 对于高斯核(RBF),关键是调整 参数。较小的 会产生更平滑的决策边界,降低过拟合;较大的 则相反。
  3. 使用交叉验证 (Cross-Validation):通过交叉验证在训练集上寻找最优的参数组合(如 ),而不是依赖单一训练/测试划分。这能帮助我们找到泛化能力最好的模型参数,有效避免过拟合。

问题:试比较显式升维和核技巧(隐式升维)的异同,并说明二者的优缺点。

相同点:

两者的根本目标一致:都是为了解决线性不可分问题。它们都试图将原始数据从一个低维空间映射到一个更高维的特征空间,期望数据在这个新空间中变得线性可分,从而可以使用线性分类器来解决。

不同点与优缺点:

1. 显式升维 (Explicit Feature Mapping)

  • 过程:先明确定义一个映射函数 ,然后将每一个数据点 都计算出对应的高维向量 。最后,在这个新的、维度更高的数据集 上训练一个标准的线性模型。
  • 优点
    • 直观易懂:过程清晰,高维特征是可见、可解释的。
    • 通用性强:升维后的数据可以用于任何线性模型,不限于SVM。
  • 缺点
    • 维度灾难与计算成本高:如果目标维度 非常高,计算和存储所有高维向量 的成本将是巨大的,甚至在计算上是不可行的。

2. 核技巧 (Kernel Trick / Implicit Feature Mapping)

  • 过程:它不直接计算高维向量 。而是巧妙地发现,像SVM这样的算法,其计算过程只依赖于样本间的内积(点积)。于是,它用一个核函数 来直接计算出高维空间中的内积 ,从而完全绕过了高维映射的计算。
  • 优点
    • 计算高效:避免了维度灾难。计算成本与高维空间的维度无关,使得在极高维甚至无限维空间中工作成为可能。
    • 功能强大:可以轻松使用如高斯核等对应无限维空间的映射。
  • 缺点
    • 不够直观:过程比较抽象,像一个"黑盒",我们无法看到高维空间中的特征究竟是什么。
    • 适用性有限:仅适用于那些可以被"核化"(即计算过程只依赖于内积)的算法。

问题:请用显式和隐式升维解决一个在一维线性不可分,但在二维线性可分的例子

问题设定:

假设我们有一维数据点。

  • 类别 (红色):
  • 类别 (黑色):

这些点在一维直线上无法用一个点(相当于一维的"超平面")分开。

1. 显式升维

步骤1:定义映射函数 我们定义一个简单的二次映射,将一维 映射到二维 空间。

步骤2:计算新的高维特征向量

步骤3:在高维空间中找到线性分类器 现在我们在二维空间 中有了三个点:

  • :
  • :

我们很容易找到一条水平线作为决策边界,例如 。这条线能完美地将两类分开。

2. 核技巧 (隐式升维)

步骤1:选择核函数 我们选择多项式核 (Polynomial Kernel) 。为了模拟上面的二次映射,我们令 , ,所以核函数为

步骤2:计算核矩阵 核技巧的核心是不计算 ,而是直接计算所有样本对之间的内积的核函数值。

110
110
000

步骤3:使用核矩阵训练模型 像SVM这样的算法会利用这个核矩阵来求解对偶问题,找到拉格朗日乘子 。在这个过程中,它隐式地在一个由 定义的高维空间中操作。虽然我们看不到 ,但最终得到的分类器决策函数 会表现出与显式升维后相同的分离能力。

总结:显式升维让我们"看到"了数据在高维空间中的新位置,然后画出分界线。核技巧则跳过了"看"这一步,直接通过计算内积完成了在高维空间中的"画线"操作,更加高效和强大。

问题:降维映射可以解决线性不可分问题吗?请举例说明

通常情况下,降维映射不能解决线性不可分问题,反而往往会使问题变得更糟。

其根本原因是,降维是通过投影将数据从高维空间映射到低维空间,这个过程会丢失信息。如果两类数据在高维空间中本来就混杂在一起,将它们投影到更低维的空间,只会让它们重叠得更严重,从而更难分离。

举例说明(一般情况):

假设在二维空间中有两类数据:

  • (红色):
  • (黑色):

在二维空间中,它们显然是线性可分的(例如用 这条线)。

现在,我们将它们降维,投影到一维的 x 轴上:

  • 的投影点是
  • 的投影点也是

降维后,两类数据完全混合在了一起,变得线性不可分

特例(降维可以解决问题的情况):

在极少数情况下,如果降维的投影方向选择得极其巧妙,它有可能使数据变得可分。此时,降维本身就扮演了一种特殊的特征提取或判别函数的角色。

举例说明(特殊情况):

考虑经典的XOR问题:

  • (红色):
  • (黑色):

在二维空间中,它们是线性不可分的。

但是,如果我们选择一个特殊的投影方向,比如向量 ,并将所有点投影到这条线上。投影值正比于内积

  • 的投影值:
  • 的投影值:

在一维的投影线上, 的点都集中在 ,而 的点分布在 。此时,数据变得线性可分了。

结论:虽然存在特例,但依赖降维来解决线性不可分问题是不可靠的。解决此类问题的标准和通用方法是升维(如使用核技巧的SVM)。

问题:在d维线性空间中z到超平面的距离计算能定义为一个优化问题吗?如果是,写出其目标函数并优化它

是的,点 到超平面 的距离计算可以被定义为一个经典的约束优化问题

其核心思想是:寻找一个在超平面上的点 ,使其与点 的距离最短。

1. 目标函数与约束

这个优化问题可以形式化地表述为:

  • 目标函数(最小化):最小化点 和点 之间的欧氏距离的平方。使用平方是为了便于求导,它与最小化原始距离是等价的。
  • 约束条件:点 必须位于超平面上。

2. 优化过程(使用拉格朗日乘子法)

我们可以用拉格朗日乘子法来求解这个约束优化问题。

步骤1:构建拉格朗日函数

其中 是拉格朗日乘子。

步骤2:对 求梯度并令其为零

解出 ,得到 。 这说明,从 到其在平面上的最近点 的向量,与平面的法向量 是平行的。

步骤3:利用约束求解 的表达式代入约束

解得

步骤4:计算距离 我们要求的距离 就是 。根据步骤2,我们知道 。 所以, 的值代入:

这个结果与教材中5.2.1节给出的距离公式完全一致。

支持向量机(SVM)的数学推导

支持向量机是一种基于统计学习理论的机器学习方法,其核心思想是寻找一个最优超平面,使得不同类别之间的间隔最大化。

1. 硬间隔SVM的数学表述

1.1 问题设定

设训练样本集为 ,其中:

  • 维特征向量
  • 是类别标签

假设数据线性可分,我们要找到一个超平面 将两类数据分开。

1.2 几何间隔与函数间隔

函数间隔:点 到超平面的函数间隔定义为:

几何间隔:点 到超平面的几何间隔定义为:

数据集关于超平面的几何间隔为:

1.3 最大间隔问题的原始形式

SVM的目标是最大化几何间隔,即:

为了简化计算,我们可以固定函数间隔 (通过重新缩放 实现),原问题等价于:

2. 拉格朗日对偶方法求解

2.1 拉格朗日函数

引入拉格朗日乘子 ,构造拉格朗日函数:

其中

2.2 KKT条件

根据KKT(Karush-Kuhn-Tucker)条件,最优解 必须满足:

  1. 平稳性条件

  2. 原始可行性

  3. 对偶可行性

  4. 互补松弛条件

2.3 对偶问题推导

从平稳性条件得到:

将这些条件代入拉格朗日函数,消除 ,得到对偶问题:

2.4 支持向量的确定

从互补松弛条件可知:

  • 如果 ,则 ,样本 支持向量
  • 如果 ,则 ,样本 不是支持向量

3. 软间隔SVM

3.1 引入松弛变量

当数据不完全线性可分时,引入松弛变量

其中 是正则化参数,控制对错误分类的惩罚程度。

3.2 软间隔SVM的对偶问题

构造拉格朗日函数:

通过KKT条件求解,得到软间隔SVM的对偶问题:

与硬间隔SVM相比,唯一的区别是约束条件从 变为

4. KKT求解的具体例子

4.1 简单二维例子

考虑一个简单的二维线性可分问题:

训练数据

  • 正类:
  • 正类:
  • 负类:

4.2 对偶问题求解

对偶问题为:

计算内积

目标函数

4.3 利用约束条件简化

由约束条件 ,得

代入目标函数并化简:

4.4 求解最优解

求偏导并令其为零:

解得:

4.5 计算最优参数

权重向量

偏置项:利用支持向量上的约束条件

4.6 KKT条件验证

最优解必须满足所有KKT条件:

  1. 平稳性
  2. 原始可行性 对所有 成立 ✓
  3. 对偶可行性 对所有 成立 ✓
  4. 互补松弛:由于所有 ,所有样本都是支持向量,满足

5. 决策函数

求解完成后,SVM的决策函数为:

只有支持向量( 的样本)对决策函数有贡献,这体现了SVM的稀疏性特点。

6. 核化SVM

对于非线性问题,通过核函数 将原始特征空间映射到高维特征空间,对偶问题变为:

决策函数变为:

KKT条件和求解方法保持不变,只是将内积 替换为核函数

问题:线性判别函数处理多类时通常有哪两种方法,分析优缺点,并分析如何克服二者共同具有的缺陷,并解释为什么可以克服

线性判别函数处理多类分类问题时,有两种主要方法:一对一(One-vs-One, OvO)一对多(One-vs-All/One-vs-Rest, OvA)

1. 一对一(One-vs-One, OvO)

原理:

对于 个类别的问题,构造 个二分类器。每个分类器只负责区分两个类别,比如类别 和类别

优点:

  • 训练数据平衡:每个二分类器只处理两个类别的数据,数据量相对较小,训练速度快
  • 决策边界简单:每个分类器只需要学习区分两个类别的边界,问题相对简单
  • 对不平衡数据较鲁棒:即使某些类别样本数量差异很大,也不会严重影响单个分类器的性能

缺点:

  • 分类器数量多:需要训练 个分类器,当类别数量很大时,计算开销显著
  • 测试时间长:预测时需要调用所有分类器,时间复杂度为
  • 投票冲突:可能出现"循环胜负"的情况,如A胜B,B胜C,C胜A,导致决策困难

2. 一对多(One-vs-All, OvA)

原理:

对于 个类别的问题,构造 个二分类器。第 个分类器负责区分"类别 "与"所有其他类别"。

优点:

  • 分类器数量少:只需要训练 个分类器,计算开销相对较小
  • 测试速度快:预测时只需要调用 个分类器,时间复杂度为
  • 容易理解和实现:逻辑简单直观

缺点:

  • 类别不平衡严重:每个分类器都面临"1个正类 vs K-1个负类"的不平衡问题
  • 决策边界复杂:需要同时排斥多个其他类别,学习任务更困难
  • 置信度不可比:不同分类器的输出分数范围可能不同,难以直接比较

3. 共同缺陷及克服方法

共同缺陷:

两种方法都存在一个根本性问题:决策区域中的空白和重叠

  • 空白区域:某些输入可能不被任何分类器明确归类,导致决策不确定
  • 重叠区域:某些输入可能被多个分类器同时认领,造成决策冲突
  • 全局一致性缺失:各个二分类器独立训练,没有考虑全局的类别关系

克服方法:多类直接优化

核心思想:不再分解为多个二分类问题,而是直接优化一个统一的多类目标函数。

具体方法

  1. 多类SVM

    • 使用 个判别函数
    • 优化目标:
    • 同时学习所有类别的决策边界
  2. Softmax回归

    • 使用概率框架:
    • 优化交叉熵损失,确保概率和为1

为什么可以克服:

  1. 全局一致性:所有类别的决策边界在同一个优化框架下联合学习,确保了全局的一致性
  2. 消除空白区域:通过概率框架或者margin约束,确保每个输入都有明确的类别归属
  3. 解决重叠问题:统一的目标函数自然地协调不同类别间的竞争关系
  4. 更好的泛化能力:联合优化考虑了类别间的相互关系,通常能获得更好的泛化性能

数学表述: 以多类SVM为例,其优化目标为:

约束条件:

这种统一的优化框架确保了所有类别的决策边界协调一致,从根本上解决了分解方法的缺陷。

问题:感知机与MSE在优化准则的出发上有什么不同,能够直接应用到多类情况吗,为什么

感知机与MSE在优化准则的出发点不同

感知机算法的优化准则:

核心思想:感知机专注于错误分类的样本,目标是通过迭代调整权重,逐步减少分类错误。

优化目标:最小化被错误分类样本的代数距离(带符号距离)之和

MSE的优化准则:

核心思想:MSE将分类问题转化为回归问题,试图让所有样本的函数输出都尽可能接近预设的目标值。

优化目标:最小化所有样本的平方误差之和:

多类扩展的可行性分析

感知机的多类扩展:

能够直接应用,且效果良好

原因

  1. 自然的多类结构:感知机可以直接扩展为多个判别函数 ,每个类别对应一个权重向量
  2. 简单的决策规则:分类决策为
  3. 清晰的更新规则:当样本 被错误分类为类别 而实际属于类别 时:
    • (增强正确类别)
    • (削弱错误类别)

MSE的多类扩展:

可以应用,但存在问题

可行的扩展方式

  1. 独立回归:为每个类别训练一个独立的回归器
  2. 输出编码:使用one-hot编码,训练一个多输出的回归模型

存在的问题

  1. 目标不匹配:MSE的目标是数值拟合,而分类的目标是决策边界
  2. 类间竞争缺失:各类别的权重向量独立优化,缺乏相互竞争关系
  3. 决策困难:多个输出值可能都很大或都很小,难以做出明确决策
  4. 非概率性:输出值不具有概率解释,难以量化不确定性

问题:感知机与MSE在处理线性不可分的两类问题中,能否确保一定收敛,为什么

线性不可分问题的挑战

在线性不可分的两类问题中,数据无法被任何线性超平面完全正确分开。这种情况下,传统的线性分类算法面临着根本性的困难。

感知机在线性不可分问题中的表现

收敛性分析:

感知机无法保证收敛

理论依据:感知机收敛定理(Perceptron Convergence Theorem)指出,感知机仅在数据线性可分的情况下保证收敛到一个能完全分开两类的超平面。

为什么不能收敛:

  1. 无限循环:当数据线性不可分时,不存在能完全正确分类所有样本的线性超平面。感知机会不断尝试调整权重,但永远无法找到满足所有约束的解,导致权重向量在空间中无限振荡。

  2. 目标冲突:某些样本的正确分类会导致其他样本被错误分类,形成一个无法解决的矛盾。算法会在试图修正不同错误样本的过程中陷入循环。

  3. 数学表述

    • 当数据线性不可分时,不存在 使得对所有样本 都有
    • 感知机的更新规则 (当 时)无法找到全局最优解

3. MSE在线性不可分问题中的表现

收敛性分析:

MSE总是能够收敛

理论依据:MSE是一个凸优化问题,其目标函数是关于权重向量的二次函数,具有唯一的全局最优解。

为什么能够收敛:

  1. 凸优化性质:MSE的目标函数 是严格凸函数,保证了全局最优解的存在性和唯一性。

  2. 解析解存在:MSE有闭式解:(当 可逆时)

  3. 梯度下降保证:即使使用迭代方法求解,梯度下降算法也能保证收敛到全局最优,因为:

    • 目标函数的梯度 连续且Lipschitz连续
    • 海塞矩阵 正半定

但是存在的问题:

MSE收敛但不能保证正确分类

  1. 目标函数与分类目标不匹配:MSE优化的是数值拟合误差,而非分类正确性
  2. 可能的糟糕分类性能:即使MSE达到最优,得到的线性分类器可能表现很差
  3. 没有分类间隔概念:MSE不考虑决策边界的鲁棒性

模式识别课程学习笔记