Skip to content

4. 非参数技术

问题:比较参数技术与非参数技术的优缺点

参数技术:

  • 优点:当概率分布的参数形式已知或能被准确假设时,它需要的数据量远少于非参数方法,计算和存储效率更高。
  • 缺点:其核心问题是必须预先假设概率密度的函数形式。这种假设在实际应用中往往不成立,例如,经典的参数形式多为单峰分布,而现实数据常呈现多峰分布,导致模型与实际情况不符。

非参数技术:

  • 优点:具有很强的通用性,无需对概率分布做任何形式上的假设,能处理任意复杂的分布。只要训练样本足够多,理论上总能收敛到真实模型。
  • 缺点:为了获得精确结果,通常需要"惊人"数量的训练样本,导致时间和存储开销巨大。更严重的是,它受"维数灾难"的制约,即所需样本量随特征维度的增加呈指数级增长。

问题:数据驱动的算法是什么含义,请举例分析一下

数据驱动算法的含义

数据驱动算法是指决策过程直接基于训练数据,不依赖分布假设或参数化模型的算法。核心特征:局部性决策、记忆型学习、让数据"自己说话"。

Parzen窗方法

基本原理:在查询点周围放置窗口,统计窗口内样本数量估计概率密度。

数据驱动特性

  • 每个训练样本都对密度估计有贡献,无预设分布形式
  • 查询点密度主要由邻近样本决定
  • 数据密集区域自动产生高密度估计

K近邻方法

基本原理:找到与查询点最近的K个训练样本,用邻居类别标签决定分类。

数据驱动特性

  • 不对数据分布做任何假设,决策边界完全由训练数据决定
  • 每个预测只依赖最近K个样本,实现局部决策
  • 能自然处理非线性边界,复杂度由数据本身决定

模式识别课程学习笔记