1. 绪论
问题:一般的模式识别系统由哪几部分组成?哪个部分最重要?为什么?
一个典型的模式识别系统由五部分组成:
- 传感器:采集原始数据,如用摄像机拍摄图像。
- 分割器:将感兴趣的物体从背景中分离出来。
- 特征提取器:从数据中提取对分类有用的属性,如鱼的“光泽度”和“宽度”。
- 分类器:根据特征向量,判断物体所属的类别。
- 后处理器:结合代价、上下文等信息优化最终决策。
其中,特征提取是最重要的部分。
原因是特征的质量直接决定了分类器性能的上限。一个好的特征能让不同类别清晰可分,从而极大简化分类任务。如果特征选择不当,即使后续分类器再复杂也难以取得好效果。反之,好的特征可以让简单的分类器也能实现精准分类。
问题:监督学习 无监督学习 半监督学习 自监督学习的定义
监督学习 (Supervised Learning)
这是一种有"教师信号"的学习方式。系统利用带有明确类别标记的训练样本(如已知品种的鱼)来学习,目标是调整自身参数,以便能准确地为未知的新样本分类。
无监督学习 (Unsupervised Learning)
这种学习方式没有"教师信号"。系统面对的是没有类别标记的数据,其任务是自动发现数据中"自然的"组织或聚类结构,将相似的样本分为一组。
半监督学习 (Semi-supervised Learning)
这是监督学习与无监督学习的结合。它使用少量有标记的数据和大量无标记的数据进行训练,旨在利用无标记数据中蕴含的结构信息来提升模型的分类性能,以应对标记成本高昂的场景。
自监督学习 (Self-supervised Learning)
这是一种特殊的无监督学习。它不依赖人工标记,而是从数据本身创造"伪标签"来构建监督任务。例如,通过预测图像被遮挡的部分或文本中被掩盖的词语来进行学习,从而学到有用的特征表示。