在机器学习领域中,传统的学习方法有两种:监督学习和无监督学习。半监督学习(Semi-supervised Learning)是近年来模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。半监督学习对于减少标注代价,提高学习机器性能具有非常重大的实际意义。
聚类假设
聚类假设是指样本数据间的距离相互比较近时,则他们拥有相同的类别。根据该假设,分类边界就必须尽可能地通过数据较为稀疏的地方,以能够避免把密集的样本数据点分到分类边界的两侧。在这一假设的前提下,学习算法就可以利用大量未标记的样本数据来分析样本空间中样本数据分布情况,从而指导学习算法对分类边界进行调整,使其尽量通过样本数据布局比较稀疏的区域。例如,Joachims提出的转导支持向量机算法,在训练过程中,算法不断修改分类超平面并交换超平面两侧某些未标记的样本数据的标记,使得分类边界在所有训练数据上最大化间隔,从而能够获得一个通过数据相对稀疏的区域,又尽可能正确划分所有有标记的样本数据的分类超平面。
流形假设
流形假设的主要思想是同一个局部邻域内的样本数据具有相似的性质,因此其标记也应该是相似。这一假设体现了决策函数的局部平滑性。和聚类假设的主要不同是,聚类假设主要关注的是整体特性,流形假设主要考虑的是模型的局部特性。在该假设下,未标记的样本数据就能够让数据空间变得更加密集,从而有利于更加标准地分析局部区域的特征,也使得决策函数能够比较完满地进行数据拟合。流形假设有时候也可以直接应用于半监督学习算法中。例如,Zhu 等人利用高斯随机场和谐波函数进行半监督学习,首先利用训练样本数据建立一个图,图中每个结点就是代表一个样本,然后根据流形假设定义的决策函数的求得最优值,获得未标记样本数据的最优标记;Zhou 等人利用样本数据间的相似性建立图,然后让样本数据的标记信息不断通过图中的边的邻近样本传播,直到图模型达到全局稳定状态为止。
从本质上说,这两类假设是一致的,只是相互关注的重点不同。其中流形假设更具有普遍性
半监督学习的主要算法
基于概率的算法;
在现有监督算法基础上作修改的方法;
直接依赖于聚类假设的方法;
基于多试图的方法;
基于图的方法
不足
半监督学习分类算法从提出到现在时间比较短,还有许多方面没有更深入的研究
半监督学习分类算法的现实价值
半监督学习从诞生以来,主要用于处理人工合成数据、只在实验室试用,还没办法在某个现实领域得到应用,也就是说,其现实意义没体现出来;因此,半监督学习的实际应用价值问题值得更多的研究。
新假设的提出
文中前面叙述到的各种半监督分类算法的假设,提出新的模型假设可能会改进半监督分类算法。所以对半监督学习分类算法的模型假设的研究将是十分有价值的。
半监督学习的抗干扰性比较弱
无噪声干扰的样本数据是当前大部分半监督学习方法使用的数据,而在实际生活中用到的数据却大部分不是无干扰的,通常都比较难以得到纯样本数据。上面谈论的三个基本假设显然是有效的,不过过于简约,这些假设没能把噪声干扰下未标记样本数据分布的不确定性以及它的复杂性充分的考虑全。
分享到:
相关推荐
当对大量的标记数据集合(如ImageNet)进行训练时,深度神经网络展示了它们在特殊监督学习任务(如图像分类)上的卓越表现。
一篇数据挖掘课的作业论文。...关于半监督学习方面的综述性文章。 所参考文献在2009年以前。 目前这方面的中文文献相对较少,希望我的这篇作业能对有兴趣做这方面研究的朋友有所帮助,其中错误之处还请大家多多指出。
人工智能(AI)的成功应该在很大程度上归功于丰富数据的可获得性。然而,实际情况并非如此,行业...因此,联邦学习被提议通过允许多方在不显式共享数据的情况下协作构建机器学习模型,同时保护数据隐私,来缓解这种挑战。
半监督学习研究综述
半监督学习机制下的说话人辨认...半监督学习综述 基于半监督学习的眉毛图像分割方法 基于半监督学习的网络流量分类 基于核策略的半监督学习方法 一种基于半监督学习的多模态Web查询精化方法 有关半监督学习的问题及研究
深度半监督学习是一个快速发展的领域,具有一系列的实际应用。本文从模型设计和无监督损失函数的角度对深度半监督学习方法的基本原理和最新进展进行了全面的综述。
机器学习中半监督机器学习的综述,半监督,有监督,无监督
半监督深度学习图像分类方法研究综述.pdf
深度半监督学习中伪标签方法综述.docx
Xiaojin Zhu于2008年写的一篇有关半监督学习的综述。
医学图像分割的半监督学习。 近来,半监督图像分割已成为医学图像计算中的热门话题,不幸的是,由于隐私策略等原因,只有少数开源代码和数据集。为了便于评估和公平比较,我们正在尝试建立一个半监督医学图像分割...
支持向量机是 VapnikVapnikVapnikVapnikVapnik 等在统计学习理论基础上 发展起来的针对小样本机器学习方法。
如何针对半监督数据集,利用不完整的监督信息完成特征选择,已经成为模式识别与机器学习领域的研究热点。为方便研究者系统地了解半监督特征选择领域的研究现状和发展趋势,对半监督特征选择方法进行综述。首先探讨了...
图像分类是计算机视觉中的基本任务之...最近,自监督学习与预训练技术的发展使得图像分类技术出现新的变化,这篇论文概述了最新在实际情况中少标签小样本等情况下,关于自监督学习、半监督、无监督方法的综述,值得看!
描述了近几年半监督GAN的研究现状以及经典的算法所适用的场景。希望能够帮助大家。
文件包含综述等十余篇论文(自己收集整理)。 顶会: MICCAI:全称 International Conference on Medical Image Computing and Computer Assisted Intervention, IPMI:全称 Information Processing in Medical ...
此外,GANs还与其他机器学习算法结合用于特定应用,如半监督学习、转移学习和强化学习。本文比较了这些GANs方法的共性和差异。其次,研究了与政府机关有关的理论问题。再次,介绍了GANs在图像处理和计算机视觉、自然...
深度学习作为图像识别领域重要的技术手段,有着广阔的应用前景,开展图像识别技术研究对推动...使用非监督与半监督学习对图像进行识别,如何对视频图像进行有效识别以及强化模型的理论性等是该领域研究的进一步方向。
其次,根据训练方式的不同,分别探讨监督学习、半监督学习/弱监督学习以及无监督学习上行人重识别任务的研究进展,并根据现有研究热度介绍生成对抗网络和注意力机制在行人重识别上的应用;之后,列举了该领域中常用...