在机器学习(Machine learning)领域,监督学习(Supervised learning)、非监督学习(Unsupervised learning)以及半监督学习(Semi-supervised learning)是三类研究比较多,应用比较广的学习技术
监督学习:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,
非监督学习:直接对输入数据集进行建模
半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数
半监督学习指的是在训练数据十分稀少的情况下,通过利用一些没有类标的数据,去学习没有标注数据的最优标注,减少标注代价,从而提高学习准确率的方法。
主动学习(active learning):有的时候,有类标的数据比较稀少而没有类标的数据是相当丰富的,但是对数据进行人工标注又非常昂贵,这时候,学习算法可以主动地提出一些标注请求,将一些经过筛选的数据提交给专家进行标注。这里是半监督学习的最大区别,其学习算法不需要人工干预,基于自身对未标记数据加以利用。
筛选过程也就是主动学习主要研究的地方了,怎么样筛选数据才能使得请求标注的次数尽量少而最终的结果又尽量好。
主动学习的过程大致是这样的,有一个已经标好类标的数据集K(初始时可能为空),和还没有标记的数据集U,通过K集合的信息,找出一个U的子集C,提出标注请求,待专家将数据集C标注完成后加入到K集合中,进行下一次迭代。
按wiki上所描述的看,主动学习也属于半监督学习的范畴了,但实际上是不一样的,半监督学习和直推学习(transductive learning)以及主动学习,都属于利用未标记数据的学习技术,但基本思想还是有区别的。
如上所述,主动学习的“主动”,指的是主动提出标注请求,也就是说,还是需要一个外在的能够对其请求进行标注的实体(通常就是相关领域人员),即主动学习是交互进行的。
至于直推学习,它与半监督学习一样不需要人工干预,不同的是,直推学习假设未标记的数据就是最终要用来测试的数据,学习的目的就是在这些数据上取得最佳泛化能力。相对应的,半监督学习在学习时并不知道最终的测试用例是什么。
也就是说,直推学习其实类似于半监督学习的一个子问题,或者说是一个特殊化的半监督学习,所以也有人将其归为半监督学习。
而主动学习和半监督学习,其基本思想上就不一样了,所以还是要加以区分的,如果wiki上对半监督学习的解释能特别强调一下“是在不需要人工干预的条件下由算法自行完成对无标记数据的利用”,问题就会更清楚一些了。
分享到:
相关推荐
1. 为什么需要半监督学习 2. 未标记数据的作用 3. 半监督学习的假设 4. 归纳式学习和直推式学习
利用未标记示例的主流学习技术主要有三大类[Zhou06],即半监督学习(semi-supervised learning)、直推学习(transductive learning)和主动学习(active learning)
直推式支持向量机(Transductive Support Vector Machine,TSVM)是标准的支持向量机算法在半监督学习问题上的一种扩展,但已有的TSVM算法存在训练速度慢、回溯式学习多、学习性能不稳定等缺点,针对这些问题提出一...
具有不同分布特性的视频包含相同的语义概念,会表现出不同的视觉特征...实验结果表明,该算法在跨域视频概念检测问题上的平均标准率为68.1%,平均标全率为60%,与支持向量机半监督主动学习和基于直推式支持向量机半
基于直推学习的蛋白质亚细胞定位预测预处理方法,曹隽喆,顾宏,本文提出一种新的蛋白质亚细胞定位预测预处理方法,用于预先鉴定待测蛋白质具有单定位点还是多定位点。基于直推学习技术,该方法
针对半监督学习中渐进直推支持向量机(Progressive Transductive Support Vector Machines, PTSVM)算法存在训练速度慢, 回溯式学习多,学习性能不稳定的问题,提出一种改进...
基于间接域适应特征生成的直推式零样本学习方法.pdf
渐进直推式分类学习算法是一种基于SVM的半监督分类学习方法,在基于渐进直推式分类学习算法的基础上,利用Fisher准则中的样本离散度作为度量标准,采用Fisher准则函数作为评价函数,提出了一种基于离散度量和SVM相...
提出了一种基于高斯混合...实验部分将该算法同传统SVM算法、直推式支持向量机(TSVM)以及随机游走(RW)半监督算法进行分类性能比较,结果证明该算法在拥有较少标示样本训练的情况下分类性能也有所提高且具有较高的鲁棒性.
基于在线自适应直推式支持向量机的电力系统暂态稳定评估,陈鑫磊,王韶,现有基于机器学习的暂态稳定评估模型无法在线更新,对实际系统的适应能力差且参数优化计算代价大。针对以上不足,本文结合直推式
ThinkPHP开发商品消费商品直推团队直销系统源码 双轨量碰层碰无 规章制度 数最多的时候可快速设置7个级別,不特定使用某一个级別,快速设置为0即可 业务流程抽成(层碰): 第一层(A+B)x50,纯收入不超过投资总额 第三...
矢量量化是一种有效的数据压缩技术,由于其算法简单,具有较高的压缩率,因而被广泛应用于数据压缩编码领域。通过对图像块灰度特征的研究,根据图像的平滑与否,提出了对图像进行均值和矢量量化复合编码算法,该算法...
基于对象相关性的全监督和直推式排序算法
提出一种基于两阶段学习的半监督SVM故障检测方法。该方法首先使用标识传递算法给未标识样本赋予初始伪标识,并通过k近邻图对比样本点标识值,将可能是噪声的样本点识别并剔除;然后将去噪处理后的样本集输入到SVM中,...
维度约减:顾名思义,是指减少数据维度的同时保证不丢失有意义的信息。 利用特征提取方法和特征选择方法,可以达到维度约减的效果。特征选择是指选 择原始...常见的两种半监督的学习方式是直推学习(Transductive le
提出一种基于两阶段学习的半监督SVM故障检测方法。该方法首先使用标识传递算法给未标识样本赋予初始伪标识,并通过k近邻图对比样本点标识值,将可能是噪声的样本点识别并剔除;然后将去噪处理后的样本集输入到SVM中...
行业分类-设备装置-直推式探测杆件安装装置.zip