南京大学学报(自然科学版) ›› 2016, Vol. 52 ›› Issue (4): 662.
郭翔宇,王 魏*
Guo Xiangyu,Wang Wei*
摘要: 半监督学习是机器学习近年来的热点研究方向,而协同训练(Cotraining)则是半监督学习中的重要范式,它利用双视图训练两个分类器来互相标记样本以扩大训练集,以此借助未标记样本提升学习性能.在实际应用中,视图通常会受到属性退化和噪声的影响而变得不充分(即视图不能提供足够的信息来正确预测样本的标记).在不充分视图下,两个视图上的最优分类器变得不再兼容,一个视图中的分类器标记的样本可能不利于另一个视图学得最优分类器.针对这一问题,提出一种改进的协同训练算法Compatible Cotraining,它记录学习过程中每个未标记样本被赋予的标记,通过比较更新后的分类器对样本预测的标记与其初始标记,动态地删除标记不一致的样本,从而除去不利于学得最优分类器的样本.实验结果显示出Compatible Cotraining比协同训练具有更好的泛化能力和更快的收敛速度.
[1] Dempster A P,Laird N M,Rubin D B.Maximum likelihood from incomplete data via the EM algorithm.Journal of the Royal Statistical Society,Series B(methodological),1977:1-38. [22] Abney S.Bootstrapping.In:Proceedings of the 40th Annual Meeting on Association for Computational Linguistics.Stroudsburg,PA:ACL,2002:360-367. |
No related articles found! |
|