密度峰值隶属度优化的半监督Self-Training算法

	密度峰值隶属度优化的半监督Self-Training算法
	刘学文1 ; 王继奎1 ; 杨正国1 ; 李冰1 ; 聂飞平2
	2021-04-19
发表期刊	计算机科学与探索
卷号	16 期号:09 页码:1-13
摘要	现实中因为获取标签的成本很高，大部分的数据只含有少量标签。相比监督学习和无监督学习，半监督学习能充分利用数据集中的大量无标签数据和少量有标签数据，以较少的标签成本获得较高的学习性能。自训练算法（Self-Training）是一种经典的半监督学习算法，在其迭代优化分类器的过程中，不断从无标签样本中选取高置信度样本并由基分类器赋予标签，再将这些样本和伪标签添加进训练集。选取高置信度样本是Self-Training算法的关键，受密度峰值聚类算法（Density PeaksClustering，DPC）启发，将密度峰值用于高置信度样本的选取，提出了密度峰值隶属度优化的半监督Self-Training算法（Semi-Supervised Self-Training Algorithm for Density Peak Membership Optimization， STDPM）。首先，STDPM利用密度峰值发现样本的潜在空间结构信息并构造原型树。其次，搜索有标签样本在原型树上的无标签近亲结点，将无标签近亲结点的隶属于不同类簇的峰值定义为簇峰值，归一化后作为密度峰值隶属度。最后，将隶属度大于设定阈值的样本作为高置信度样本，由基分类器赋予标签后添加进训练集。STDPM充分利用密度峰值所隐含的密度和距离信息，提升了高置信度样本的选取质量，进而提升了分类性能。在8个基准数据集上进行对比实验，结果验证了STDPM算法的有效性。
关键词	密度峰值隶属度簇峰值原型树近亲结点集自训练
URL	查看原文
收录类别	CSCD ; 北大核心
ISSN	1673-9418
语种	中文
原始文献类型	学术期刊
中图分类号	TP181
来源期刊等级	C1类
文献类型	期刊论文
条目标识符	http://ir.lzufe.edu.cn/handle/39EH0E1M/30080
专题	信息工程与人工智能学院
作者单位	1.兰州财经大学信息工程学院; 2.西北工业大学计算机学院光学影像分析与学习中心
第一作者单位	信息工程与人工智能学院
推荐引用方式 GB/T 7714	刘学文,王继奎,杨正国,等. 密度峰值隶属度优化的半监督Self-Training算法[J]. 计算机科学与探索,2021,16(09):1-13.
APA	刘学文,王继奎,杨正国,李冰,&聂飞平.(2021).密度峰值隶属度优化的半监督Self-Training算法.计算机科学与探索,16(09),1-13.
MLA	刘学文,et al."密度峰值隶属度优化的半监督Self-Training算法".计算机科学与探索 16.09(2021):1-13.