密度峰值隶属度优化的半监督Self-Training算法
刘学文1; 王继奎1; 杨正国1; 李冰1; 聂飞平2
2021-04-19
发表期刊计算机科学与探索
卷号16期号:09页码:1-13
摘要现实中因为获取标签的成本很高,大部分的数据只含有少量标签。相比监督学习和无监督学习,半监督学习能充分利用数据集中的大量无标签数据和少量有标签数据,以较少的标签成本获得较高的学习性能。自训练算法(Self-Training)是一种经典的半监督学习算法,在其迭代优化分类器的过程中,不断从无标签样本中选取高置信度样本并由基分类器赋予标签,再将这些样本和伪标签添加进训练集。选取高置信度样本是Self-Training算法的关键,受密度峰值聚类算法(Density PeaksClustering,DPC)启发,将密度峰值用于高置信度样本的选取,提出了密度峰值隶属度优化的半监督Self-Training算法(Semi-Supervised Self-Training Algorithm for Density Peak Membership Optimization, STDPM)。首先,STDPM利用密度峰值发现样本的潜在空间结构信息并构造原型树。其次,搜索有标签样本在原型树上的无标签近亲结点,将无标签近亲结点的隶属于不同类簇的峰值定义为簇峰值,归一化后作为密度峰值隶属度。最后,将隶属度大于设定阈值的样本作为高置信度样本,由基分类器赋予标签后添加进训练集。STDPM充分利用密度峰值所隐含的密度和距离信息,提升了高置信度样本的选取质量,进而提升了分类性能。在8个基准数据集上进行对比实验,结果验证了STDPM算法的有效性。
关键词密度峰值隶属度 簇峰值 原型树 近亲结点集 自训练
URL查看原文
收录类别CSCD ; 北大核心
ISSN1673-9418
语种中文
原始文献类型学术期刊
中图分类号TP181
来源期刊等级C1类
文献类型期刊论文
条目标识符http://ir.lzufe.edu.cn/handle/39EH0E1M/30080
专题信息工程与人工智能学院
作者单位1.兰州财经大学信息工程学院;
2.西北工业大学计算机学院光学影像分析与学习中心
第一作者单位信息工程与人工智能学院
推荐引用方式
GB/T 7714
刘学文,王继奎,杨正国,等. 密度峰值隶属度优化的半监督Self-Training算法[J]. 计算机科学与探索,2021,16(09):1-13.
APA 刘学文,王继奎,杨正国,李冰,&聂飞平.(2021).密度峰值隶属度优化的半监督Self-Training算法.计算机科学与探索,16(09),1-13.
MLA 刘学文,et al."密度峰值隶属度优化的半监督Self-Training算法".计算机科学与探索 16.09(2021):1-13.
条目包含的文件
条目无相关文件。
个性服务
查看访问统计
谷歌学术
谷歌学术中相似的文章
[刘学文]的文章
[王继奎]的文章
[杨正国]的文章
百度学术
百度学术中相似的文章
[刘学文]的文章
[王继奎]的文章
[杨正国]的文章
必应学术
必应学术中相似的文章
[刘学文]的文章
[王继奎]的文章
[杨正国]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。