密度峰值优化的球簇划分欠采样不平衡数据分类算法
刘学文1; 王继奎1; 杨正国1; 李强1,2; 易纪海1; 李冰1; 聂飞平3
2022-03-14
发表期刊计算机应用
卷号42期号:05页码:1-10
摘要

在集成算法中嵌入代价敏感和重采样方法是一种有效的不平衡数据分类混合策略。针对现有混合方法中误分代价计算和欠采样过程较少考虑样本的类内与类间分布的问题,提出了一种密度峰值优化的球簇划分欠采样不平衡数据分类算法(DPBCPUSBoost)。首先,利用密度峰值信息定义多数类样本的抽样权重,将存在“近邻簇”的多数类球簇划分为“易误分区域”和“难误分区域”,并提高“易误分区域”内样本的抽样权重;其次,在初次迭代过程中按照抽样权重对多数类样本进行欠采样,之后每轮迭代中按样本分布权重对多数类样本进行欠采样,欠采样后的多数类样本与少数类样本组成临时训练集并训练弱分类器;最后,结合样本的密度峰值信息与类别分布为所有样本定义不同的误分代价,并通过代价调整函数增加高误分代价样本的权重。在10个KEEL数据集上的实验结果表明,与现有自适应增强(AdaBoost)、代价敏感自适应增强(AdaCost)、随机欠采样增强(RUSBoost)和代价敏感欠采样自适应增强(USCBoost)等不平衡数据分类算法相比,DPBCPUSBoost算法在准确率(Accuracy)、F1分数(F1-Score)、几何均值(G-mean)和受试者工作特征曲线下面的面积(AUC)指标上获得最高性能的数据集数量均高于对比算法。实验结果验证了DPBCPUSBoost中样本误分代价和抽样权重定义的有效性。

关键词不平衡数据分类 密度峰值 球聚类 代价敏感 欠采样
URL查看原文
收录类别CSCD ; 北大核心
ISSN1001-9081
语种中文
原始文献类型学术期刊
中图分类号TP311.13
来源期刊等级C2类
文献类型期刊论文
条目标识符http://ir.lzufe.edu.cn/handle/39EH0E1M/31876
专题信息工程与人工智能学院
作者单位1.兰州财经大学信息工程学院;
2.甘肃省电子商务技术与应用重点实验室;
3.西北工业大学计算机学院光学影像分析与学习中心
第一作者单位信息工程与人工智能学院
推荐引用方式
GB/T 7714
刘学文,王继奎,杨正国,等. 密度峰值优化的球簇划分欠采样不平衡数据分类算法[J]. 计算机应用,2022,42(05):1-10.
APA 刘学文.,王继奎.,杨正国.,李强.,易纪海.,...&聂飞平.(2022).密度峰值优化的球簇划分欠采样不平衡数据分类算法.计算机应用,42(05),1-10.
MLA 刘学文,et al."密度峰值优化的球簇划分欠采样不平衡数据分类算法".计算机应用 42.05(2022):1-10.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
密度峰值优化的球簇划分欠采样不平衡数据分(1005KB)期刊论文作者接受稿暂不开放CC BY-NC-SA请求全文
个性服务
查看访问统计
谷歌学术
谷歌学术中相似的文章
[刘学文]的文章
[王继奎]的文章
[杨正国]的文章
百度学术
百度学术中相似的文章
[刘学文]的文章
[王继奎]的文章
[杨正国]的文章
必应学术
必应学术中相似的文章
[刘学文]的文章
[王继奎]的文章
[杨正国]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。