不平衡数据分类研究及在疾病诊断中的应用
张涛
2019-09-10
发表期刊黄河科技学院学报
期号5页码:15-22
摘要在实际生活中,不平衡数据往往是常态,比如医疗领域。在机器学习分类问题中,如果不考虑类别不平衡,直接构建机器学习模型往往会得出过于乐观甚至无用的分类结果。针对不平衡数据分类问题,从数据分布、模型算法和评估指标三方面提出处理方法。选取pima印第安人糖尿病数据集,应用SMOTE过采样技术处理数据,并构建随机森林模型和GBDT模型。然后选取查准率(precision)、召回率(recall)、f-度量(f1-score)和AUC(ROC曲线下面积)作为重要评估指标。最后通过实验结果的对比和分析,选取综合表现最好的GBDT模型,将其应用于疾病诊断系统,以期助力推动医疗领域的进步。
关键词不平衡数据 疾病诊断 随机森林 梯度提升机
DOI10.19576/j.issn.1008-5424.2019.05.005
URL查看原文
ISSN1008-5424
语种中文
文献类型期刊论文
条目标识符http://ir.lzufe.edu.cn/handle/39EH0E1M/10554
专题统计与数据科学学院
作者单位兰州财经大学统计学院
第一作者单位统计与数据科学学院
推荐引用方式
GB/T 7714
张涛. 不平衡数据分类研究及在疾病诊断中的应用[J]. 黄河科技学院学报,2019(5):15-22.
APA 张涛.(2019).不平衡数据分类研究及在疾病诊断中的应用.黄河科技学院学报(5),15-22.
MLA 张涛."不平衡数据分类研究及在疾病诊断中的应用".黄河科技学院学报 .5(2019):15-22.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
27597.pdf(2235KB)期刊论文出版稿暂不开放CC BY-NC-SA请求全文
个性服务
查看访问统计
谷歌学术
谷歌学术中相似的文章
[张涛]的文章
百度学术
百度学术中相似的文章
[张涛]的文章
必应学术
必应学术中相似的文章
[张涛]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。