Institutional Repository of School of Information Engineering and Artificial Intelligence
基于可信度模型的重复主数据检测算法 | |
王继奎; 李少波 | |
2014-05-15 | |
发表期刊 | 计算机工程 |
期号 | 5页码:31-35+40 |
摘要 | 针对来源于多个业务系统的重复主数据影响主数据质量、主数据同步及主数据挖掘等问题,提出重复主数据检测算法fastCdrDetection。从数据可信度的角度出发,在考虑数据源可信度、数据最后更新时间及数据长度的基础上,建立主数据可信度模型,并实现可信记录生成算法。设计非递归的字符串相似度计算算法FiledMatch,解决了由中文简写、缩写、错误拼写造成的主数据重复问题,采用sourceKeys算法对来源于同一业务系统、具有同样业务主键的重复记录进行预处理,从而提高重复主数据检测效率。通过对某电网基建物资63万余条供应商存量数据及23万余条模拟数据进行实验,结果表明,与PQS算法相比,fastCdrDetection算法的召回率由74%提高到88%,准确率由61%提高到95%,证明了算法的有效性。 |
关键词 | 多数据源 重复主数据 可信度模型 检测算法 数据可信度 |
URL | 查看原文 |
收录类别 | 北大核心 ; CSCD |
ISSN | 1000-3428 |
语种 | 中文 |
CSCD记录号 | CSCD:5141320 |
来源期刊等级 | C2类 |
文献类型 | 期刊论文 |
条目标识符 | http://ir.lzufe.edu.cn/handle/39EH0E1M/2067 |
专题 | 信息工程与人工智能学院 |
作者单位 | 1.中国科学院成都计算机应用研究所; 2.贵州大学省部共建现代制造技术教育部重点实验室; 3.兰州商学院信息工程学院 |
推荐引用方式 GB/T 7714 | 王继奎,李少波. 基于可信度模型的重复主数据检测算法[J]. 计算机工程,2014(5):31-35+40. |
APA | 王继奎,&李少波.(2014).基于可信度模型的重复主数据检测算法.计算机工程(5),31-35+40. |
MLA | 王继奎,et al."基于可信度模型的重复主数据检测算法".计算机工程 .5(2014):31-35+40. |
条目包含的文件 | 条目无相关文件。 |
个性服务 |
查看访问统计 |
谷歌学术 |
谷歌学术中相似的文章 |
[王继奎]的文章 |
[李少波]的文章 |
百度学术 |
百度学术中相似的文章 |
[王继奎]的文章 |
[李少波]的文章 |
必应学术 |
必应学术中相似的文章 |
[王继奎]的文章 |
[李少波]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论