Institutional Repository of School of Statistics
大数据下基于体积抽样的异常点诊断及估计问题 | |
梁晋雯1,2; 田茂再1,2,3,4![]() | |
2019 | |
发表期刊 | 数理统计与管理
![]() |
期号 | 2020-02页码:223-235 |
摘要 | 处理大规模数据集时,抽样是一种很受欢迎的有效方法。体积抽样作为一种联合抽样的方法,它是按照与矩阵平方的行列式成比例进行抽样。该方法在线性回归模型背景下能得到参数的无偏估计。然而也容易受到异常点的影响,本文感兴趣的是体积抽样受异常点影响的程度。基于数据删除模型和均值漂移模型构建统计量进行异常点诊断,结果发现体积抽样方法在某些情况下极易受异常点影响。但是在给定损失的条件下,比独立同分布抽样所需的子样本量更小,在此基础上,提出样本量的自适应选择方法。作为体积抽样的扩展,杠杆值体积抽样同样可以得到普通最小二乘线性模型参数的无偏估计,一个有趣的发现是使用杠杆值体积抽样,等权最小二乘估计结果比非等权最小二乘估计效果好。 |
关键词 | 大数据 体积抽样 异常点 最小二乘估计 |
DOI | 10.13860/j.cnki.sltj.20191013-003 |
URL | 查看原文 |
收录类别 | CSSCI ; CSCD |
ISSN | 1002-1566 |
语种 | 中文 |
来源期刊等级 | B类 |
文献类型 | 期刊论文 |
条目标识符 | http://ir.lzufe.edu.cn/handle/39EH0E1M/10986 |
专题 | 统计与数据科学学院 |
作者单位 | 1.中国人民大学应用统计科学研究中心; 2.中国人民大学统计学院; 3.兰州财经大学统计学院; 4.新疆财经大学统计与信息学院 |
第一作者单位 | 统计与数据科学学院 |
推荐引用方式 GB/T 7714 | 梁晋雯,田茂再. 大数据下基于体积抽样的异常点诊断及估计问题[J]. 数理统计与管理,2019(2020-02):223-235. |
APA | 梁晋雯,&田茂再.(2019).大数据下基于体积抽样的异常点诊断及估计问题.数理统计与管理(2020-02),223-235. |
MLA | 梁晋雯,et al."大数据下基于体积抽样的异常点诊断及估计问题".数理统计与管理 .2020-02(2019):223-235. |
条目包含的文件 | ||||||
文件名称/大小 | 文献类型 | 版本类型 | 开放类型 | 使用许可 | ||
31534.pdf(1875KB) | 期刊论文 | 出版稿 | 暂不开放 | CC BY-NC-SA | 请求全文 |
个性服务 |
查看访问统计 |
谷歌学术 |
谷歌学术中相似的文章 |
[梁晋雯]的文章 |
[田茂再]的文章 |
百度学术 |
百度学术中相似的文章 |
[梁晋雯]的文章 |
[田茂再]的文章 |
必应学术 |
必应学术中相似的文章 |
[梁晋雯]的文章 |
[田茂再]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论