“数字+”与统计数据工程系列讲座(九十二)1月3日华南理工大学贺建风教授来中心做讲座预告

发表时间:2025-01-02

报告题目:大数据背景下两阶段Leverage重要性抽样方法研究

报告人:贺建风

报告时间:2025年1月3日(周五) 10:50-11:30

报告地点:综合楼644会议室


报告人简介:

贺建风博士、教授、博士生导师,国家社科基金重大项目首席专家,现任广东省政协委员、民建华南理工大学支部副主委、华南理工大学经济与金融学院数量经济学系主任、广东省哲学社科重点实验室(数字乡村与文旅可持续发展实验室)副主任。主要研究方向为:大数据调查与经济计量分析,数字经济、共同富裕及地方债务风险统计测度与政策评估等。近年来,主持国家社科基金项目(重大1项、面上2项、青年1项),教育部人文社科基金项目、全国统计科学研究重大项目、广东省自科基金面上项目、广州市社科规划重大项目等国家级和省部级纵向科研项目20多项。主持广东省委财经委、广东省发改委、广东省财政厅、广东省统计局等地方政府部门横向课题20多项。在《统计研究》《数量经济技术经济研究》《数理统计与管理》《Applied Economics Letters》和《Computational Statistics》等期刊公开发表学术论文90多篇,其中多篇文章被《人大复印资料》、《高等学校文科学术文摘》、《人民智库》和“中国社会科学网”全文转载。


报告摘要:

大数据背景下,需要对传统的抽样调查技术进行改进,以应对数据结构变化的现实。以杠杆得分为入样概率的Leverage重要性抽样能够增加高杠杆值样本点被抽中的概率,但也增加了异常值选入抽样子集的风险,使得抽样估计偏离真实值。为了降低大数据异常值影响,提高大数据抽样子集估计的稳健性,本研究提出基于阈值自选择的两阶段Leverage重要性抽样方法。该方法第一阶段以样本距离的有序聚类识别稳健子集,使得用于二阶段抽样的样本更具代表性,第二阶段则是在稳健子集的基础上获得稳健抽样估计。模拟分析结果表明:本研究所提方法能够提升线性回归系数估计的精度,在漂移型、波动型和混合型离群值中均适用。实证分析中本研究所提方法在两个案例数据中拥有较小的预测值均方误差,有效降低了异常值的影响。