于金钊:高维生存模型下可重复性变量选择方法的研究
于金钊,曾就读于中南财经政法大学统计与数学学院2020级数理统计专业,2024年6月获得理学博士学位,指导教师为赵慧教授。2023-2024学年中南财经政法大学优秀博士学位论文获得者。
研究背景:在生物医学、工程可靠性、经济学、社会学等相关研究中,人们常常对诸如生命体存活寿命、机器设备使用期限、某种经济社会现象延续时间等问题的推断感兴趣。但是由于各种主客观条件的制约,对这些时间往往难以精确观测,从而产生各种数据删失现象。同时,随着信息技术的快速发展,获取数据的成本降低,使得高维数据大量涌现。删失和高维交织在一起给数据分析带来极大挑战,如何在大量潜在解释变量中挖掘对响应变量有重要影响的解释变量成为当下统计学研究中的一个重要课题。一方面,在高维背景下,稀疏性是一个常用的假定,也就是假定只有少数协变量会对响应变量产生真正影响。当变量维数较高且相关性较强时,很多变量选择方法难免在进行变量选择的同时引入一些无关特征,也就是存在假阳性的问题,这无疑增加了错误发现的几率。而筛选结果中错误发现的占比过高会进一步影响筛选结果的可重复性。另一方面,一个好的变量筛选方法应尽可能多地识别显著特征,这涉及检验的功效问题。在样本量有限时如何利用已有的数据信息高变量筛选的统计功效也是十分重要的课题。
研究意义:本文在生存模型和删失数据下提出更加完善的变量选择方法,使得FDR能够得到有效控制,并且从理论上对变量选择结果的统计功效进行分析,是一项具有重要理论研究价值和广泛应用价值的课题。
主要内容:本文采用多重假设检验中常用的度量标准---错误发现率来衡量筛选结果中假阳性占比的情况,并基于右删失数据以及常见的生存模型,在变量选择的过程中控制错误发现率,并尽可能保证较高的检验功效。本文的研究内容可分为三个部分:第一、加速失效时间模型下的可重复性变量选择方法;第二、基于Cox比例风险模型的可重复性变量选择方法研究;第三、可加风险模型下基于数据分割的可重复性变量选择方法研究。
主要创新点:
1.基于加速失效时间模型提出了可重复性变量选择方法;
2.基于Cox比例风险模型提出了可重复性变量选择方法;
3.基于可加风险模型提出了可重复性变量选择方法。