收藏本站
《南开大学》 2014年
收藏 | 手机打开
二维码
手机客户端打开本文

稳健统计推断和超高维数据的若干研究

冯龙  
【摘要】:在过去二十年里,由于可以减少参数模型带来的模型偏差,非参数模型被广泛应用于实际数据中。局部多项式回归(Fan and Gijbels1996)是非参数回归模型里面最常用的一种方法。但是它的估计效果受到厚尾分布和异常点的影响。为此,我们需要开发出稳健的非参数回归方法和对应的检验方法。稳健统计学目的是提出一种在多数分布或者有异常点的情况下仍然有效的统计方法。传统的稳健统计方法,如M-估计、L-估计、R-估计,已经被广泛应用于统计的一些问题中且具有很多优良的性质。在本论文的第一部分,我们把传统的R估计的方法推广到非参数模型上。 过去十年里,各行业产生了大量的高维数据,如高光谱图像、互联网、基因分析、DNA。高维数据的一个重要特性就是当样本量n变大时,样本的维数p也会变大且有时超过样本量n。这给传统的统计方法和理论带来很大的挑战。传统的一些检验统计量,比如Hotelling's T2检验统计量,在高维情况下并不可用,因为此时的样本协方差矩阵并不可逆。另一方面,由于样本估计量只是根号n相合,这也会导致统计量有一个不可忽略的偏差。因此,我们需要开发出新的检验方法来解决这类问题。在本论文的第二部分,我们主要关注这类高维检验问题。 在本论文的第一部分,我们针对非参数模型提出一些新的稳健统计方法。本文主要针对如下一些问题上展开研究:一些非参数模型的估计、变量选择和假设检验。本文引入并开发各种新的稳健统计技术,紧密结合传统的秩统计量,解决这些重点难点问题.下面我们依次简要介绍. 加权秩L1范数常被用于构造R估计,其中ri是|εi|在|ε1|….,|εn|中的秩。它等价于 但是Wn并不能直接用于构造非参数回归函数的估计量,因为截距项并不影响Wn的值。如果残差服从对称分布,我们可以基于Rn来构造一个新的稳健有效的估计量。为此,在第一章第一节,基于Walsh平均损失函数Rn(ε),我们提出一种新的稳健估计方法-局部Walsh平均回归。理论结果也显示新的估计量服从渐进正态且非常有效。尽管Wn不能直接用来估计截距项,但是我们可以基于它来估计非参数模型里的回归系数。在第一章第二节,基于秩回归Wn(£)的思想和外积梯度方法OPG (Xia2006),我们对单指标模型提出了一种新的稳健估计方法ROPG。在第一章第三节,我们把这种秩回归的方法推广到变系数模型上。首先,基于Wn和多项式样条的方法,我们提出了一种新的稳健变系数估计量-秩样条估计。然后,在此基础上结合SCAD方法(Fan and Li2001)提出了一种新的稳健变量选择方法RSSCAD。理论结果表明RSSCAD能一致的选出有效变量且具有良好的oracle性质。理论上,我们证明了这些基于秩的方法都具有很高的估计有效性。它相对于传统最小二乘方法的渐进相对效率和传统的Wilcoxon检验相对于t检验的渐进相对效率一致。模拟结果进一步证明了我们的方法在残差偏离正态时效果要比传统的最小二乘方法好。 在非参数模型推断中有一个很重要的问题是传统的参数模型是否已经足以拟合数据。为此,Fan, Zhang and Zhang (2001)提出了广义似然比检验统计量。但是他们的检验方法是基于局部多项式回归,从而也并不稳健。为此,在第二章第一节,我们提出一种新的基于Rn(ε)的Wilcoxon型广义似然比检验统计量WGLR。在一些常用的零假设下,我们证明WGLR仍然具有Wilks现象,即分布服从渐进正态且并不依赖于讨厌参数和协变量。它相对于广义似然比检验的渐进相对效率仍然和传统的Wilcoxon检验相对于t检验的渐进相对效率一致。在厚尾分布情况下,我们的检验方法要比广义似然比具有更大的功效。多个回归曲线的比较也是很重要的一个统计问题。在第二章第二节,我们把这个新的检验方法用到两样本函数检验问题上。此时Wilks现象仍然成立。这也进一步证明了我们方法的广泛性。 在本文的第二部分里,我们着重研究高维数据检验问题。我们主要针对如下一些重要问题上展开研究:回归系数全局检验、单样本和两样本均值检验。本文开发出一些新的高维检验的方法来解决这些问题。下面我们依次简要介绍。 单样本和两样本均值检验是一个传统的统计问题。但是在高维数据下,传统的Hotelling T2检验并不适用。一个自然的解决办法就是用欧式距离来代替Hotelling T2检验统计量中的马氏距离(Bai and Saranadasa1996; Chen and Qin2010)。但是,这类方法有如下三个缺点: 第一,这些检验统计量并不具有刻度不变性。Srivastava, Katayama and Kano(2013)通过把p个一维的Fisher检验统计量相加提出了一种刻度不变性的检验统计量.但是,它必须要求维数p=o(n2)。当维数更高时,它就会出现一个不可忽略的偏差。这个偏差将直接影响检验的水平和功效。在第三章第一节中,针对Behrens-Fisher问题,我们提出一种新的具有刻度不变性的检验统计量。新的统计量相对公平地整合了所有变量之间的信息。此时我们可以允许维数p几乎达到n3。这大大提高了我们的方法的适用范围。模拟结果显示我们的方法更好的控制了第一类错误概率且具有更高的功效。 第二,这些检验统计量都基于多元正态分布假设或者发散因子模型,从而对厚尾分布并不是很稳健和有效。这就启发我们开发一种新的基于空间统计量(Oja2010)的稳健检验方法。在第三章第二节中,我们基于空间符号统计量的方法提出一种新的高维两样本检验统计量。在椭球分布假设下,它仍具有渐进正态性。由于通过运用观测值的方向,而不是观测值本身,我们提出的方法在厚尾分布时会更加稳健。模拟结果显示这类基于空间符号统计量的高维检验统计量非常稳健和有效,尤其在厚尾分布和偏态分布下。 第三,这些检验统计量并没有利用变量之间的相关性,从而并不非常有效。在第三章第三节中,我们提出复合T2检验统计量来解决这个问题。首先,我们逐步地选取相关性较强的K个变量组合。然后,我们把这些K个变量组合的Hotelling T2检验统计量加起来得到新的检验统计量。理论分析表明它仍具有渐进正态性且允许维数几乎是样本量的指数次幂。这个新的检验统计量具有传统Hotelling T2检验的一些优良性质但没有由于样本协方差估计带来的偏差。由于考虑了变量之间的相关性,我们的方法要比其他已有方法要好很多。 在基因分析中,一个重要问题是如何判断哪些基因与临床结果相关。最近,一种解决办法是基于变量选择,另一种解决办法是基于假设检验。在假设检验方法中,我们应该同时去检验多个基因对临床结果的影响,而不是仅仅考虑单个基因的影响。为此,在第四章第一节中,我们主要考虑高维线性模型的系数全局性检验。在高维数据中,由于样本协方差矩阵并不可逆,传统的F-检验并不可用。一类解决办法就是去掉F-检验统计量里的求逆部分。但是,这些基于F-检验的统计量一样会受到厚尾分布和异常点的影响。为此,我们基于秩回归Wn(ε)的方法提出一种新的检验统计量。理论和模拟结果都显示我们的方法在残差偏离正态时的表现要优于其他另外两种文献中的方法。 第五章总结了本文,并提出了一些今后的工作设想。 三个主要创新点如下: 第一,本论文把传统的秩回归方法运用到非参数模型和高维线性模型上。我们提出了局部Walsh平均回归来估计非参数模型并提出对应的Wilcoxon型广义似然比检验统计量来用于非参数模型检验问题。针对高维线性模型系数检验问题,我们提出了秩梯度得分检验的方法。 第二,我们针对高维两样本均值检验提出了基于空间符号统计量的检验方法。这个检验统计量满足刻度不变性且非常稳健。它在很多分布情况下都非常有效。 第三,我们针对高维均值检验问题提出了复合T2统计量。这个统计量极大的运用了变量之间的相关性,从而在变量相关性较强时效果很好。
【学位授予单位】:南开大学
【学位级别】:博士
【学位授予年份】:2014
【分类号】:O212.1

手机知网App
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026