![非参数统计:基于R语言案例分析](https://wfqqreader-1252317822.image.myqcloud.com/cover/277/25370277/b_25370277.jpg)
2.2 分位数检验与
的估计
二项检验可以用来检验有关随机变量分位数的假设,即所谓的分位数检验。二项检验只需要弱名义尺度来度量,度量尺度对于分位数检验而言至少是次序尺度。因为分位数几乎与度量的名义尺度没有关系。
若被检验的随机变量是连续的,检验的假设是:
H 0:X的P*分位数是指定的x*
根据分位数的定义,这就等价于
H 0:P(X≤x*)=p*
用p代表未知的概率P(X≤x*),则H0就可写成:
H 0:p=p*
检验统计量等于样本值小于或者等于x*的个数,可以用双边二项检验。
若被检验的随机变量不是连续的,此时零假设就变为:
H 0:X的P*分位数是x*
这就等价于
H 0:P(X≤x*)≥p*和P(X≤x*)≤p*
2.2.1 分位数检验
X 1,X2,…,Xn是一组随机样本,数据由Xi的观测值组成。假定这些Xi是随机样本,度量尺度至少是次序的。检验过程中用到两个检验统计量T1,T2。令T1等于观测值中小于等于x*的个数,T2等于观测值中小于x*的个数。那么当数据中没有严格等于x*的数时,则T1=T2,否则T1>T2。
检验统计量T1和T2的零分布是二项分布,参数n是样本量,p=p*和零假设相同。在二项分布表中给出了n≤20和选定p值时的零分布。对于其他n,p值,用正态分布逼近。
T的近似分位数xq为
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_49_1.jpg?sign=1739355252-WSg8o5EwSoIB1UEM9M4bxf0cHtbr8hI2-0-c00898e6cfd9f7a66cb0170f0069d019)
zp是标准正态随机变量的q分位数。
令x*,p*为指定的值,0<p*<1,则假设可能有以下双边检验、左边检验以及右边检验三种形式。
1.双边检验
H 0:第p*个总体的分位数为x*
这等价于H0:P(X≤x*)≥p*和P(X<x*)≤p*,其中X与样本中的Xi有相同的分布。
H 1:第p*个总体的分位数不是x*
拒绝域对应于T2其值太大,说明可能P(X<x*)>p*,或对应于T1其值太小,说明可能P(X≤x*)<p*。拒绝域可以通过二项分布表,样本量n以及假设概率p*得到。找到t1,使得
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_49_2.jpg?sign=1739355252-nAJmfjscMEBxzWCGm5YadLpita1ZM1Ej-0-7ac2127839a8f8140dd7779d466a46ac)
Y服从参数为n和p*的二项分布,α1是显著性水平的二分之一。找到t2,使得P(Y≤t2)=1-α2。选α2使得α1+α2大约等于给定的显著性水平。若T1小于等于t1,或者T2大于等于t2,拒绝H0,否则不拒绝H0,显著性水平等于α1+α2。
对于n>20或者二项分布表中没有的p*值,分别令q=α/2,q=1-α/2,由(2-20)式求出t1=xα/2以及t2=x1-α/2。
p值是二项随机变量Y小于等于观测值T1,或大于等于T2的概率中较小值的两倍,当n≤20,p=p*时,可以从二项分布表中查出,对于n>20,用正态分布表,用
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_50_1.jpg?sign=1739355252-fIGqXUHYf6DUVlANZjih4PdIWG03O6ZJ-0-095ccf60e8c81e0c1b7792cb7423fb83)
和
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_50_2.jpg?sign=1739355252-MXFFj3FWSO28NTWmQkEXnwdpJX6xk0ZV-0-58168022239bfa2202325a1c9ea514e9)
两式与0.5作为“对连续性的修正”,来改进正态对二项分布的逼近。
2.左边检验
H 0:总体的p*分位数不大于x*
这等价于H0:P(X≤x*)≥p*。
H 1:总体的p*分位数大于x*
这等价于H1:P(X≤x*)<p*。
T 1的值较小时,表示H0是假的,所以用样本量n和特定的概率值p*在二项分布表中得到t1,使得
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_50_3.jpg?sign=1739355252-sj38RMzeinVwh2UnYsGHCcFRMOO88uSl-0-962e0a4739e5d13e4113cdbb2e1bfce7)
对于可以接受的水平α,其中Y服从参数为n和p*的二项分布。如果T1小于等于t1,则拒绝H0。如果T1大于t1,则接受H0。当n>20时,在(2-20)式中令q=α,得t1=xα。
p值等于二项随机变量Y小于等于观测值T1的概率,当n≤20,p=p*时,可以从二项分布表中查出;对于n>20,用(2-22)式,它可以从正态分布表中得到。
3.右边检验
H 0:总体的p*分位数大于等于x*
这等价于H0:P(X≤x*)≤p*。
H 1:总体的p*分位数小于x*
这等价于H1:P(X<x*)>p*。
由于较大的T2表示零假设是假的,在二项分布表中,把样本量n和假设的概率p*作为p,得到t2,使得
P(Y>t2)=α
对可接受的显著性水平α,它等同于
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_50_4.jpg?sign=1739355252-rh64EVtFLDERRs16hHE2YnYWoV1a1pLT-0-2b971033ee2ffda9026fd5c0714d7ab0)
如果T2大于t2,则拒绝H0。如果T2小于等于t2,则接受H0。对于n>20,在(2-20)中令q=1-α,得t2=x1-α。
p值是二项随机变量Y大于等于观测值T2的概率,当n≤20,p=p*时,它可从二项分布表中查出;对于n>20,用(2-23)式,它可从正态分布表中得到。
举例说明分位数检验的过程。表2-1显示了28位同学某门课程的成绩,请问80是否可以作为学生成绩的3/4分位数?显著性水平为0.01。
表2-1 学生成绩
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_51_1.jpg?sign=1739355252-e8hWE4vk3KggZBm8xMwLKn8EeY4f5YrM-0-2ef04ec8e14e477e9bcdcf9f361655ca)
假设检验的问题是:H0:3/4分位数是80。
备择假设是:H1:3/4分位数不是80。
用双边分位数检验。显著性水平为0.01的临界域可以通过二项分布表查到,此时n=15,p=0.75。此例中T1等于13,p的值是2·p(Y≤13)=0.002 2<α=0.01,因此拒绝零假设,认为3/4分位数不是80。
2.2.2 分位数的置信区间
数据由独立同分布的随机变量X1,X2,…,Xn的观测组成,X(1)≤X(2)≤…≤X(r)≤…≤X(s)≤…≤X(n)为次序统计量,1≤r≤s≤n。希望找到p*(未知的)分位数,p*是0到1之间的某个指定数。
1.假定条件
(1)X1,X2,…,Xn是随机样本。
(2)Xi的度量尺度至少是次序的。
2.小样本
对于n≤20可以用二项分布表来寻找r与s。在二项分布表中,令p=p*和样本量n,沿着p=p*的量向下找,直到有近似等于α/2的值,此时,1-α近似于给定的置信系数,称这个近似值为α1,相应的y值(远离α1左边)是r-1,加1得到r。然后继续沿着这列向下找,直到有近似等于1-α/2的值,成为1-α2。对应1-α2的y值,记作s-1,加1得到s。这样就得到了α1,α2,r,s。准确置信系数是1-α1-α2,区间估计量是X(r),X(s)之间的区间,而X(r),X(s)可以从数据中得到。那么,
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_51_2.jpg?sign=1739355252-ryU3ftSFEoQ55pQ1z6oz1QTl5F7FWilv-0-b0dbd07d0beefac95fc5a306ebd1aca4)
给出了置信区间。如果假设未知的分布函数是连续的,那么,
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_51_3.jpg?sign=1739355252-0BNuM9COLTVgY0iNUY5MezcywHfO4dOC-0-fd57fe348454c3d838c68e50f107a7b7)
3.大样本近似
对于n大于20,可以用基于中心极限定理的逼近计算
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_51_4.jpg?sign=1739355252-W6wKdamGTnHxbj5SQRyii9uhIGYuWKQ2-0-068ce522c70af2e081ad084c44006953)
和
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_51_5.jpg?sign=1739355252-zIYbCY4d6bMeBhqnIBqsfwyGE1084hZP-0-04549309f937fe08d9b1ba054c0e6381)
其中,分位数zq从正态分布表找出,1-α是给定的置信系数。一般地,r*,s*不是整数。令r和s是r*,s*向上取整的整数,则(2-31)式给出了近似置信区间,如果位置分布函数是连续的,则近似置信区间由(2-29)式给出。
如上所述,单边的置信区间可以通过只找r或s得到,单边置信区间为
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_51_6.jpg?sign=1739355252-5uKgMuKwrF50w6sQg9BS8zyuzauBAfAY-0-038fb6fffc89c6e399171131e4161033)
和
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_1.jpg?sign=1739355252-YDtbxlZCVLU1lhIvuH5S8lDZG3RRuqQJ-0-4298d6a1e88865462e26d18df862a611)
如果分布函数是连续的,则为
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_2.jpg?sign=1739355252-dOkWpujVJx8iCZ3jasyF1wu3MY1XEykD-0-859688e5f5eaf872c76718ded37d456e)
和
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_3.jpg?sign=1739355252-jOGnfx5oUWzETVdUCg2VcDuxelw4ZuB2-0-cf6d8c8efa9e0ef63a840773266b44d6)
首先考虑分布函数是连续的情况,这种情况比较简单。如果xp*是p*分位数,则有如下关系
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_4.jpg?sign=1739355252-NG5QuChGi2vCiMm9ByqCNzSlfJYhbouh-0-6d6dc3fb057441a3c341884bb7521e17)
其中,X的分布函数与随机样本的分布函数一样。
假设次序统计量X(1)大于某个确定的常数,只要样本中最小的数都大于这个常数,即只要样本中n个值都大于这个常数,X(1)就大于这个常数,选择xp*作为这个常数,可以得到
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_5.jpg?sign=1739355252-7SIgVjWnYOUlZz6Db58C3MPRI9SlpRFS-0-c973d0534da7e9c27ca7624b615b048b)
因为Xi独立,它们有同样的p*分位数xp*。
如果xp*小于X(2),那么X(1)≤xp*<X(2)中,恰有n-1个观测值大于xp*,或者在xp*<X(1)<X(2)中,有n个观测值大于xp*,所以
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_6.jpg?sign=1739355252-t6HSrYflpNrg6l5Nq49cNOZAxGeA5GDK-0-afe9edbccf23697bc819425b60f3714b)
现在,(2-36)式中的概率由二项分布函数给出,因为每个Xi都有小于等于xp*的概率p*,且Xi是互相独立的,所以由上式可以得到
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_7.jpg?sign=1739355252-vcM3gDmyFTa0TQPsjvEz90FU0yQdVahS-0-39ec02d286cafc51cafef805099395c7)
在二项分布函数F(x)=P(X≤x)=∑i≤x(ni)piqn-i下,则之前的讨论可以做如下推广:
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_8.jpg?sign=1739355252-Xrz7O9qPwOCo89290J0zfvIdO2GulR84-0-def527daefaba7e98f96209fdf948730)
置信系数由下式得出
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_9.jpg?sign=1739355252-T5JaeIPBkD4jUibDpuUmoMy93W5LYCkk-0-cbee468ea5b0b57f0292616cec06c93a)
从而,由(2-38)式和二项分布表可以得到r、s的值,使得
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_10.jpg?sign=1739355252-kPpgOaBbR33vHBXUdwuTdd4BoYubSnNE-0-559ec75084c879e5feec8e1a91d834ed)
和
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_53_1.jpg?sign=1739355252-fFq6MLzINQY4PCnFID2QjQNE0HaeMygZ-0-11d5bf76da77fbb6bb4a21f9a27eb441)
则置信系数是1-α1-α21-α。注意,因为假设分布函数是连续的,我们有
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_53_2.jpg?sign=1739355252-ywfyjc6Zvh7xTRPHMX9GSvQe12qIO961-0-6b5f0246116f6929df19aa19c582ee44)
因此,可以用二项分布表得到s。
如果X与Xi的分布函数都不是连续的,(2-42)式不成立。由离散随机变量的定义,我们有
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_53_3.jpg?sign=1739355252-rtMINKzhmeE5bDWYkEawVUYCK5o9DZfo-0-ea2ffd0b9ce88bc5d2c3cdc20aa0bb7f)
和
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_53_4.jpg?sign=1739355252-jeAT3sMSlj6VRP7sVH0hlCStlBIl852f-0-b085c0385d6a4c143b54a2e7684342f9)
首先,我们考虑(2-43)式是如何影响(2-38)式,进而影响(2-41)式求r的方法的。因为(2-43)式成立,每个观测值大于xp*的概率小于当X是连续时的值,所以,每个次序统计量大于xp*的倾向,小于X为连续时的情形。即概率P(xp*≤X(r))小于X为连续时(2-38)式给出的值。所以一般情况下,下式成立
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_53_5.jpg?sign=1739355252-iMRuf0Sw70cTOZYSdPmtNsDoZWiTNcaU-0-985e7b0e0dea69dc6b82845f06081fed)
如果用上面介绍的方法从二项分布表中找r,那么
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_53_6.jpg?sign=1739355252-83ws7hlLfibZY28S9iZPlc0kAGYPiJ97-0-3e0ab60e8d04799903f795ac452f0524)
现在,我们考虑(2-44)式是怎样通过选择s的值来得到概率1-α2的。因为(2-44)式成立,每个观测值大于等于xp*的概率大于X为连续时的概率,所以观测值大于等于xp*的个数比X为连续时的多,xp*≤X(s)的概率大于X为连续时的情况。因此,(2-38)式可以改为适用于一般情况的式子
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_53_7.jpg?sign=1739355252-mGnKCjW00KqP32oIZM0c9CKsFrSrKVCI-0-a753f1b7dcd876a85ed96a3f6f695628)
所以,如果用先前的方式在二项分布表中找s,我们有
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_53_8.jpg?sign=1739355252-yD01jmuyvGG8A2eTgBjgXAuIjzOL4XTX-0-5e702a15d2e8d4525f578912012cd16e)
对于任何分布都成立的(2-46)和(2-48)式,可以按如下方式使用
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_53_9.jpg?sign=1739355252-1u4CqX7HhfJSwjfQJHSY3Nzxgp4y38Qd-0-020fa2a6ac6eafcfb9a7d75137841c02)
所以,这种方法对于离散随机变量或有结点的有序数据是保守的。因此,求分位数的置信区间的方法,对于有二项分布函数的精确表可用的情形可是可行的。
用大样本方法求r和s是基于标准正态分布近似二项分布的想法,虽然关于怎样由r*,s*求得整数r,s的方法还有不同的争论,但是,此处给出的直接向上取整的方法是个很接近的近似。