![定性数据的统计分析](https://wfqqreader-1252317822.image.myqcloud.com/cover/619/23509619/b_23509619.jpg)
5 r×c列联表的概率
对于r×c列联表,可以有=r(r-1)/2个行对子和
=c(c-1)/2个列对子。假设行为a和b,列为c和d,概率
,r×c列联表一共有
个θ。实际上,我们只需要(r-1)(c-1)个概率
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0027_0012.jpg?sign=1739506940-2rkwu1Rfrq00Yr2XiifwiFov2ZXPqZwX-0-d4583544ccc907165df27c7f6506d151)
就能够决定变量是否相关。当(r-1)(c-1)个θ等于1时,个θ也必然等于1,两个变量相互独立。
当变量是定序的时,概率有三种类型(参见图1-2)。
1.局域概率
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0028_0001.jpg?sign=1739506940-tGgIqlDyf2Z45bpSJf7bM9SrjzDMRPk0-0-fbacf2311a5ecb24650ee3ee2e9d8b27)
该式由相邻的两行和两列的概率构成,用于检验列联表的“局域”相关。
2.行是局域、列是全域的概率
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0028_0002.jpg?sign=1739506940-TuqPWsc2kvbqoakcS5VfV0qryF5889Jh-0-e19ec69285cea3d9cc66d39a0981d824)
简单地说,概率由相邻两行的全部概率构成。如果
θ′≥1(或logθ′≥0),j=1,…,c-1
那么
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0028_0003.jpg?sign=1739506940-4XLde1ZrHEQZO3kskuZ9RXIfP45sdzCm-0-aabb6982a1f335e3f357424a15467fa3)
这表明i+1行的概率分布随机高于i行,即i+1行的较大概率处于列定序变量赋值尺度的高端。当应变量是定序的时,{}可用来比较两行的概率分布。
在学习对数线性模型和对数概率比回归模型时,以上两种θ是经常用到的统计量,可以说是贯穿全书的重要工具。
3.全域概率
将r×c列联表的行和列合并为2×2列联表,概率:
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0029_0001.jpg?sign=1739506940-hO6MRDV3rECQtgIQej4moVQoyYjgqhau-0-5c645f79cf45a5914d37a24b8a24288d)
图1-2(a)θij,(b),(c)
资料来源:Agresti,1984。
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0030_0001.jpg?sign=1739506940-W7gfstyRfshhLl3ieuB45cjGXxBxebCY-0-562e01d0677a75ab68240fdd4a742d7b)
是两个变量整体相关的量度。
显然,由于将相邻类别或层次进行不同合并,局域、局域-全域和全域概率不止一个。三个概率有以下关系:如果所有局域,那么所有局域-全域
。如果所有局域-全域
,那么所有全域
。对每一类型而言,如果所有对数概率等于0,则变量相互独立。我们应用表1-4的数据,说明三种定序变量的概率。表1-5包含三种样本的定序概率
,
,
,
,
,
分别表示局域概率、局域-全域概率和全域概率。统计结果如下。
(1)用接受大学教育和接受中学教育相比,家庭收入“中下”的人接受大学教育的概率是家庭收入“下下”的人的1.42 倍,家庭收入“中上”的人接受大学教育的概率是家庭收入“中下”的人的1.63 倍,家庭收入“上上”的人接受大学教育的概率是家庭收入“中上”的人的1.39倍。
(2)用接受大学教育和接受中、小学教育相比,家庭收入“中下”的人接受大学教育的概率是家庭收入“下下”的人的1.70 倍,家庭收入“中上”的人接受大学教育的概率是家庭收入“中下”的人的1.73倍,家庭收入“上上”的人接受大学教育的概率是家庭收入“中上”的人的1.44倍。
(3)用接受大学教育和接受中、小学教育相比,家庭收入“中下”、“中上”、“上上”的人接受大学教育的概率是家庭收入“下下”的人的2.37倍,家庭收入“中上”、“上上”的人接受大学教育的概率是家庭收入“下下”、“中下”的人的2.21倍,家庭收入“上上”的人接受大学教育的概率是家庭收入“下下”、“中下”、“中上”的人的2.25倍。
以上分析着重于家庭收入和接受高等教育的关系。实际上,表1-5的三组概率表明受教育程度的每一层次都与家庭收入密切相关,收入越高,家庭成员接受较高水平教育的比例越大。
表1-5 受教育程度和家庭收入的定序概率
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0031_0001.jpg?sign=1739506940-wChZq60KuIna0vXUkuOhoTsz8vYOX85f-0-804e3cff01feaaf3d3c7476a5ca753c3)
资料来源:中国社会科学院社会学研究所的社会调查。
是相邻两行的局域-全域概率,可以从另一角度证明以上的推论。公式1-6表明,当θ′≥1时,行(i+1)的概率分布随机高于行i,即行(i+1)在列的层次高端的概率大于行i在列的层次高端的概率。所以,随着家庭收入的增长,家庭成员接受较高水平教育的比例增大,家庭收入和受教育程度之间有线性增长的趋势。