2012年首都经济贸易大学统计学院应用统计硕士复试真题及详解
1.(20分)为分析受教育程度与收入之间是否有关系,某人计算了受教育年限与月收入之间的相关系数,发现相关系数很低,只有0.25,请问能否得出两者之间无关的结论,为什么?
答:相关系数r仅仅是自变量x与因变量y之间线性关系的一个度量,它不能用于描述非线性关系。r=0.25说明两个变量之间的线性相关程度极弱,可视为不相关。此处只能得出两者之间无线性相关关系,不能得出两者之间无关的结论。
2.(20分)某企业计划分析产品销售额是否受到促销方式、售后服务、产品价格、对销售员的售货的奖金提成、卖场的地理位置等因素的影响。请你为该企业提出建议,可以采取什么方法进行分析。
答:多元线性回归分析。把产品销售额作为因变量,促销方式、售后服务、产品价格、对销售员售货的奖金或提成、卖场的地理位置等因素作为自变量,建立多元线性回归方程。然后对回归系数进行检验,若系数显著不为零,则认为该系数对应的自变量对因变量的影响显著,否则不显著。
3.(20分)请简要说明利用回归分析与时间数列分析两种方法进行预测的应用条件。若对未来半年内的CPI进行预测,你建议采用什么方法?为什么?
答:利用回归分析进行估计或预测时,需要进行以下假定:
(1)因变量y与自变量x之间具有线性关系。
(2)在重复抽样中,自变量x的取值是固定的,即假定x是非随机的。
(3)误差项ε是一个期望值为0的随机变量。
(4)对于所有的x值,ε的方差σ2都相同。
(5)误差项ε是一个服从正态分布的随机变量,且独立。
不能用样本数据之外的x值去预测相对应的y值。因为在一元线性回归分析中,总是假定因变量y与自变量x之间的关系用线性模型表达是正确的。利用时间序列法进行预测时,时间序列应为非平稳时间序列,即时间序列含有不同的成分,如趋势、季节性、周期性和随机成分等。
若对未来半年内的CPI进行预测,建议采用时间序列预测法,因为对于CPI数据,它带有明显的时间属性,随着时间的变化,CPI数据也在不停的变化,采用时间序列预测法可以更好的考虑它的时间效应,如果采用回归分析,就不能很好的表达出时间因素对CPI数据的影响。
4.(20分)为了研究小麦品种和施肥方式对产量的影响,针对三种品种和两种施肥方式进行实验,得方差分析数据如下:
方差分析表
要求:根据上述数据回答以下问题:
(1)试写出与该检验对应的原假设与备择假设。
(2)说明品种、施肥方式及其交叉作用对小麦产量的影响是否显著。
解:(1)设不同品种的小麦种子的平均产量分别为。
提出假设:H0:μ1=μ2=μ3,H1:μ1,μ2,μ3不全相等
设不同施肥方式的小麦平均产量分别为。
提出假设:,
(2)由于P-value=0.0000<α=0.05,拒绝原假设。表明不同品种的种子对小麦产量的影响有显著差异。
P-value=0.0000<α=0.05,拒绝原假设。表明不同施肥方案对小麦产量的影响有显著差异。
P-value=0.3793>α=0.05,不拒绝原假设。没有证据表明不同的品种和不同的施肥方式对小麦产量有交互影响。
5.(20分)案例分析:
某汽车经销商委托某高校统计学院调查研究某城市对家用轿车的需求分析,希望从家庭收入、家庭人口、家庭所在地、住房面积、家庭成员所从事职业等方面分析这些因素对家用轿车需求量的影响,并要求进行定量分析,建立统计模型,该模型能够用于统计预测。该学院研究人员经多次与经销商沟通,设计出调查问卷,准备进行抽样调查。初步提出以下两种抽样调查方案:
方案一:充分利用学校学生众多的优势,展开调查。具体做法是:根据学校学籍登记表得到学生学号,从中随机抽取一定量的学生,针对这些被抽中学生的家庭进行问卷调查;
方案二:安排该校学生进行街头拦截访问,随机拦访一定量的行人。
根据以上资料,回答以下问题:
(1)请说明该抽样调查中调查总体是什么?理想的抽样框和抽样单位是什么?
(2)请说明上述三种抽样方案各是什么抽样方法,并评价其优劣;
(3)请根据上述资料提出你认为比较合理的抽样方案。
答:(1)该调研中调查对象总体是该市的所有家庭户。
理想的抽样框应当包括该市所有家庭户的信息。抽样单位是该市的每一家庭户。
(2)方法一:分层抽样
分层抽样保证了样本中包含有各种特征的抽样单位,样本的结构与总体的结构比较相近,从而可以有效地提高估计的精度;分层抽样在一定条件下为组织实施调查提供了方便,不仅可以对总体参数进行估计,还可以对各层的目标量进行估计。
方法二:整群抽样
此处采用这种方法抽样框可能没有包括该市所有的家庭户。
方法三:方便抽样
由于方便抽样的抽样单位带有随意性,因此,方便抽样无法代表有明确定义的总体,将方便抽样的调查结果推广到总体是没有任何意义的。因此,采用方便抽样得到的调查结果不能用来对该市所有家庭户对家用轿车需求量的统计预测。
(3)认为比较合理的抽样方案应为方案一。