大话统计学(溢彩实训版):基于R语言+中文统计工具
上QQ阅读APP看书,第一时间看更新

1.2 统计学的基本概念

定义:总体(population)是要研究的数据的全体对象。

例如:我们要研究公司的薪资所得,则全体员工就是总体。

定义:对“全部”总体进行调查,称为总体普查(population census)。

通常总体普查要花费相当大的人力、时间与金钱。有时要找到全部总体非常困难。在质量管理的检验中,有的是破坏性检验,总体普查以后,全部产品都会报销。

定义:总体的基本成分,称为个体总体单位(unit)。

个体或单位可能是人、动物或商店等。例如:学生、产品、员工、消费者等。

定义:取出总体的“部分”个体,称为抽样(sampling)。抽样出来的个体集合,称为样本(sample)。

定义:样本的数目称为样本量样本容量(sample size)。

根据抽样的方法,总体分为有限总体和无限总体,如果总体单位的数目是有限的,每个样本抽出后不放回(不重复),且样本量和总体单位数目的比例大于10%,则为有限总体

定义:标志是总体单位的属性特征(characteristic)的名称。

标志分为:不变标志可变标志。不变标志是总体构成的基础,例如:对两个总体进行检验,分辨两个总体的标志,如性别、地区、处理方法等,是不变标志。可变标志是要进行统计(叙述、概率、推论)的个体的特征。例如:学生的成绩、产品的重量、员工的薪资、消费者购买的品牌、零件是否为良品等。可变标志通称为变量

标志又分为:质量标志数量标志,质量标志是定性的标志,数量标志是定量的标志。上述品牌、良品、支持的候选人是质量标志。成绩、重量、薪资是数量标志。图1.1的方差分析检验不同老师的学生成绩的平均数是否相等。老师称为“因素”就是质量标志。不同的老师是因素的“水平”,可视为不同的总体,每个总体的教师是不变标志。“观测值”的名称(学生成绩)就是数量标志。

图1.1 质量标志和数量标志

标志有标志名称,如教师、学生成绩;有标志值,如教师1、教师2、学生成绩值。

定义:统计指标(indicator)是:说明总体数量特征的名称及数值,例如国内生产总值、总人口数等。

在第2章描述统计,量数(measure)是总体的数量特征也是指标,例如集中趋势量数。

指标又分为:总量指标、相对指标、平均指标和变异指标。完整的指标应具备:时间限制、空间限制、指标名称、统计数值、计量单位等五个构成要素。

定义:变量(variable)分为:可变标志和统计指标,前者是总体单位(个体)的变量,后者是总体的变量。

本书的变量,多数是指个体的变量。例如:总体是某一班级(不变标志)的学生,变量是学生的性别、分数、身高等。

变量有数量(quantitative)变量和质量品质(qualitative)变量。(请见1.7.2节)

定义:数据(data)是变量的观测值或计算值。包括:总体的数据和个体的数据。总体的数据经计算产生参数,个体的数据经计算产生统计量。

定义:总体变量数据的衡量值,描述总体特征的数值,称为参数(parameter)。

统计的参数有:平均数(均值)、方差、标准差、比例等。

定义:样本变量数据的衡量值,描述样本特征的数值,称为统计量(statistic)。

参数或统计量是:总体或样本的变量数据的一个衡量值,是变量的公式。

如果总体普查是不可行的,则参数是未知的(固定)常数。

统计学主要名词关系表,如图1.2所示。

图1.2 统计学主要名词关联

例题1.5 大学生英文较差。

2012年,中国台湾学生报考多益(TOEIC)英文测验的平均总成绩是539分,其中大学生平均总成绩是504分,高中生平均总成绩是582分。大陆报考多益测验的学生平均总成绩是747分。中国台湾的大学生输给中国台湾高中生78分,中国台湾的大学生输给大陆学生208分。为什么中国台湾的大学生英文比较差?

因为,中国台湾的大学将多益测验列为毕业门槛,大学生一定要考,报考人数有12.8万人,这是普查中国台湾大学生的英文水平。高中生报考是为考试进大学,英文程度好的才会报考,报考人数只有3.4万人。全球每年报考多益测验的人数达700万,大陆报考人数未知。中国台湾报考多益的高中生不能代表所有高中生总体,大陆报考多益的大学生是否代表所有大陆大学生的总体?

例题1.5说明完整的指标应具备:时间限制(2012年)、空间限制(中国台湾的大学生)、指标名称(平均总成绩)、统计数值(504)、计量单位(分数)等五个构成要素。其实还有一个构成要素就是容量限制:总体容量和样本容量(每年大学生的人数和报考人数)。

常用的参数和统计量的符号如表1.1,更完整的参数和统计量的符号表,在表16.1。

表1.1 总体与样本的符号