【来源:山西省统计局】
总 体
总体(population),是所研究的全部个体或数据的集合,其中的每一个个体也称为元素(element,individual)。如,要研究北京市民对汽车限行措施的看法,总体便是全体北京市民对该问题的看法,每一个北京市民对该问题的看法便是构成该总体的个体,单个北京市民则是调查对象(object)。总体往往只有一个,一旦研究问题确定下来,总体也就确定了。所以说总体的特征是唯一确定的,但是是未知。
描述总体特征的概括性数字度量称之为总体参数(parameter),是研究者想要了解的总体的某种特征值。总体参数主要有总体均值μ、标准差σ、总体比例π等。
总体可以分为有限总体和无限总体。有限总体的范围能够明确确定,且元素的数目是有限的,称为总体容量,一般用N表示;无限总体所包括的元素其数目是无限的。
样 本
样本(sample),从总体中抽取的一部分元素构成的集合。同一个总体可以抽取出若干个样本组成集合,如从10000个北京市民中抽取出1000个人,有种抽法(不重复抽样情况下),每一种抽取方法得到的元素构成的集合都是样本。我们在获取数据的过程中,往往限于人力物力财力等因素,不可能穷尽所有抽取方法来搜集数据,研究者得到的一般都是这么多样本中的其中一个样本。所以,样本对于研究者而言是不唯一、不确定的,但是一旦收集到一个样本的数据,其特征就可以通过所收集到的数据刻画出来。因此,样本的特征是已知的。
描述样本特征的概括性数字度量称之为样本统计量(statistics),它是根据样本数据计算出来的一些量,是样本的函数。样本统计量主要有样本均值、样本标准差、样本比例等。构成样本的元素的数目称为样本容量或样本量(sample size),一般用表示。
统计方法
有了数据,就可以运用统计分析方法对其进行分析。统计分析数据的方法大体上可分为描述统计(descriptive statistics)和推断统计(inferential statistics)两大类。
描述统计是研究数据搜集、处理、描述及可视化的统计学方法,其内容包括如何取得研究所需要的数据,如何用图表形式对数据进行处理和展示,如何通过对数据的综合、概括与分析,得出所关心的数据特征。
推断统计则是研究如何利用样本数据来推断总体特征的统计学方法,内容包括参数估计(estimation)和假设检验(hypothesis test)两大类。
变 量
每天晚上收看天气预报,你会发现今天的气温与明天的气温不同,今天是晴天,明天可能就是多云转阴;股票市场上的上证股指天天在变化;每个在职工作人员从事的职业不同、月收入不同;每个人的文化程度也不相同。这里的“天气温度”“天气形势”“上证股指”“职业”“月收入”以及“文化程度”就是变量。它们的特点是从一次观察到下一次观察会出现不同结果。把观察到的结果记录下来就是数据。
编辑 | 赵爱玲
审核 | 杜红梅