本章无变化
(一)集中趋势的含义及测度指标
1.集中趋势的含义
集中趋势是指一组数据向某一中心值靠拢的程度,集中趋势的测度也就是寻找数据一般水平的代表值或中心值。
2.集中趋势的测度指标
(1)均值
均值也就是平均数,就是数据组中所有数值的总和除以该组数值的个数。
①均值是集中趋势中最主要的测度值,是一组数据的重心所在,解释了一组数据的平均水平。
②均值主要适用于数值型数据,但不适用于分类数据和顺序数据。
③均值易受极端值的影响,极端值会使得均值向极大值或极小值方向倾斜,使得均值对数据组的代表性减弱。
(2)中位数
①含义
把一组数据按从小到大或从大到小的顺序进行排列,位置居中的数值叫做中位数。中位数将数据分为两部分,其中一半的数据小于中位数,另一半数据大于中位数。
②计算
根据未分组数据计算中位数时,要先对数据进行排序,然后确定中位数的位置,n为数据的个数,其公式为:
(1)n为奇数:中位数位置是(n+1)/2,该位置所对应的数值就是中位数数值。
(2)n为偶数:中位数位置是介于n/2和(n/2)+1之间,中位数就是这两个位置对应的数据的均值。
③适用
中位数是一个位置代表值,主要适用于顺序数据和数值型数据,不适用于分类数据。中位数不受极端值的影响,抗干扰性强,尤其适用于收入这类偏斜分布的数值型数据。
(3)众数
①含义:众数是指一组数据中出现次数(频数)最多的变量值。
②适用:众数适于描述分类数据和顺序数据的集中趋势。尤其是分布明显呈偏态时,众数的代表性更好。而定量数据中,可能出现多众数和无众数的情况,因此众数不适用于描述定量数据的集中位置。
有些情况下可能出现双众数、多众数或者没有众数,难以描述数据的集中趋势。
(4)均值、中位数和众数的比较
(二)离散程度的含义及测度指标
1.离散程度的含义
离散程度反映的是数据之间的差异程度。集中趋势的测度值是对数据水平的一个概括性的度量,它对一组数据的代表程度,取决于该组数据的离散水平。
数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差,离散程度越小,其代表性就越好。
2.离散程度的测度指标
衡量离散程度的指标包括方差、标准差、离散系数。
离散程度的测度指标
(三)分布形态的测度
分布形态的测度指标包括偏态系数和标准分数。
(四)偏态系数
偏态系数的取值含义可用数轴表示:
(五)标准分数(也称为“Z”分数)
1.标准分数适用及计算
在统计上,均值和标准差不同时,不同变量的数值是不能比较的,来自不同分布的变量值不可比,但是每个数值在变量分布中相对于均值的相对位置是可比的,因此可以通过计算标准分数来比较不同变量的取值。标准分数可以给出数值距离均值的相对位置。
标准分数Z=(原始分数Xi-平均分数X)÷标准差s
2.标准分数的实际应用
在实际应用中,当数据服从对称的钟形分布时,可以运用经验法则来判断与均值的距离在特定倍数标准差之内的数据项所占比例。
(六)变量间的相关关系
客观现象的相关关系可以按照不同标准来分类,具体如下表所示。
(七)相关关系的度量(散点图和相关系数)
1.散点图
两变量之间的关系可以用散点图来展示,具体见下图:
2.相关系数
相关系数是度量两个变量之间相关关系的统计量。最常用的相关系数是Pearson(皮尔逊)相关系数。相关系数的取值范围在[-1,1]之间。关于相关系数的取值含义如下表所示。