首页 > 常识 >

离散程度是指什么(离散程度描述)

更新时间:2024-09-17 08:20:09
一、离散程度描述

1.全距 Range(极差):最大值与最小值的差。对同类型同数量单位的数据来说,全距越大,离散程度越大,反之越小。

优缺点:全距易于理解,使用范围广泛,但不稳定,仅与最值有关,对全部数据的离散程度没有代表性。

示例:若有两组数据,第一组数据的全距R1=31-18=13,第二组数据的全距R2=25-19=6。通过两组数据的全距我们可以观察到第二组数据的离散程度更大。

2.平均差 Mean Absolute Deviation:是指每个数值与全体数值均值的差之和的平均数。以均值为标准,衡量数据的离散程度。

计算公式:

优缺点:相对于均值的正负偏差会相互抵消。

示例:一组的身高数据:170cm、172cm、168cm、165cm、178cm、175cm、180cm、176cm,求平均差:



3.方差 Variance:是指每个数值与全体数值均值的差的平方之和除以数值个数。

计算公式:

解读:在统计学中样本的均差多是除以自由度(n-1),意为样本能自由选择的程度。当样本被选到只剩一个时,它不可以再自由选择了,所以自由度是n-1。

优缺点:克服了平均差正负相抵的影响,不过因为结果为差的平方,数据的离散程度也被夸大,并且不利于解释数据。比如一组身高数据的方差为23.25平方米。

示例:同上身高数据示例,求方差 :



4.标准差 Standard Deviation:方差的算术平方根。反映数据集的偏离程度。当标准差较大时,表示大部分数值与其平均值之间差异较大,反之代表这些数值较接近平均值。

计算公式:

解读:在统计学中样本的均差多是除以自由度(n-1),意为样本能自由选择的程度。当样本被选到只剩一个时,它不可以再自由选择了,所以自由度是n-1。

优缺点:克服了方差夸大离散程度的问题。

示例:同上身高数据示例,求标准差 :



5.离散系数 Coefficient Of Variation:标准差与均值的比值。数值越大表示离散程度越大,反之越小。

计算公式:

优缺点:分子的标准差和分母的均差,在单位与原数据的单位一致,可以约去。所以离散系数是一个无名数,无单位,可以跳开同类事物才能相比较这一点的限制,对不同类事物的两组数据相比较。

示例:第一组身高数据均值为170cm,标准差为5cm。第二组体重数据均值为50kg,标准差为2kg。问哪组数据更加稳定。

依据现实意义,身高与体重本无法比较,但离散系数通过约去单位变成无名数,让两类数据的相对离散程度有了可比性。由上式子可得,身高数据的离散系数更小,所以身高数据更加稳定。

6.百分位数 Percentile :是一种位置指标,用Px表示。一个百分位数Px将一组观察值分为两部分,理论上有x%的观察值比他小,有(100-x)%的观察值比他大,经常使用四分位数:P25\P50\P75,正好将样本值四等分,且P25和P75中间包括了中间值50%的观察值。

优缺点:四分位间距排除了两侧极端值的影响,又能够反映较多数据的离散程度。不过其在使用中需要样本量大才会稳定,对于两端的百分位数而言更是如此,左右各大于20例才会有价值。

示例:需要较大量的数据,就只说方法。将数据从小至大依次排序,并计算对应的累计百分位。按照需要的百分位进行取数。

相关推荐