设为首页 加入收藏

TOP

《数据分析的统计基础》学习笔记(二) 描述性统计分析(二)
2015-11-21 01:25:47 来源: 作者: 【 】 浏览:1
Tags:《数据分析的统计基
两组工人的平均差为:
?
甲组平均差= 60/10 = 6
?
乙组平均差= 36/10 = 3.6
?
也就是说,在甲,乙两组工人平均日产量相同的情况下,甲组数据的离散程度比乙组更大。
?
由于平均差是根据数列中所有数值计算出来的,受极端值影响较小,所以对整个统计数列的离中趋势有比较充分的代表性。
?
2.4.4 方差与标准差
?
方差是数据组中各数据值与其算术平均数离差平方的算术平均数。方差的平方根就是标准差。

? 以表2.5.3为例,计算标准差如下:
? ? ? ? ??
甲组
乙组
?
日产量
离差
离差平方
日产量
离差
离差平方
x
?
()?
x?
?
()?
?4
7
11
14
14
16
17
24
25
28
-12
-9
-5
-2
-2
0
1
8
9
12
144
81
25
4
4
0
1
64
81
144
7
12
14
14
15
17
17
19
20
25
-9
-4
-2
-2
-1
1
1
3
4
9
81
16
4
4
1
1
1
9
16
81
合计
?
548
?
?
214
两组的平均差为:?
?
甲组:7.40
?
已组:4.63
?
结论可看出,甲,乙两组工人平均日产量相等的情况下,甲的标准差比乙大,所以其平均数的代表性比乙小。
?
标准差的实质与平均差基本相同,只是在数学处理方法上与平均差不同,平均差是用取绝对值的方法消除离差的正负号然后用算术平均的方法求出平均离差;而标准差是用平方的方法消除离差的正负号,然后对离差的平方计算算术平均数,并开放求出标准差。即克服了平均差消除正负号带来的弊病,又增加了指标本身   的“灵敏度”,这些有点,使他成为各种离中趋势指标中的重要一种。
?
标准差的性质:
?
a,标准差度量了偏离平均数的大小。
?
b,标准差是一类平均偏差。
?
c,标准差指出了数列中的数离它们的平均数有多远。数列大多数项离开平均数大约1个σ。极少数项将离开2个或3个σ以上。一般来讲,一个数列中约68%的项在离平均数的1个σ范围内,其余的32%离的较远。约95%的数据在距平均数的2个σ范围内,其余的5%则较远。
?
2.4.5 离散系数
?
极差、平均差、标准差都是对数据的离中趋势进行绝对或平均差异的测定。在通常情况下,它们都带有计量单位,而且其离中趋势大小与变量平均水平的高低有关。因此,要比较数据平均水平不同的两组数据的离中程度的大小,就有必要计算它们的相对离中程度指标,即离散系数。?
?
常用的是标准差系数,用CV(Coefficient of Variance)表示
?
CV(Coefficient of Variance):标准差与均值的比率。
?
用公式表示为:CV=σ/μ
?
例:有甲、乙两班同时参加统计学原理的课程测试,甲班平均成绩为70分,标准差为9.0分,乙班的成绩如下
?
比较甲乙两班哪个班的成绩更有代表性?
?
解:计算如下(公式难打,截图如下)
按成绩分组(分)
学生人数(人)
60以下
60~70
70~80
80~90
90~100
2
6
25
12
5
?
比较甲乙两班哪个班的成绩更有代表性?
?
解:计算如下(公式难打,截图如下)
2.5 数据分布的测试
?
在描述性统计中,一组数据的特征除了使用集中趋势和离中趋势来描述外, 还使用其分布的形状来分析。数据分布形态的测度主要是以正态分布为标准进行衡量,曲线以均数为中心,左右对称,曲线两端永远不与横轴相交,曲线的高峰位与正中央,即均数所在的位置。
一组数据的分布形状是通过直方图将该数据分布在数轴上拟合出一条曲线,将曲线的尖鞘程度和对称性与正态分布曲线相比较,其测试指标包括偏态和峰度。
?
2.5.1 数据偏态及其测定
?
通常分为右偏(正偏),左偏(负偏)两种。它们是以对称分布为标准相比较而言的。在对称分布的情况下,平均数、中位数与众数是合二为一的,即。在偏态分布的情况下,平均数。中位数与众数是分离的。如果众数在左边,平均数在右边,即数据的极端值在右边,数据分布曲线向右延伸,则称为右向偏态。右向偏态,众数的数值越小,平均数的数值越大,平均数与众数之差为正值,所以右向偏态又称正向偏态。相反即为左向偏态(负向偏态)。
?
测定偏态的指标是偏态系数。偏态系数(SK)是对数据分布的不对称性(偏斜程度)的测度。偏态系数有多种计算方法,常用以下公式(s表示样本标准差):
根据数据计算出SK后,SK含义如下
?
SK=0,分布是对称的。
?
SK<0,分布呈负偏态,SK值越小,负偏程度越高。
?
SK>0,分布呈正偏态,SK值越大,正偏程度越高。
?
2.5.2 数据峰度及其测定
?
根据变量值的集中与分散程度,峰度一般表现为三种形态:尖顶峰度、平顶峰度和标准峰度。当变量值的次数在众数周围分布比较集中,使次数分布曲线比正态分布曲线顶峰更为隆起尖峭,称为尖顶峰度;当变量值的次数在众数周围分布为分散,使次数分布曲线较正态分布曲线更为平缓,称为平顶峰度。
?
测定峰度的指标是峰度系数。峰度系数(K)是对数据分布的尖峭程度的测度。峰度系数有多种计算方法,常用公式如下:
根据计算出K后,K的含义如下。
?
K<0,呈平顶峰度。
?
K>0,呈尖顶峰度。
?
2.5.3 数据偏度和峰度的作用
?
在实际的数据分析过程中,偏度和峰度的作用主要表现在以下两个方面。
?
一是将偏度和峰度结合起来检查样本的分布是否属于正态分布,以便判断总体的分布。如果样本偏度接近于0而峰度接近于3,就可以判断总体分布是接近于正态分布的,用样本来对总体进行测定时就可以看成是正态分布,否则就可以进行否认。
?
二是利用资料之间存在的偏度关系,对算术平均数、众数、中位数进行推算。一般情况下,只要分布不是正态的,算术平均数。众数、中位数之间都存在以下关系。
?
?
在偏度适度时,不论右偏还是左偏,三者间的距离有近似的固定关系,即中位数与算术平均数的距离,约等于众数与算术平均数距离的1/3。可得以下关系式:
2.6 数据的展示-统计图
?
统计图是利用点、线、面、体等绘制成几何图形,以表示统计大小关系和变动情况的各种图的总称。(条形图、扇形图、折线图、茎叶图、箱线图)
?
2.6.1 SPSS画统计图
?
录入数据

首页 上一页 1 2 3 下一页 尾页 2/3/3
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
分享到: 
上一篇SQL Server链接MySQL实践 下一篇数据库的检查约束check约束

评论

帐  号: 密码: (新用户注册)
验 证 码:
表  情:
内  容: