设为首页 加入收藏

TOP

《数据分析的统计基础》学习笔记(二) 描述性统计分析(一)
2015-11-21 01:25:47 来源: 作者: 【 】 浏览:2
Tags:《数据分析的统计基
2.1 名词解释
?
2.1.1 直方图(Histogram)
?
又称质量分布图。是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。 一般用横轴表示数据类型,纵轴表示分布情况。
?
2.1.2 数据计量尺度
?
指对计量对象量化时采用的具体标准,它分为四类:定类尺度、定序尺度、定距尺度和定比尺度。
?
2.1.3 集中趋势
?
指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。(平均数、中位数、众数)
?
2.1.4 离中趋势
?
指一组数据向某一中心值分散的程度,它反映了各个数据远离其中心点的程度,它从另一个侧面说明了集中趋势测度值的代表程度。(极差,四分位距,平均差,方差,标准差,离散系数)
?
2.1.5 偏态
?
数据分布的不对称性称作偏态。
?
2.1.6 峰度
?
峰度是指数据分布的尖鞘程度或峰凸程度。
?
2.2 数据的计量尺度
?
数据的计量尺度一览表
名称
逻辑与数学运算
常见例子
数据类型
定类尺度 等于、不等于 性别、民族、职业
定性数据
定序尺度 等于、不等于、大于、小于 职称、健康状况、质量等级
定性数据
定距尺度
等于、不等于、大于、小于
加法、减法
年份、摄氏温度、纬度
定量数据
定比尺度
等于、不等于、大于、小于
四则运算
质量、长度、能量
定量数据
2.3 数据的集中趋势
?
2.3.1 定量数据:平均数
?
平均数是概括数据的一个强有力的方法,它通过消除极端数据的差异将大量的数据浓缩成一个数据来概括,可以较好地实现数据集中趋势的度量,但这种过度的浓缩使其存在容易受极端值影响的缺点。
?
比如数列1,2,2,3直方图面积的50%在平均数2的左边,50%在平均数的右边,每一个数占25%的频率。但当改变数列中最后一值,3变为5或者7 。由于   每个数的频率为0.25,因此最后一个的变化不会影响数的频率,但由于数据值的变化,使得平均数发生了变化。
?
平均数随极端值的变化而变化,而且有向极端值靠近的趋势,因此平均数容易收到极端值的影响。
?
2.3.2 顺序数据:中位数和分位数
?
一组数据按大小顺序排列后,处在数列中点位置的数值,称为中位数。中位数从中间一个点将全部数据分为两部分。
?
中位数主要用于测试顺序数据的集中趋势,当然也适用于作为定量数据的集中趋势,但不适合分类数据。
?
中位数的计算:
?
1.当n为奇数,中位数等于(n+1)/2个数对应的值。
?
2.当n为偶数,中位数等于n/2和n/2+1的两个数的平均值。
?
中位数是一个位置代表值,其特点是不受极端值的影响,在分析收入分配等数据时很有用。
?
2.3.3 分类数据:众数
?
它主要适用于分类数据,当然也适用于顺序数据和定量数据。一般只有在数据量较大的情况下,众数才有意义。
?
众数是指一组数据中出现次数最多的变量值。其主要特点是不受极端值的影响,但在一组数据中众数不唯一,有可能有多个众数或者没有众数。
?
2.4 数据的离中趋势
?
2.4.1 极差
?
极差也叫全距,是一组数据中的最大值和最小值的差距。公式表示为:极差= 最大值-最小值如果统计数据已经整理过,并形成组距数列,则极差的近视值为:   极差= 最大组的上限-最小组的下限
?
极差是测定离中趋势的一种简便方法,它能说明数据组中各数据值的最大变动范围,但由于它根据数据组的两个极端值进行计算的,没有考虑到中间值的变动情   况,所以不能充分反映数据组各项数据的离中趋势,只是一个较粗糙的测定数据离中趋势的指标。
?
在实际应用中,极差可用于粗略检查产品质量稳定性和进行质量控制。因为在正常生产的条件下,产品质量比较稳定,误差总在一定范围内波动。如有不正常情   况,误差将会超出一定范围。利用极差有助于及时发现问题。
?
2.4.2 分位距
?
分位距是全距的一种改进,它是从一组数据中剔除了一部分极端值后重新计算的类似于全距的指标。(四分位距、八分位距、十分位距)
?
四分位距是第三个四分位数减去第一个四分位数的差的一半。它排除了数列两端各25%单位标志值的影响,反映了数据组中间部分各变量值的最大数与最小数   距离中位数的平均离差。
?
例:计算数列7,6,8,9,8,4,8,6的四分位距。
?
a、将数列按从小到大排序:4,6,6,7,8,8,8,9
?
b、分成4等份:4,6 | 6,7 | 8,8 | 8,9
?
c、第一个四分位数 = (6+6)/2=6 ;第二个四分位数 = (7+8) /2=7.5,第三个四分位数 = (8+8)/2 = 8
?
d、这组数据的四分位距为:(8-6)/2=1
?
这种为了消除极端变量值对测定结果影响的方法,在实际生活中也是常用到的。比如在奥运比赛中,去掉评委一个最高分,一个最低分,然后再计算平均值,就   是为了消除极端变量值对选手得分的影响。
?
2.4.3 平均差
?
平均差是数据组中各数据值与其算术平均数离差绝对值的算数平均数,常用符号“M.D”表示。
?
?
平均差是反映各标志值与算术平均数之间的平均差异。平均差越大,表明各标志值与算术平均数的差异程度越大,该算术均数的代表性就越小;平均差越小,表   明各标志值与算术平均数的差异程度越小,该算术平均数的代表性就越大。当变量数列是由没有分组的数据组或分组后每组的次数相等的数据组成时采用。
?
例:设某车间有两个班组,各有10名工人,其日产量如下表(表2.5.3):
甲组的平均值为:(4+7+11+14+14+16+17+24+25+28)/10=16
?
乙组的平均值为:(7+12+14+14+15+17+17+19+20+25)/10=16
?
则两组工人日产量的平均差计算过程如下:
甲组
乙组
?
日产量
离差
离差绝对值
日产量
离差
离差绝对值
x
\
\
x
? ?
4
7
11
14
14
16
17
24
25
28
-12
-9
-5
-2
-2
0
1
8
9
12
12
9
5
2
2
0
1
8
9
12
7
12
14
14
15
17
17
19
20
25
-9
-4
-2
-2
-1
1
1
3
4
9
9
4
2
2
1
1
1
3
4
9
合计
?
60
?
?
36
?
首页 上一页 1 2 3 下一页 尾页 1/3/3
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
分享到: 
上一篇SQL Server链接MySQL实践 下一篇数据库的检查约束check约束

评论

帐  号: 密码: (新用户注册)
验 证 码:
表  情:
内  容: