设为首页 加入收藏

TOP

数据挖掘概念与技术读书笔记(2)
2019-05-11 01:56:55 】 浏览:49
Tags:数据挖掘 概念 技术 读书 笔记
第二章 认识数据

2.1 数据对象与属性类型
2.1.2 标称属性
标称属性的值是一些符号或事物的名称,每个值代表某种类别、编码或状态,在计算机科学中,这些值也被看做的是枚举的

因为标称属性值并不具有有意义的序,并且也不是定量的,因此,给定一个对象集,找出均值或中位数没有意义,有意义的是取该属性最常出现的值,称为众数,是一种中心趋势度量

2.1.3 二元属性

二元属性是一种标称属性,只有0,1两个状态

2.1.4 序数属性
其可能的值之间具有有意义的序或秩评定,但是相继值之间的差是未知的

序数属性的中心趋势可以用它的众数和中位数表示

2.1.5 数值属性
数值属性是定量的,即它是可度量的量,用整数或实数值表示
1、区间标度属性
区间标度属性用相等的单位尺度度量
这种属性允许我们比较和定量评估值之间的差

2、比率标度属性

2.1.6 离散属性与连续属性

2.2 数据的基本统计描述
基本统计描述可用来识别数据的性质,凸显哪些数据值应该视为噪声或离群点

2.2.1 中心趋势度量:均值、中位数和众数

均值对极端值(例如:离群点)很敏感,为了抵消少数极端值的影响,可以使用截尾均值,截尾均值是丢弃高低极端值后的均值

对于倾斜(非对称)数据,数据中心的更好度量是中位数。中位数是有序数据的中间值,它是把数据较高的一半与较低的一半分开的值

众数是另一种中心趋势度量。数据集的众数是集合中出现最频繁的值。具有一个、两个、三个众数的数据集合分别称为单峰的、双峰的、三峰的

中列数也可以用来评估数值数据的中心趋势,是数据集的最大和最小值的平均值


2.2.2 度量数据散布:极差、四分位数、方差、标准差和四分位数极差
1、极差、四分位数和四分位数极差

2、五数概括、盒图与离群点

识别可疑的离群点的通常规则是,挑选落在第三个四分位数之上或一个四分位数之下至少1.5*IQR处的值

分布的五数概括由中位数、四分位数Q1和Q3、最小和最大观测值组成


3、方差和标准差

方差和标准差都是数据散布度量,它们指出数据分布的散布程度。低标准差意味数据观测非常靠近均值,而高标准差表示数据散布在一个大的值域中


2.4 度量数据的相似性和相异性

2.4.1 数据矩阵与相异性矩阵



2.4.2 标称属性的临近性度量


2.4.3 二元属性的临近性度量

2.4.4数值属性的相异性:闵可夫斯基距离

欧几里得距离、曼哈顿距离和闵可夫斯基距离

在某些情况下,在计算距离之前数据应该规范化。这涉及变换数据,使之落入较小的公共值域,

闵可夫斯基距离 是欧几里得距离、曼哈顿距离的推广





2.4.5 序数属性的邻近性度量


2.4.6 混合类型属性的相异性



2.4.7 余弦相似性



】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇【转】编程六月定律 下一篇CentOS7 基于Hadoop2.7 的Spark2...

最新文章

热门文章

Hot 文章

Python

C 语言

C++基础

大数据基础

linux编程基础

C/C++面试题目