《数据分析的统计基础》学习笔记（一）数据分析概述 - 数据库编程

1.1 什么是数据分析

专业：有针对性的收集，加工，整理数据，并采用统计，挖掘技术分析和解释数据的科学和艺术。

客观：从行业的角度看，数据分析是基于某种行业目的，有目的地进行收集，整理，加工，和分析数据，提炼有价值信息的一个过程。

本质：a.目标，数据分析的关键在于设立目标，专业上叫做“有针对性”

b.方法，包括统计分析和数据挖掘

c.结果，数据分析最终要得出分析结果，结果对目标解释的强弱，结果的应用效果如何。

1.2 数据分析六步曲

明确分析目的和内容=》数据收集=》数据预处理=》数据分析=》数据展现=》报告撰写

1.2.1 明确分析目的和内容

分析对象是谁？商业目的是什么？解决什么业务问题？

1.2.2 数据收集

观察法，访谈法，问卷法，测验法等

1.2.3 数据预处理

a.数据审查

记录数是否满足最低要求，内容是否与要求一致，是否全面，检查字段类型，字段值的最大值，最小值，平均数，中位数等

b.数据清理

针对a中发现的明显错误值、缺失值、异常值、可疑数据、重复数据等选用适当的方法进行“清理”，使“脏”数据变为“干净”数据。

c.数据转换

无量钢化处理、线性变换、汇总和汇聚、适度概化、规范化、以及属性构造等

d.数据验证

初步评估和判断数据是否满足统计分析的需要，从而决定是否需要增加或减少数据量。利用简单的线性模型及散点图、直方图、折线图、等图形进行探索性分析、一致性检验等方法对数据的准确性进行验证，确保不把错误和偏差的数据带入到数据分析中。

1.2.4 数据分析

指通过分析手段、方法和技巧对准备好的数据进行探索、分析，从中发现因果关系、内部联系和业务规律，为目标提供决策参考

分析方法：方差、回归、因子、聚类、分类、时间序列等（原理，使用范围，结果的解释）

工具：SPSS、R、MATLAB、SAS等

1.2.5 数据展现

饼形图、折线图、柱形图/条形图、散点图、雷达图、金字塔图、矩阵图、漏斗图、帕累托图等

1.2.6 报告撰写

明确的结论、建议和解决方案

1.3 数据分析方法简介

1.3.1 统计分析方法简介

1.3.1.1 描述性统计分析（Description Statistics）

通过图表或数学的方法，对数据资料进行整理、分析，并对数据的分布状态、数字特征和随机变量之间的关系进行估计和描述的方法。

a. 集中趋势分析 ?（平均数、中数、众数）

b. 离中趋势分析（全距、四分差、平均差、方差、标准差）

c. 相关分析?

研究现象之间是否存在某种依存关系，并对具体有依存关系的现象进行其相关方向及相关程度的研究（相关系数=》回归方程）

1.3.1.2 回归分析（Regression）

确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法，它主要研究一个随机变量Y对另一个随机变量（X）

或一组（X1，X2， X3...XK）变量的相依关系

一元回归分析和多元回归分析（涉及的变量多少）

线性回归分析和非线性回归分析（自变量和因变量之间的关系）

1.3.1.3 对应分析（Correspondence Analysis）

“关联分析”，“R-Q型因子分析”，通过分析由定性变量构成的交互汇总表来揭示变量间的联系。

可以揭示同一个变量的各个类别之间的差异，以及不同变量各个类别之间的对应关系。

对应分析的基本思路是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。

1.3.1.4 因子分析（Factor Analysis）

研究从变量群中提取共性因子的统计技术。从大量的数据中寻找内在的联系，减轻决策困难的分析方法。

重心法、影像分析法、最大似然解法、最小平方法、阿尔发抽因法、拉奥典型抽因法。

以相关系数矩阵为基础，所不同的是相关系数矩阵对角线上的值，采用不同的共同性估值。常采用以主成分分析为基础的反覆法。

1.3.1.5 方差分析（Analysis of Variance (ANOVA)）

“变异数分析”、“F检验”。用于两个及以上样本均数差别的显著性检验。从观测变量的方差入手，研究诸多控制变量中哪些变量是

对观测变量有显著影响的变量。

1.3.2 数据挖掘方法简介

1.3.2.1 聚类分析（Cluster Analysis）

将物理或抽象对象集合分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇的过程，所以同一个簇中的对象有很大的相似性，而不同簇之间的对象有很大的相异性。

1.3.2.2 分类数据分析

1.3.2.2.1 决策树（Decision Tree）

起源是概念学习系统CLS，然后发展到ID3算法，最后又演化为能处理连续属性的C4.5。有名的决策树方法还有CART和Assistant。

优点：可以生成可理解的规则；计算量相对来说不是很大；可以处理连续和离散字段；可以清晰的显示出哪些字段比较重要。

缺点：对连续性的字段比较难预测；当类别太多时，错误可能会增加得比较快；一般的算法分类的时候，仅根据一个属性来进行分类；

　　　　　　　　不是全局最优。

1.3.2.2.2 人工神经网络（Artificial Neural Networks(ANNs)）

是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型，它是数据挖掘中机器学习的典型代表。是由人工建立的以有向图为拓扑结构的动态系统，通过对连续或断续的输入作状态响应而进行信息处理。

特点：可以充分逼近任意复杂的非线性关系；所有定量或定性的信息都等势分布存于网络内的各神经元中。故有很强的鲁棒性和容错性；

　　　　　　　　采用分布处理方法，使得快速进行大量运算成为可能；可以学习和自适应不知道或不确定的系统；能够处理定量，定性的知识。

1.3.2.2.3 贝叶斯分类（Bayesian Classification）

主要用来预测类成员间的可能性。是基于贝叶斯定律。

1.3.2.2.4 支持向量机（Support Vector Machine）

与传统的神经网络技术相比，支持向量机不仅结构简单，而且各项技术的性能也明显提升。支持向量机以结构风险最小为原则。

1.3.2.2.5 随机森林（Random Forest(RF)）

是一种组合分类器，它利用bootstrap重抽样方法从原始样本中抽取多个样本，对每个bootstrap样本进行决策树建模，然后将这些

决策树组合在

首页上一页 1 2 下一页尾页 1/2/2

上一篇 DBCA出错：ORA-19809:limitexceed..

下一篇 R12.1.3应用克隆过程中autocfg脚..

《数据分析的统计基础》学习笔记（一） 数据分析概述(一)

《数据分析的统计基础》学习笔记（一）数据分析概述(一)