一起,通过投票得出最终分类或预测的结果。
大量的理论和实证研究都证明了随机森林算法具有较高的预测准确率,对异常值和噪声具有很好的容忍度,且不容易出现拟合。
?
1.3.2.3 关联规则(Association Rule)
?
主要目的是找出数据集中的频繁模式(Frequent Pattern),既多次重复出现的模式和并发关系(Cooccurrence Relationships),
?
即同时出现的关系,频繁和并发关系也称作关联(Association)
?
1.3.2.4 回归分析(Regression)
?
包括线性回归(Linear Regression),这里主要指多元线性回归和逻辑斯蒂回归(Logistic Regression),其中,在数据化运营中
?
更多使用的是逻辑斯蒂回归(Logistic Regression)它包括响应预测、分类规划。
多元线性回归主要描述一个因变量如何随着一批自变量的变化而变化,其回归公式(回归方程)就是因变量与自变量关系的数据反映。
?
在用来估算多元线性方程中自变量系数的方法中,最常用用的是最小二乘法,即找出一组对应自变量的相应参数,以使因变量的实际
?
观测值与回归方程的预测值之间的总方差减到最小。
?
1.3.3 统计分析与数据挖掘的区别和联系
?
1.3.3.1 统计分析与数据挖掘的联系
?
都源自统计基础理论,所以很多方法在很多情况下都是同根同源的。比如:概率论和随机事件是统计学的核心理论之一,统计分析中
?
的抽样估计需应用该理论,而在数据挖掘技术的朴素贝叶斯分类中,就是这些统计理论的发展和延伸。
?
?1.3.3.2 统计分析与数据挖掘的区别
| No |
统计分析 |
数据挖掘 |
| 1 |
分析人员常常需要对数据分布和变量间的关系做假设,确定用什么概率函数来描述变量间的关系,以及如何检验参数的统计显著性; |
分析人员不需要对数据分布做任何假设,数据挖掘中的算法会自动寻找变量间的关系。相对与海量,杂乱的数据,数据挖掘技术有明显的应用优势。 |
| 2 |
在预测中的应用常表现为一个或一组函数关系式 |
在预测应用中的重点在于预测的结果,很多时候并不会从结果中产生明确的函数关系式。 |
| 3 |
分析人员先做假设或判断,然后利用数据分析技术来验证该假设是否成立 |
不需要对数据的内在关系做任何假设或判断,而是会让挖掘工具中的算法自动去寻找数据中隐藏的关系或规律。更灵活,更宽广的思路和应用。 |