设为首页 加入收藏

TOP

【R语言进行数据挖掘】决策树和随机森林(二)
2017-10-10 12:10:13 】 浏览:5368
Tags:语言 进行 数据挖掘 决策树 随机 森林
可以通过另外一个包'cforest'建立随机森林,并且这个包里面的函数并不受属性的最大数量约束,尽管如此,高维的分类属性会使得它在建立随机森林的时候消耗大量的内存和时间。

ind <- sample(2, nrow(iris), replace=TRUE, prob=c(0.7, 0.3))
trainData <- iris[ind==1,]
testData <- iris[ind==2,]
library(randomForest)

Species ~ .指的是Species与其他所有属性之间的等式

rf <- randomForest(Species ~ ., data=trainData, ntree=100, proximity=TRUE)
table(predict(rf), trainData$Species)
结果如下:

由上图的结果可知,即使在决策树中,仍然有误差,第二类和第三类话仍然会被误判,可以通过输入print(rf)知道误判率为2.88%,也可以通过输入plot(rf)绘制每一棵树的误判率的图。
最后,在测试集上测试训练集上建立的随机森林,并使用table()和margin()函数检测预测结果。

irisPred <- predict(rf, newdata=testData)
table(irisPred, testData$Species)

绘制每一个观测值被判断正确的概率图

plot(margin(rf, testData$Species))
显示结果如下:


首页 上一页 1 2 下一页 尾页 2/2/2
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇【R语言进行数据挖掘】决策树和随.. 下一篇GA算法-R语言实现

最新文章

热门文章

Hot 文章

Python

C 语言

C++基础

大数据基础

linux编程基础

C/C++面试题目