设为首页 加入收藏

TOP

Spark 本地模式运行 磁盘空间不足
2019-01-06 01:28:37 】 浏览:65
Tags:Spark 本地 模式 运行 磁盘 空间 不足
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/leishenop/article/details/53443178

之前做Kaggle上面的广告预测时,由于数据量过大(80多G),所以这里我就使用了Spark来进行数据的预处理,主要是数据的Join操作。Join操作会产生大量的中间结果,因为实在Windows上面来运行的Spark,它默认是把数据放在了c盘下面,但是,产生的中间数据有100多G,所以c盘根本放不下这些数据。

解决方法

首先,你得确保有一个磁盘可以放下这些数据,然后设置 “spark.local.dir”参数,设置它的位置

sparkConf.set("spark.local.dir","S:\\Data")

运行时间可能会很长。

】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇Spark的cache和persist 下一篇spark堆外内存的设置

最新文章

热门文章

Hot 文章

Python

C 语言

C++基础

大数据基础

linux编程基础

C/C++面试题目