设为首页 加入收藏

TOP

Spark将数据压缩存储
2018-12-06 01:32:29 】 浏览:10
Tags:Spark 数据 压缩 存储
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u012307002/article/details/73650340

/tmp/dj/20170622.1498060818603为json数据
将数据压缩存储成parquet

val logs = spark.read.json("/tmp/dj/20170622.1498060818603")
//logs.coalesce(2).write.option("compression","gzip").json("/tmp/dj/json2")
logs.coalesce(2).write.parquet("/tmp/dj/parquet2")

读取parquet文件

val logs1 = spark.read.parquet("/tmp/dj/parquet2/*")
//now logs1 is DataFrame with some fields of previous json field 

编程开发网
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇Spark SQL和Spark Streaming简介 下一篇Spark Streaming知识总结

评论

帐  号: 密码: (新用户注册)
验 证 码:
表  情:
内  容:

array(4) { ["type"]=> int(8) ["message"]=> string(24) "Undefined variable: jobs" ["file"]=> string(32) "/mnt/wp/cppentry/do/bencandy.php" ["line"]=> int(214) }