设为首页 加入收藏

TOP

SparkSQL使用之Spark SQL CLI(二)
2014-11-23 21:26:33 来源: 作者: 【 】 浏览:75
Tags:SparkSQL 使用 Spark SQL CLI
--master yarn)时,可以通过http://hadoop000:8088页面监控到整个job的执行过程;


注:如果在$SPARK_HOME/conf/spark-defaults.conf中配置了spark.master spark://hadoop000:7077,那么在启动spark-sql时不指定master也是运行在standalone集群之上。


spark-sql使用


启动spark-sql: 由于我已经在spark-defaults.conf中配置了spark.master spark://hadoop000:7077,就没在spark-sql启动时指定master了


cd $SPARK_HOME/bin
spark-sql


SELECT track_time, url, session_id, referer, ip, end_user_id, city_id FROM page_views WHERE city_id = -1000 limit 10;


SELECT session_id, count(*) c FROM page_views group by session_id order by c desc limit 10;


上面两个sql语句用到的表现在存在hive中了,如果没有则手工创建下,创建脚本以及导入数据脚本如下:


create table page_views(
track_time string,
url string,
session_id string,
referer string,
ip string,
end_user_id string,
city_id string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';


load data local inpath '/home/spark/software/data/page_views.dat' overwrite into table page_views;


首页 上一页 1 2 下一页 尾页 2/2/2
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
分享到: 
上一篇SparkSQL使用之Thrift JDBC Server 下一篇C#把对象类型转化为指定类型,转..

评论

帐  号: 密码: (新用户注册)
验 证 码:
表  情:
内  容: