a) 可以处理一切存储介质和各种格式的数据(可以方便的扩展Spark SQL的功能来支持更多类型的数据,例如Kudu),包括Hive,Mysql,DB2等传统数据库。
b) Spark SQL把数据仓库的计算能力推向了新的高度,不仅是无敌的计算速度(Spark SQL比Shank快了至少一个数量级,而Shank比Hive快了至少一个数量级,尤其是在Tungsten成熟以后会更加无可匹敌),更为重要的是把数据仓库的计算复杂度推向了历史上全新的高度(Spark SQL后续推出的DataFrame可以让数据仓库直接使用机器学习,图计算等复杂的算法库来对数据仓库进行复杂深度数据价值的挖掘)。
c) Spark SQL(DataFrame,DataSet)不仅是数据仓库的引擎,而且也是数据挖掘的引擎,更为重要的是Spark SQL是数据科学计算和分析引擎!!