Spark SQL（二）Spark On Hive

hadoop1是hive存放元数据mysql服务器 hadoop3是启动metastore的hive服务器 hadoop4是hive client

hadoop4启动spark-shell

./spark-shell --master spark://hadoop1:7077 --driver-class-path /usr/local/apache-hive-1.2.1-bin/lib/mysql-connector-java-5.1.32-bin.jar

使用sqlContext调用HQL

sqlContext.sql("select count(*) from tbl1").show

或者使用hiveContext

import org.apache.spark.sql.hive.HiveContext
val hiveContext = new HiveContext(sc)
hiveContext.sql("select * from tbl1").show

如果使用Spark on Hive查询数据时，出现错误

Caused by: java.net.UnknownHostException: XXX

找不过HDFS集群路径，需要在客户端机器conf/spark-env.sh中设置HDFS路径：

export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop

Spark SQL On Hive