Hive表 · Spark 編程指南簡體中文版

# Hive表 Spark SQL也支持從Apache Hive中讀出和寫入數據。然而，Hive有大量的依賴，所以它不包含在Spark集合中。可以通過`-Phive`和`-Phive-thriftserver`參數構建Spark，使其支持Hive。注意這個重新構建的jar包必須存在于所有的worker節點中，因為它們需要通過Hive的序列化和反序列化庫訪問存儲在Hive中的數據。當和Hive一起工作是，開發者需要提供HiveContext。HiveContext從SQLContext繼承而來，它增加了在MetaStore中發現表以及利用HiveSql寫查詢的功能。沒有Hive部署的用戶也可以創建HiveContext。當沒有通過`hive-site.xml`配置，上下文將會在當前目錄自動地創建`metastore_db`和`warehouse`。 ```scala // sc is an existing SparkContext. val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) sqlContext.sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING)") sqlContext.sql("LOAD DATA LOCAL INPATH 'examples/src/main/resources/kv1.txt' INTO TABLE src") // Queries are expressed in HiveQL sqlContext.sql("FROM src SELECT key, value").collect().foreach(println) ```