性能調優 · Spark 編程指南簡體中文版

# 性能調優對于某些工作負載，可以在通過在內存中緩存數據或者打開一些實驗選項來提高性能。 ## 在內存中緩存數據 Spark SQL可以通過調用`sqlContext.cacheTable("tableName")`方法來緩存使用柱狀格式的表。然后，Spark將會僅僅瀏覽需要的列并且自動地壓縮數據以減少內存的使用以及垃圾回收的壓力。你可以通過調用`sqlContext.uncacheTable("tableName")`方法在內存中刪除表。注意，如果你調用`schemaRDD.cache()`而不是`sqlContext.cacheTable(...)`,表將不會用柱狀格式來緩存。在這種情況下，`sqlContext.cacheTable(...)`是強烈推薦的用法。可以在SQLContext上使用setConf方法或者在用SQL時運行`SET key=value`命令來配置內存緩存。 Property Name | Default | Meaning --- | --- | --- spark.sql.inMemoryColumnarStorage.compressed | true | 當設置為true時，Spark SQL將為基于數據統計信息的每列自動選擇一個壓縮算法。 spark.sql.inMemoryColumnarStorage.batchSize | 10000 | 柱狀緩存的批數據大小。更大的批數據可以提高內存的利用率以及壓縮效率，但有OOMs的風險 ## 其它的配置選項以下的選項也可以用來調整查詢執行的性能。有可能這些選項會在以后的版本中棄用，這是因為更多的優化會自動執行。 Property Name | Default | Meaning --- | --- | --- spark.sql.autoBroadcastJoinThreshold | 10485760(10m) | 配置一個表的最大大小(byte)。當執行join操作時，這個表將會廣播到所有的worker節點。可以將值設置為-1來禁用廣播。注意，目前的統計數據只支持Hive Metastore表，命令`ANALYZE TABLE <tableName> COMPUTE STATISTICS noscan`已經在這個表中運行。 spark.sql.codegen | false | 當為true時，特定查詢中的表達式求值的代碼將會在運行時動態生成。對于一些擁有復雜表達式的查詢，此選項可導致顯著速度提升。然而，對于簡單的查詢，這個選項會減慢查詢的執行 spark.sql.shuffle.partitions | 200 | 配置join或者聚合操作shuffle數據時分區的數量