閱讀(17.3k) 書簽贊(0) 我要糾錯

Spark SQL性能調優(yōu)

2018-11-26 16:33 更新

Spark SQL性能調優(yōu)

對于某些工作負載，可以在通過在內存中緩存數(shù)據或者打開一些實驗選項來提高性能。

在內存中緩存數(shù)據

Spark SQL可以通過調用sqlContext.cacheTable("tableName")方法來緩存使用柱狀格式的表。然后，Spark將會僅僅瀏覽需要的列并且自動地壓縮數(shù)據以減少內存的使用以及垃圾回收的壓力。你可以通過調用sqlContext.uncacheTable("tableName")方法在內存中刪除表。

注意，如果你調用schemaRDD.cache()而不是sqlContext.cacheTable(...),表將不會用柱狀格式來緩存。在這種情況下，sqlContext.cacheTable(...)是強烈推薦的用法。

可以在SQLContext上使用setConf方法或者在用SQL時運行SET key=value命令來配置內存緩存。

Property Name	Default	Meaning
spark.sql.inMemoryColumnarStorage.compressed	true	當設置為true時，Spark SQL將為基于數(shù)據統(tǒng)計信息的每列自動選擇一個壓縮算法。
spark.sql.inMemoryColumnarStorage.batchSize	10000	柱狀緩存的批數(shù)據大小。更大的批數(shù)據可以提高內存的利用率以及壓縮效率，但有OOMs的風險

其它的配置選項

以下的選項也可以用來調整查詢執(zhí)行的性能。有可能這些選項會在以后的版本中棄用，這是因為更多的優(yōu)化會自動執(zhí)行。

Property Name	Default	Meaning
spark.sql.autoBroadcastJoinThreshold	10485760(10m)	配置一個表的最大大小(byte)。當執(zhí)行join操作時，這個表將會廣播到所有的worker節(jié)點?？梢詫⒅翟O置為-1來禁用廣播。注意，目前的統(tǒng)計數(shù)據只支持Hive Metastore表，命令`ANALYZE TABLE <tableName> COMPUTE STATISTICS noscan`已經在這個表中運行。
spark.sql.codegen	false	當為true時，特定查詢中的表達式求值的代碼將會在運行時動態(tài)生成。對于一些擁有復雜表達式的查詢，此選項可導致顯著速度提升。然而，對于簡單的查詢，這個選項會減慢查詢的執(zhí)行
spark.sql.shuffle.partitions	200	配置join或者聚合操作shuffle數(shù)據時分區(qū)的數(shù)量

以上內容是否對您有幫助：

← Spark SQL開始

Spark SQL其他接口 →

寫筆記

我要補充

您使用了广告拦截器。请将 www.w3cschool.cn 加入白名单，解除广告屏蔽后，刷新页面。谢谢。