內存調優 · Spark 編程指南簡體中文版

# 內存調優調整內存的使用以及Spark應用程序的垃圾回收行為已經在[Spark優化指南](#)中詳細介紹。在這一節，我們重點介紹幾個強烈推薦的自定義選項，它們可以減少Spark Streaming應用程序垃圾回收的相關暫停，獲得更穩定的批處理時間。 - Default persistence level of DStreams：和RDDs不同的是，默認的持久化級別是序列化數據到內存中（DStream是`StorageLevel.MEMORY_ONLY_SER`，RDD是`StorageLevel.MEMORY_ONLY`）。即使保存數據為序列化形態會增加序列化/反序列化的開銷，但是可以明顯的減少垃圾回收的暫停。 - Clearing persistent RDDs：默認情況下，通過Spark內置策略（LUR），Spark Streaming生成的持久化RDD將會從內存中清理掉。如果spark.cleaner.ttl已經設置了，比這個時間存在更老的持久化RDD將會被定時的清理掉。正如前面提到的那樣，這個值需要根據Spark Streaming應用程序的操作小心設置。然而，可以設置配置選項`spark.streaming.unpersist`為true來更智能的去持久化（unpersist）RDD。這個配置使系統找出那些不需要經常保有的RDD，然后去持久化它們。這可以減少Spark RDD的內存使用，也可能改善垃圾回收的行為。 - Concurrent garbage collector：使用并發的標記-清除垃圾回收可以進一步減少垃圾回收的暫停時間。盡管并發的垃圾回收會減少系統的整體吞吐量，但是仍然推薦使用它以獲得更穩定的批處理時間。