[TOC]
# 垃圾回收
* 如何判定對象為垃圾對象
- 引用計數法
- 可達性分析法
* 回收策略
- 標記-清除算法
- 復制算法
- 標記-整理算法
- 分代回收算法
* 垃圾回收器
- Serial
- Parnew
- Cms
- G1
# 算法
## 引用計數算法
在對象中添加一個引用計數器,當有地方引用這個對象的時候,引用計數器的值就+1,當引用失效的時候,計數器的值就-1.
打印gc信息
* -verbose:gc
* -xx:+PrintGCDetails
## 可達性分析算法
作為GCRoots的對象
* 虛擬機棧
* 方法區的類屬性所引用的對象
* 方法區中常量所引用的對象
* 本地方法棧中引用的對象
## 標記-清除算法
* 效率問題
* 空間問題,空間碎片
## 復制算法
* 堆
- 新生代
- Eden伊甸園
- Survivor 存活區
- Tenured Gen
- 老年代
將內存分為一大塊Eden和其中一塊Survivor.
當Eden和Survivor中還存活著的對象一次性復制到另一塊Survivor空間上.
最后清理到剛才的Eden和Survivor.
默認Eden和Survivior比例是8:1.
當Survivor空間不夠用的時候需要依賴其他內存(老年代),進行分配擔保
## 標記-整理算法
標記過程和標記-清除算法一樣.
后續不是直接對可回收對象進行整理,而是讓所有存活的對象都向一端移動,然后直接清理掉端邊界以外的內存
## 分代收集算法
根據對象的存活周期,把堆分為新生代和老年代.
根據不同區域選擇最適當的算法.
在新生代中,每次垃圾收集時都發現有大批對象死去,只有少量的存活,那就用復制算法,只要付出少量存活對象的復制成本就可以完成收集.
老年代中因為對象存活率高,沒有額外空間對他進行分配擔保,那就用標記-清理,標記-整理算法
# HotSpot算法實現
# 相關概念
## 并行和并發
* **并行(Parallel)**:指多條垃圾收集線程并行工作,但此時用戶線程仍然處于等待狀態。
* **并發(Concurrent)**:指用戶線程與垃圾收集線程同時執行(但不一定是并行的,可能會交替執行),用戶程序在繼續運行。而垃圾收集程序運行在另一個CPU上。
## 吞吐量(Throughput)
吞吐量就是**CPU用于運行用戶代碼的時間**與**CPU總消耗時間**的比值,即
**吞吐量 = 運行用戶代碼時間 /(運行用戶代碼時間 + 垃圾收集時間)。**
假設虛擬機總共運行了100分鐘,其中垃圾收集花掉1分鐘,那吞吐量就是99%。
## Minor GC 和 Full GC
* **新生代GC(Minor GC)**:指發生在新生代的垃圾收集動作,因為Java對象大多都具備朝生夕滅的特性,所以Minor GC非常頻繁,一般回收速度也比較快。具體原理見上一篇文章。
* **老年代GC(Major GC / Full GC)**:指發生在老年代的GC,出現了Major GC,經常會伴隨至少一次的Minor GC(但非絕對的,在Parallel Scavenge收集器的收集策略里就有直接進行Major GC的策略選擇過程)。Major GC的速度一般會比Minor GC慢10倍以上。
## 收集器配合
展示了7種作用于不同分代的收集器,如果兩個收集器之間存在連線,就說明它們可以搭配使用。虛擬機所處的區域,則表示它是屬于新生代收集器還是老年代收集器。
Hotspot實現了如此多的收集器,正是因為目前并無完美的收集器出現,只是選擇對具體應用最適合的收集器。

## YGC和FGC是什么
??YGC?:對新生代堆進行gc。頻率比較高,因為大部分對象的存活壽命較短,在新生代里被回收。性能耗費較小。
??FGC?:全堆范圍的gc。默認堆空間使用到達80%(可調整)的時候會觸發fgc。以我們生產環境為例,一般比較少會觸發fgc,有時10天或一周左右會有一次。
## 什么時候執行YGC和FGC
**YGC的時機:**
* edn空間不足
**FGC的時機:**
* old空間不足;
* perm空間不足;
* 顯示調用System.gc()?,包括RMI等的定時觸發;
* YGC時的悲觀策略;
* dump live的內存信息時(jmap –dump:live)。
對YGC的?觸發時機,相當的顯而易見,就是eden空間不足,?這時候就肯定會觸發ygc
對于FGC的觸發時機,?old空間不足,?和perm的空間不足,?調用system.gc()這幾個都比較顯而易見,就是在這種情況下,?一般都會觸發GC。
最復雜的是所謂的悲觀策略,它觸發的機制是在首先會計算之前晉升的平均大小,也就是從新生代,通過ygc變成新生代的平均大小,然后如果舊生代剩余的空間小于晉升大小,那么就會觸發一次FullGC。sdk考慮的策略是,?從平均和長遠的情況來看,下次晉升空間不夠的可能性非常大,?與其等到那時候在fullGC?不如悲觀的認為下次肯定會觸發FullGC,?直接先執行一次FullGC。而且從實際使用過程中來看,?也達到了比較穩定的效果。
# 新生代收集器
## Serial收集器
**Stop The World**
* 單線程垃圾收集器
* 桌面應用
只會使用一個cpu或者一條收集器會完成,中間這段時間會停止其他線程,等待GC完成.
下圖展示了Serial 收集器(老年代采用Serial Old收集器)的運行過程:

## ParNew收集器
Serial收集器多線程版本,使用多線程進行GC
ParNew收集器的工作過程如下圖(老年代采用Serial Old收集器):

**除了Serial收集器外,目前只有它能和CMS收集器(Concurrent Mark Sweep)配合工作**
默認開啟的收集線程數與CPU的數量相同,在CPU非常多的情況下可使用**\-XX:ParallerGCThreads**參數設置
## Parallel Scavenge收集器
是一個**并行**的**多線程新生代**收集器,它也使用**復制算法**
CMS等收集器的關注點是盡可能縮短垃圾收集時用戶線程的停頓時間,而Parallel Scavenge收集器的目標是**達到一個可控制的吞吐量(Throughput)**
**停頓時間越短就越適合需要與用戶交互的程序**,良好的響應速度能提升用戶體驗。而**高吞吐量**則可以高效率地利用CPU時間,盡快完成程序的運算任務,主要適合**在后臺運算而不需要太多交互的任務**。
除了會顯而易見地提供可以精確控制吞吐量的參數,還提供了一個參數**\-XX:+UseAdaptiveSizePolicy**,這是一個開關參數,打開參數后,就不需要手工指定新生代的大小(-Xmn)、Eden和Survivor區的比例(-XX:SurvivorRatio)、晉升老年代對象年齡(-XX:PretenureSizeThreshold)等細節參數了,虛擬機會根據當前系統的運行情況收集性能監控信息,動態調整這些參數以提供最合適的停頓時間或者最大的吞吐量,這種方式稱為**GC自適應的調節策略(GC Ergonomics)**。自適應調節策略也是Parallel Scavenge收集器與ParNew收集器的一個重要區別。
控制吞吐量(執行用戶代碼時間 / (執行用戶代碼的時間 + 垃圾回收所占用的時間))
* -XX:MaxGFPauseMillis垃圾收集器停頓時間
* -XX:CGTimeRatio吞吐量大小
- (0, 100)吞吐量大小
- 99默認
# 老年代收集器
## Serial Old收集器
Serial Old 是 Serial收集器的老年代版本,它同樣是一個**單線程收集器**,使用**“標記-整理”(Mark-Compact)**算法。
此收集器的主要意義也是在于給Client模式下的虛擬機使用。如果在Server模式下,它還有兩大用途:
* 在JDK1.5 以及之前版本(Parallel Old誕生以前)中與Parallel Scavenge收集器搭配使用。
* 作為CMS收集器的后備預案,在并發收集發生**Concurrent Mode Failure**時使用
它的工作流程與Serial收集器相同,這里再次給出Serial/Serial Old配合使用的工作流程圖:

## Parallel Old收集器
Parallel Old收集器是Parallel Scavenge收集器的老年代版本,使用**多線程**和**“標記-整理”**算法.
**吞吐量優先”收集器**終于有了比較名副其實的應用組合,在**注重吞吐量**以及**CPU資源敏感**的場合,都可以優先考慮Parallel Scavenge加Parallel Old收集器。Parallel Old收集器的工作流程與Parallel Scavenge相同,這里給出Parallel Scavenge/Parallel Old收集器配合使用的流程圖:

## CMS收集器
是一種以**獲取最短回收停頓時間**為目標的收集器,它非常符合那些集中在互聯網站或者B/S系統的服務端上的Java應用,這些應用都非常重視服務的響應速度
**并發的標記-清除收集器**
* 工作過程
- 初始標記:僅僅只是標記一下GC Roots能直接關聯到的對象,速度很快,需要“Stop The World”.
- 并發標記:進行**GC Roots Tracing**的過程,在整個過程中耗時最長.
- 重新標記:為了修正并發標記期間因用戶程序繼續運作而導致標記產生變動的那一部分對象的標記記錄,這個階段的停頓時間一般會比初始標記階段稍長一些,但遠比并發標記的時間短。此階段也需要“Stop The World”.
- 并發清理


如果那塊內存區域給的不夠會出現Concurrent Mode Failure
* 優點
- 并發收集
- 低停頓
* 缺點
- 占用大量的cpu資源
- 無法處理浮動垃圾
- 出現Concurrent Mode Failure
- 空間碎片: 標記-清除算法
可能出現“Concurrent Mode Failure”失敗而導致另一次Full GC的產生。**由于CMS并發清理階段用戶線程還在運行著,伴隨程序運行自然就還會有新的垃圾不斷產生。**這一部分垃圾出現在標記過程之后,CMS無法再當次收集中處理掉它們,只好留待下一次GC時再清理掉。這一部分垃圾就被稱為**“浮動垃圾”**。也是由于在垃圾收集階段用戶線程還需要運行,那也就還需要預留有足夠的內存空間給用戶線程使用,因此CMS收集器不能像其他收集器那樣等到老年代幾乎完全被填滿了再進行收集,需要預留一部分空間提供并發收集時的程序運作使用。
# G1收集器
步驟
* **初始標記(Initial Marking)**僅僅只是標記一下GC Roots 能直接關聯到的對象,并且修改**TAMS(Nest Top Mark Start)**的值,讓下一階段用戶程序并發運行時,能在正確可以的Region中創建對象,此階段需要**停頓線程**,但耗時很短。
* **并發標記(Concurrent Marking)**從GC Root 開始對堆中對象進行**可達性分析**,找到存活對象,此階段耗時較長,但**可與用戶程序并發執行**。
* **最終標記(Final Marking)**為了修正在并發標記期間因用戶程序繼續運作而導致標記產生變動的那一部分標記記錄,虛擬機將這段時間對象變化記錄在**線程的Remembered Set Logs**里面,最終標記階段需要**把Remembered Set Logs的數據合并到Remembered Set中**,這階段需要**停頓線程**,但是**可并行執行**。
* **篩選回收(Live Data Counting and Evacuation)** 首先對各個Region中的回收價值和成本進行排序,根據用戶所期望的GC 停頓是時間來制定回收計劃。此階段其實也可以做到與用戶程序一起并發執行,但是因為只回收一部分Region,時間是用戶可控制的,而且停頓用戶線程將大幅度提高收集效率。
通過下圖可以比較清楚地看到G1收集器的運作步驟中并發和需要停頓的階段(Safepoint處):

**橫跨整個堆內存**
在G1之前的其他收集器進行收集的范圍都是整個新生代或者老生代,而G1不再是這樣。G1在使用時,Java堆的內存布局與其他收集器有很大區別,它**將整個Java堆劃分為多個大小相等的獨立區域(Region)**,雖然還保留新生代和老年代的概念,但**新生代和老年代不再是物理隔離的了,而都是一部分Region(不需要連續)的集合**
**有計劃地避免在整個Java堆中進行全區域的垃圾收集**
**在后臺維護一個優先列表**
**優先回收價值最大的Region**
**避免全堆掃描——Remembered Set**
為了避免全堆掃描的發生,虛擬機**為G1中每個Region維護了一個與之對應的Remembered Set**。虛擬機發現程序在對Reference類型的數據進行寫操作時,會產生一個Write Barrier暫時中斷寫操作,檢查Reference引用的對象是否處于不同的Region之中(在分代的例子中就是檢查是否老年代中的對象引用了新生代中的對象),如果是,便通過CardTable**把相關引用信息記錄到被引用對象所屬的Region的Remembered Set之中**。當進行內存回收時,在GC根節點的枚舉范圍中加入Remembered Set即可保證不對全堆掃描也不會有遺漏。
* 優勢
- 并行與并發
- 分代收集
- 空間整合: 整體來看是基于標記-整理,從局部(兩個Region之間)上來看是基于復制算法實現的
- 可預測的停頓
* 步驟
- 初始標記
- 并發標記
- 最終標記
- 篩選回收
- 基礎
- 編譯和安裝
- classpath到底是什么?
- 編譯運行
- 安裝
- sdkman多版本
- jabba多版本
- java字節碼查看
- 數據類型
- 簡介
- 整形
- char和int
- 變量和常量
- 大數值運算
- 基本類型包裝類
- Math類
- 內存劃分
- 位運算符
- 方法相關
- 方法重載
- 可變參數
- 方法引用
- 面向對象
- 定義
- 繼承和覆蓋
- 接口和抽象類
- 接口定義增強
- 內建函數式接口
- 多態
- 泛型
- final和static
- 內部類
- 包
- 修飾符
- 異常
- 枚舉類
- 代碼塊
- 對象克隆
- BeanUtils
- java基礎類
- scanner類
- Random類
- System類
- Runtime類
- Comparable接口
- Comparator接口
- MessageFormat類
- NumberFormat
- 數組相關
- 數組
- Arrays
- string相關
- String
- StringBuffer
- StringBuilder
- 正則
- 日期類
- Locale類
- Date
- DateFormat
- SimpleDateFormat
- Calendar
- 新時間日期API
- 簡介
- LocalDate,LocalTime,LocalDateTime
- Instant時間點
- 帶時區的日期,時間處理
- 時間間隔
- 日期時間校正器
- TimeUnit
- 用yyyy
- 集合
- 集合和迭代器
- ArrayList集合
- List
- Set
- 判斷集合唯一
- Map和Entry
- stack類
- Collections集合工具類
- Stream數據流
- foreach不能修改內部元素
- of方法
- IO
- File類
- 字節流stream
- 字符流Reader
- IO流分類
- 轉換流
- 緩沖流
- 流的操作規律
- properties
- 序列化流與反序列化流
- 打印流
- System類對IO支持
- commons-IO
- IO流總結
- NIO
- 異步與非阻塞
- IO通信
- Unix的IO模型
- epoll對于文件描述符操作模式
- 用戶空間和內核空間
- NIO與普通IO的主要區別
- Paths,Path,Files
- Buffer
- Channel
- Selector
- Pipe
- Charset
- NIO代碼
- 多線程
- 創建線程
- 線程常用方法
- 線程池相關
- 線程池概念
- ThreadPoolExecutor
- Runnable和Callable
- 常用的幾種線程池
- 線程安全
- 線程同步的幾種方法
- synchronized
- 死鎖
- lock接口
- ThreadLoad
- ReentrantLock
- 讀寫鎖
- 鎖的相關概念
- volatile
- 釋放鎖和不釋放鎖的操作
- 等待喚醒機制
- 線程狀態
- 守護線程和普通線程
- Lamda表達式
- 反射相關
- 類加載器
- 反射
- 注解
- junit注解
- 動態代理
- 網絡編程相關
- 簡介
- UDP
- TCP
- 多線程socket上傳圖片
- NIO
- JDBC相關
- JDBC
- 預處理
- 批處理
- 事務
- properties配置文件
- DBUtils
- DBCP連接池
- C3P0連接池
- 獲得MySQL自動生成的主鍵
- Optional類
- Jigsaw模塊化
- 日志相關
- JDK日志
- log4j
- logback
- xml
- tomcat
- maven
- 簡介
- 倉庫
- 目錄結構
- 常用命令
- 生命周期
- idea配置
- jar包沖突
- 依賴范圍
- 私服
- 插件
- git-commit-id-plugin
- maven-assembly-plugin
- maven-resources-plugin
- maven-compiler-plugin
- versions-maven-plugin
- maven-source-plugin
- tomcat-maven-plugin
- 多環境
- 自定義插件
- stream
- swing
- json
- jackson
- optional
- junit
- gradle
- servlet
- 配置
- ServletContext
- 生命周期
- HttpServlet
- request
- response
- 亂碼
- session和cookie
- cookie
- session
- jsp
- 簡介
- 注釋
- 方法,成員變量
- 指令
- 動作標簽
- 隱式對象
- EL
- JSTL
- javaBean
- listener監聽器
- Filter過濾器
- 圖片驗證碼
- HttpUrlConnection
- 國際化
- 文件上傳
- 文件下載
- spring
- 簡介
- Bean
- 獲取和實例化
- 屬性注入
- 自動裝配
- 繼承和依賴
- 作用域
- 使用外部屬性文件
- spel
- 前后置處理器
- 生命周期
- 掃描規則
- 整合多個配置文件
- 注解
- 簡介
- 注解分層
- 類注入
- 分層和作用域
- 初始化方法和銷毀方法
- 屬性
- 泛型注入
- Configuration配置文件
- aop
- aop的實現
- 動態代理實現
- cglib代理實現
- aop名詞
- 簡介
- aop-xml
- aop-注解
- 代理方式選擇
- jdbc
- 簡介
- JDBCTemplate
- 事務
- 整合
- junit整合
- hibernate
- 簡介
- hibernate.properties
- 實體對象三種狀態
- 檢索方式
- 簡介
- 導航對象圖檢索
- OID檢索
- HQL
- Criteria(QBC)
- Query
- 緩存
- 事務管理
- 關系映射
- 注解
- 優化
- MyBatis
- 簡介
- 入門程序
- Mapper動態代理開發
- 原始Dao開發
- Mapper接口開發
- SqlMapConfig.xml
- map映射文件
- 輸出返回map
- 輸入參數
- pojo包裝類
- 多個輸入參數
- resultMap
- 動態sql
- 關聯
- 一對一
- 一對多
- 多對多
- 整合spring
- CURD
- 占位符和sql拼接以及參數處理
- 緩存
- 延遲加載
- 注解開發
- springMVC
- 簡介
- RequestMapping
- 參數綁定
- 常用注解
- 響應
- 文件上傳
- 異常處理
- 攔截器
- springBoot
- 配置
- 熱更新
- java配置
- springboot配置
- yaml語法
- 運行
- Actuator 監控
- 多環境配置切換
- 日志
- 日志簡介
- logback和access
- 日志文件配置屬性
- 開機自啟
- aop
- 整合
- 整合Redis
- 整合Spring Data JPA
- 基本查詢
- 復雜查詢
- 多數據源的支持
- Repository分析
- JpaSpeci?cationExecutor
- 整合Junit
- 整合mybatis
- 常用注解
- 基本操作
- 通用mapper
- 動態sql
- 關聯映射
- 使用xml
- spring容器
- 整合druid
- 整合郵件
- 整合fastjson
- 整合swagger
- 整合JDBC
- 整合spingboot-cache
- 請求
- restful
- 攔截器
- 常用注解
- 參數校驗
- 自定義filter
- websocket
- 響應
- 異常錯誤處理
- 文件下載
- 常用注解
- 頁面
- Thymeleaf組件
- 基本對象
- 內嵌對象
- 上傳文件
- 單元測試
- 模擬請求測試
- 集成測試
- 源碼解析
- 自動配置原理
- 啟動流程分析
- 源碼相關鏈接
- Servlet,Filter,Listener
- springcloud
- 配置
- 父pom
- 創建子工程
- Eureka
- Hystrix
- Ribbon
- Feign
- Zuul
- kotlin
- 基本數據類型
- 函數
- 區間
- 區塊鏈
- 簡介
- linux
- ulimit修改
- 防止syn攻擊
- centos7部署bbr
- debain9開啟bbr
- mysql
- 隔離性
- sql執行加載順序
- 7種join
- explain
- 索引失效和優化
- 表連接優化
- orderby的filesort問題
- 慢查詢
- show profile
- 全局查詢日志
- 死鎖解決
- sql
- 主從
- IDEA
- mac快捷鍵
- 美化界面
- 斷點調試
- 重構
- springboot-devtools熱部署
- IDEA進行JAR打包
- 導入jar包
- ProjectStructure
- toString添加json模板
- 配置maven
- Lombok插件
- rest client
- 文檔顯示
- sftp文件同步
- 書簽
- 代碼查看和搜索
- postfix
- live template
- git
- 文件頭注釋
- JRebel
- 離線模式
- xRebel
- github
- 連接mysql
- 選項沒有Java class的解決方法
- 擴展
- 項目配置和web部署
- 前端開發
- json和Inject language
- idea內存和cpu變高
- 相關設置
- 設計模式
- 單例模式
- 簡介
- 責任鏈
- JUC
- 原子類
- 原子類簡介
- 基本類型原子類
- 數組類型原子類
- 引用類型原子類
- JVM
- JVM規范內存解析
- 對象的創建和結構
- 垃圾回收
- 內存分配策略
- 備注
- 虛擬機工具
- 內存模型
- 同步八種操作
- 內存區域大小參數設置
- happens-before
- web service
- tomcat
- HTTPS
- nginx
- 變量
- 運算符
- 模塊
- Rewrite規則
- Netty
- netty為什么沒用AIO
- 基本組件
- 源碼解讀
- 簡單的socket例子
- 準備netty
- netty服務端啟動
- 案例一:發送字符串
- 案例二:發送對象
- websocket
- ActiveMQ
- JMS
- 安裝
- 生產者-消費者代碼
- 整合springboot
- kafka
- 簡介
- 安裝
- 圖形化界面
- 生產過程分析
- 保存消息分析
- 消費過程分析
- 命令行
- 生產者
- 消費者
- 攔截器interceptor
- partition
- kafka為什么快
- kafka streams
- kafka與flume整合
- RabbitMQ
- AMQP
- 整體架構
- RabbitMQ安裝
- rpm方式安裝
- 命令行和管控頁面
- 消息生產與消費
- 整合springboot
- 依賴和配置
- 簡單測試
- 多方測試
- 對象支持
- Topic Exchange模式
- Fanout Exchange訂閱
- 消息確認
- java client
- RabbitAdmin和RabbitTemplate
- 兩者簡介
- RabbitmqAdmin
- RabbitTemplate
- SimpleMessageListenerContainer
- MessageListenerAdapter
- MessageConverter
- 詳解
- Jackson2JsonMessageConverter
- ContentTypeDelegatingMessageConverter
- lucene
- 簡介
- 入門程序
- luke查看索引
- 分析器
- 索引庫維護
- elasticsearch
- 配置
- 插件
- head插件
- ik分詞插件
- 常用術語
- Mapping映射
- 數據類型
- 屬性方法
- Dynamic Mapping
- Index Template 索引模板
- 管理映射
- 建立映射
- 索引操作
- 單模式下CURD
- mget多個文檔
- 批量操作
- 版本控制
- 基本查詢
- Filter過濾
- 組合查詢
- 分析器
- redis
- String
- list
- hash
- set
- sortedset
- 發布訂閱
- 事務
- 連接池
- 管道
- 分布式可重入鎖
- 配置文件翻譯
- 持久化
- RDB
- AOF
- 總結
- Lettuce
- zookeeper
- zookeeper簡介
- 集群部署
- Observer模式
- 核心工作機制
- zk命令行操作
- zk客戶端API
- 感知服務動態上下線
- 分布式共享鎖
- 原理
- zab協議
- 兩階段提交協議
- 三階段提交協議
- Paxos協議
- ZAB協議
- hadoop
- 簡介
- hadoop安裝
- 集群安裝
- 單機安裝
- linux編譯hadoop
- 添加新節點
- 退役舊節點
- 集群間數據拷貝
- 歸檔
- 快照管理
- 回收站
- 檢查hdfs健康狀態
- 安全模式
- hdfs簡介
- hdfs命令行操作
- 常見問題匯總
- hdfs客戶端操作
- mapreduce工作機制
- 案例-單詞統計
- 局部聚合Combiner
- combiner流程
- combiner案例
- 自定義排序
- 自定義Bean對象
- 排序的分類
- 案例-按總量排序需求
- 一次性完成統計和排序
- 分區
- 分區簡介
- 案例-結果分區
- 多表合并
- reducer端合并
- map端合并(分布式緩存)
- 分組
- groupingComparator
- 案例-求topN
- 全局計數器
- 合并小文件
- 小文件的弊端
- CombineTextInputFormat機制
- 自定義InputFormat
- 自定義outputFormat
- 多job串聯
- 倒排索引
- 共同好友
- 串聯
- 數據壓縮
- InputFormat接口實現類
- yarn簡介
- 推測執行算法
- 本地提交到yarn
- 框架運算全流程
- 數據傾斜問題
- mapreduce的優化方案
- HA機制
- 優化
- Hive
- 安裝
- shell參數
- 數據類型
- 集合類型
- 數據庫
- DDL操作
- 創建表
- 修改表
- 分區表
- 分桶表
- DML操作
- load
- insert
- select
- export,import
- Truncate
- 注意
- 嚴格模式
- 函數
- 內置運算符
- 內置函數
- 自定義函數
- Transfrom實現
- having和where不同
- 壓縮
- 存儲
- 存儲和壓縮結合使用
- explain詳解
- 調優
- Fetch抓取
- 本地模式
- 表的優化
- GroupBy
- count(Distinct)去重統計
- 行列過濾
- 動態分區調整
- 數據傾斜
- 并行執行
- JVM重用
- 推測執行
- reduce內存和個數
- sql查詢結果作為變量(shell)
- youtube
- flume
- 簡介
- 安裝
- 常用組件
- 攔截器
- 案例
- 監聽端口到控制臺
- 采集目錄到HDFS
- 采集文件到HDFS
- 多個agent串聯
- 日志采集和匯總
- 單flume多channel,sink
- 自定義攔截器
- 高可用配置
- 使用注意
- 監控Ganglia
- sqoop
- 安裝
- 常用命令
- 數據導入
- 準備數據
- 導入數據到HDFS
- 導入關系表到HIVE
- 導入表數據子集
- 增量導入
- 數據導出
- 打包腳本
- 作業
- 原理
- azkaban
- 簡介
- 安裝
- 案例
- 簡介
- command類型單一job
- command類型多job工作流flow
- HDFS操作任務
- mapreduce任務
- hive腳本任務
- oozie
- 安裝
- hbase
- 簡介
- 系統架構
- 物理存儲
- 尋址機制
- 讀寫過程
- 安裝
- 命令行
- 基本CURD
- java api
- CURD
- CAS
- 過濾器查詢
- 建表高級屬性
- 與mapreduce結合
- 與sqoop結合
- 協處理器
- 參數配置優化
- 數據備份和恢復
- 節點管理
- 案例-點擊流
- 簡介
- HUE
- 安裝
- storm
- 簡介
- 安裝
- 集群啟動及任務過程分析
- 單詞統計
- 單詞統計(接入kafka)
- 并行度和分組
- 啟動流程分析
- ACK容錯機制
- ACK簡介
- BaseRichBolt簡單使用
- BaseBasicBolt簡單使用
- Ack工作機制
- 本地目錄樹
- zookeeper目錄樹
- 通信機制
- 案例
- 日志告警
- 工具
- YAPI
- chrome無法手動拖動安裝插件
- 時間和空間復雜度
- jenkins
- 定位cpu 100%
- 常用腳本工具
- OOM問題定位
- scala
- 編譯
- 基本語法
- 函數
- 數組常用方法
- 集合
- 并行集合
- 類
- 模式匹配
- 異常
- tuple元祖
- actor并發編程
- 柯里化
- 隱式轉換
- 泛型
- 迭代器
- 流stream
- 視圖view
- 控制抽象
- 注解
- spark
- 企業架構
- 安裝
- api開發
- mycat
- Groovy
- 基礎