# 哈夫曼編碼和游程編碼
# 游程編碼和哈夫曼編碼
## Huffman encode(哈夫曼編碼)
Huffman 編碼的基本思想就是用短的編碼表示出現頻率高的字符,用長的編碼來表示出現頻率低的字符,這使得編碼之后的字符串的平均長度、長度的期望值降低,從而實現壓縮的目的。 因此 Huffman 編碼被廣泛地應用于無損壓縮領域。
Huffman 編碼的過程包含兩個主要部分:
- 根據輸入字符構建 Huffman 樹
- 遍歷 Huffman 樹,并將樹的節點分配給字符
上面提到了他的基本原理就是`用短的編碼表示出現頻率高的字符,用長的編碼來表示出現頻率低的字符`, 因此首先要做的就是統計字符的出現頻率,然后根據統計的頻率來構建 Huffman 樹(又叫最優二叉樹)。

Huffman 樹就像是一個堆。真正執行編碼的時候,類似字典樹,節點不用來編碼,節點的路徑用來編碼.
> 節點的值只是用來構建 Huffman 樹
eg:
我們統計的結果如下:
characterfrequencya5b9c12d13e16f45- 將每個元素構造成一個節點,即只有一個元素的樹。并構建一個最小堆,包含所有的節點,該算法用了最小堆來作為優先隊列。
- `選取兩個權值最小的節點`,并添加一個權值為5+9=14的節點,作為他們的父節點。并`更新最小堆`,現在最小堆包含5個節點,其中4個樹還是原來的節點,權值為5和9的節點合并為一個。
結果是這樣的:

characterfrequencyencodinga51100b91101c12100d13101e16111f450## run-length encode(游程編碼)
游程編碼是一種比較簡單的壓縮算法,其基本思想是將重復且連續出現多次的字符使用(連續出現次數,某個字符)來描述。
比如一個字符串:
```
<pre class="calibre18">```
AAAAABBBBCCC
```
```
使用游程編碼可以將其描述為:
```
<pre class="calibre18">```
5A4B3C
```
```
5A表示這個地方有5個連續的A,同理4B表示有4個連續的B,3C表示有3個連續的C,其它情況以此類推。
但是實際上情況可能會非常復雜, 如何提取子序列有時候沒有看的那么簡單,還是上面的例子,我們 有時候可以把`AAAAABBBBCCC`整體看成一個子序列, 更復雜的情況還有很多,這里不做擴展。
對文件進行壓縮比較適合的情況是文件內的二進制有大量的連續重復, 一個經典的例子就是具有大面積色塊的BMP圖像,BMP因為沒有壓縮, 所以看到的是什么樣子存儲的時候二進制就是什么樣子
> 這也是我們圖片傾向于純色的時候,壓縮會有很好的效果
>
> 思考一個問題, 如果我們在CDN上存儲兩個圖片,這兩個圖片幾乎完全一樣,我們是否可以進行優化呢? 這雖然是CDN廠商更應該關心的問題,但是這個問題對我們影響依然很大,值得思考
## 總結
游程編碼和Huffman都是無損壓縮算法,即解壓縮過程不會損失原數據任何內容。 實際情況,我們先用游程編碼一遍,然后再用 Huffman 再次編碼一次。幾乎所有的無損壓縮格式都用到了它們,比如PNG,GIF,PDF,ZIP等。
對于有損壓縮,通常是去除了人類無法識別的顏色,聽力頻率范圍等。也就是說損失了原來的數據。 但由于人類無法識別這部分信息,因此很多情況下都是值得的。這種刪除了人類無法感知內容的編碼,我們稱之為“感知編碼”(也許是一個自創的新名詞),比如JPEG,MP3等。關于有損壓縮不是本文的討論范圍,感興趣的可以搜素相關資料。
實際上,視頻壓縮的原理也是類似,只不過視頻壓縮會用到一些額外的算法,比如“時間冗余”,即僅存儲變化的部分,對于不變的部分,存儲一次就夠了。
## 相關題目
[900.rle-iterator](900.rle-iterator.html)
- Introduction
- 第一章 - 算法專題
- 數據結構
- 基礎算法
- 二叉樹的遍歷
- 動態規劃
- 哈夫曼編碼和游程編碼
- 布隆過濾器
- 字符串問題
- 前綴樹專題
- 《貪婪策略》專題
- 《深度優先遍歷》專題
- 滑動窗口(思路 + 模板)
- 位運算
- 設計題
- 小島問題
- 最大公約數
- 并查集
- 前綴和
- 平衡二叉樹專題
- 第二章 - 91 天學算法
- 第一期講義-二分法
- 第一期講義-雙指針
- 第二期
- 第三章 - 精選題解
- 《日程安排》專題
- 《構造二叉樹》專題
- 字典序列刪除
- 百度的算法面試題 * 祖瑪游戲
- 西法的刷題秘籍】一次搞定前綴和
- 字節跳動的算法面試題是什么難度?
- 字節跳動的算法面試題是什么難度?(第二彈)
- 《我是你的媽媽呀》 * 第一期
- 一文帶你看懂二叉樹的序列化
- 穿上衣服我就不認識你了?來聊聊最長上升子序列
- 你的衣服我扒了 * 《最長公共子序列》
- 一文看懂《最大子序列和問題》
- 第四章 - 高頻考題(簡單)
- 面試題 17.12. BiNode
- 0001. 兩數之和
- 0020. 有效的括號
- 0021. 合并兩個有序鏈表
- 0026. 刪除排序數組中的重復項
- 0053. 最大子序和
- 0088. 合并兩個有序數組
- 0101. 對稱二叉樹
- 0104. 二叉樹的最大深度
- 0108. 將有序數組轉換為二叉搜索樹
- 0121. 買賣股票的最佳時機
- 0122. 買賣股票的最佳時機 II
- 0125. 驗證回文串
- 0136. 只出現一次的數字
- 0155. 最小棧
- 0167. 兩數之和 II * 輸入有序數組
- 0169. 多數元素
- 0172. 階乘后的零
- 0190. 顛倒二進制位
- 0191. 位1的個數
- 0198. 打家劫舍
- 0203. 移除鏈表元素
- 0206. 反轉鏈表
- 0219. 存在重復元素 II
- 0226. 翻轉二叉樹
- 0232. 用棧實現隊列
- 0263. 丑數
- 0283. 移動零
- 0342. 4的冪
- 0349. 兩個數組的交集
- 0371. 兩整數之和
- 0437. 路徑總和 III
- 0455. 分發餅干
- 0575. 分糖果
- 0874. 模擬行走機器人
- 1260. 二維網格遷移
- 1332. 刪除回文子序列
- 第五章 - 高頻考題(中等)
- 0002. 兩數相加
- 0003. 無重復字符的最長子串
- 0005. 最長回文子串
- 0011. 盛最多水的容器
- 0015. 三數之和
- 0017. 電話號碼的字母組合
- 0019. 刪除鏈表的倒數第N個節點
- 0022. 括號生成
- 0024. 兩兩交換鏈表中的節點
- 0029. 兩數相除
- 0031. 下一個排列
- 0033. 搜索旋轉排序數組
- 0039. 組合總和
- 0040. 組合總和 II
- 0046. 全排列
- 0047. 全排列 II
- 0048. 旋轉圖像
- 0049. 字母異位詞分組
- 0050. Pow(x, n)
- 0055. 跳躍游戲
- 0056. 合并區間
- 0060. 第k個排列
- 0062. 不同路徑
- 0073. 矩陣置零
- 0075. 顏色分類
- 0078. 子集
- 0079. 單詞搜索
- 0080. 刪除排序數組中的重復項 II
- 0086. 分隔鏈表
- 0090. 子集 II
- 0091. 解碼方法
- 0092. 反轉鏈表 II
- 0094. 二叉樹的中序遍歷
- 0095. 不同的二叉搜索樹 II
- 0096. 不同的二叉搜索樹
- 0098. 驗證二叉搜索樹
- 0102. 二叉樹的層序遍歷
- 0103. 二叉樹的鋸齒形層次遍歷
- 105. 從前序與中序遍歷序列構造二叉樹
- 0113. 路徑總和 II
- 0129. 求根到葉子節點數字之和
- 0130. 被圍繞的區域
- 0131. 分割回文串
- 0139. 單詞拆分
- 0144. 二叉樹的前序遍歷
- 0150. 逆波蘭表達式求值
- 0152. 乘積最大子數組
- 0199. 二叉樹的右視圖
- 0200. 島嶼數量
- 0201. 數字范圍按位與
- 0208. 實現 Trie (前綴樹)
- 0209. 長度最小的子數組
- 0211. 添加與搜索單詞 * 數據結構設計
- 0215. 數組中的第K個最大元素
- 0221. 最大正方形
- 0229. 求眾數 II
- 0230. 二叉搜索樹中第K小的元素
- 0236. 二叉樹的最近公共祖先
- 0238. 除自身以外數組的乘積
- 0240. 搜索二維矩陣 II
- 0279. 完全平方數
- 0309. 最佳買賣股票時機含冷凍期
- 0322. 零錢兌換
- 0328. 奇偶鏈表
- 0334. 遞增的三元子序列
- 0337. 打家劫舍 III
- 0343. 整數拆分
- 0365. 水壺問題
- 0378. 有序矩陣中第K小的元素
- 0380. 常數時間插入、刪除和獲取隨機元素
- 0416. 分割等和子集
- 0445. 兩數相加 II
- 0454. 四數相加 II
- 0494. 目標和
- 0516. 最長回文子序列
- 0518. 零錢兌換 II
- 0547. 朋友圈
- 0560. 和為K的子數組
- 0609. 在系統中查找重復文件
- 0611. 有效三角形的個數
- 0718. 最長重復子數組
- 0754. 到達終點數字
- 0785. 判斷二分圖
- 0820. 單詞的壓縮編碼
- 0875. 愛吃香蕉的珂珂
- 0877. 石子游戲
- 0886. 可能的二分法
- 0900. RLE 迭代器
- 0912. 排序數組
- 0935. 騎士撥號器
- 1011. 在 D 天內送達包裹的能力
- 1014. 最佳觀光組合
- 1015. 可被 K 整除的最小整數
- 1019. 鏈表中的下一個更大節點
- 1020. 飛地的數量
- 1023. 駝峰式匹配
- 1031. 兩個非重疊子數組的最大和
- 1104. 二叉樹尋路
- 1131.絕對值表達式的最大值
- 1186. 刪除一次得到子數組最大和
- 1218. 最長定差子序列
- 1227. 飛機座位分配概率
- 1261. 在受污染的二叉樹中查找元素
- 1262. 可被三整除的最大和
- 1297. 子串的最大出現次數
- 1310. 子數組異或查詢
- 1334. 閾值距離內鄰居最少的城市
- 1371.每個元音包含偶數次的最長子字符串
- 第六章 - 高頻考題(困難)
- 0004. 尋找兩個正序數組的中位數
- 0023. 合并K個升序鏈表
- 0025. K 個一組翻轉鏈表
- 0030. 串聯所有單詞的子串
- 0032. 最長有效括號
- 0042. 接雨水
- 0052. N皇后 II
- 0084. 柱狀圖中最大的矩形
- 0085. 最大矩形
- 0124. 二叉樹中的最大路徑和
- 0128. 最長連續序列
- 0145. 二叉樹的后序遍歷
- 0212. 單詞搜索 II
- 0239. 滑動窗口最大值
- 0295. 數據流的中位數
- 0301. 刪除無效的括號
- 0312. 戳氣球
- 0335. 路徑交叉
- 0460. LFU緩存
- 0472. 連接詞
- 0488. 祖瑪游戲
- 0493. 翻轉對
- 0887. 雞蛋掉落
- 0895. 最大頻率棧
- 1032. 字符流
- 1168. 水資源分配優化
- 1449. 數位成本和為目標值的最大數字
- 后序