## 字符編碼
### 前言
一直以來想寫一篇文章通俗的講一下字符編碼這件事,一是因為工作中經常用到,雖然理解,但是使用時總覺得底氣不足容易出錯,所以希望對自己的理解有個總結,從最開始的源頭去理清它,讓我以后即使不碰代碼很久,但只要一想到這篇文章就能夠馬上記起,馬上理解。二是因為網上的文章大多是講概念,只講“是什么”,沒有講“為什么”,沒有很好的講清楚什么是編碼,為什么要編碼,另外我也希望非程序員也能夠理解字符編碼這件事,編碼并不只是在和計算機打交道時才需要用到,日常生活中也會用到,只是大家平常沒覺察到,編碼只是信息轉換的思想而已,如果大家學會了這種思想,會重新發現生活中還有很多與編碼相關的有趣的事情。
所以這是一篇通俗易懂,適合任何人群閱讀的文章,不論你是程序員,還是非計算機相關職業的,只要你想了解字符編碼就都可以閱讀,比如你想知道文檔里出現的亂碼是什么東西,又為什么亂碼,火星文是什么,emoji 表情是什么,為什么有的軟件中昵稱設置不支持帶表情,...,等等這類問題其實都和編碼有關,好了不多說,讓我們開始吧。
----
### 先看字面意思
字符編碼由字符和編碼兩個詞組成,字符就是你現在看到的每個文字,也就是一切文字和一切符號,字符是用來表示信息的,為了描述更準確直接,你可以將文字看作是符號,下面我們只說符號而不提字了,這個符號可以是任何象征形態,不只是漢字,比如你和小伙伴創造了一個只有你們才知道意思的符號,其他人看到只是一個奇怪的涂鴉形狀,但只有你們知道這個符號的意思,這種符號也是一個符號,所以**符號是信息的載體**,任何形狀只要你賦予了它含義,它就是一個攜帶的符號了。
萬物皆有所相,都能通過信息描述出來,所以世界上才會有那么多的符號,我們創造符號都是有目的,都是為了描述信息的。
怎么理解字符是信息的載體呢,你能看到這篇文章,閱讀時就如同有人在跟你對話一樣,我將我想說的傳達到你了,這種傳達就是通過我敲下的字符表達出來的。我將想表達的思想用符號寫成文章,你讀到這些符號,“聽”到了我的表達,我們沒有面對面,但是我想表達的信息卻通過符號傳達給你了,所以符號就是信息的載體。
所以,字符就是符號,符號是信息的載體。
再來看編碼,講編碼之前我們還是先看個生活中的場景。現在先理解字符就行了,不急著講編碼,否則一開始就涉及到枯燥的理論規則大家可能就沒了興趣,先理解了編碼的來龍去脈,到后面大家知其所以然,水到渠成自然就理解了。
----
### 如何分辨煎包是什么餡的
----
### 程序里的編碼
寫過代碼的對編碼 `encode` 和解碼 `decode` 兩個函數都不陌生了,
----
### 摩斯密碼
符號是信息載體,那聲音可以嗎,當然也可以。
----
### 電梯里的盲文
----
### 思考
任何信息都可以被編碼,只要有需要都可以設計一套編碼規則。
----
### 參考
~~~
00000000 - 11111111 1個字節,256(8 * 8e)
00 - FF 1個字節,256(16 * 2e)
00000000 - FFFFFFFF 4個字節,4294967296(16 * 8e)
Unicode符號范圍 | UTF-8編碼方式
(十六進制) | (二進制)
----------------------+---------------------------------------------
0000 0000 - 0000 007F | 0xxxxxxx
0000 0080 - 0000 07FF | 110xxxxx 10xxxxxx
0000 0800 - 0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000 - 0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
----
解碼器程序:
1. 讀取前兩個字節,確定 編碼的大小端
2. 確定編碼方式,去除 BOM 等符號
3. 調用對應的編碼解析器
4. 使用編碼器解析字節
5. 考慮字節不完整,不正確的情況
6. 輸出解碼結果
~~~
[Unicode To UTF8 Online· 開發者工具箱](https://devtool.tech/utf8)
[字符編碼筆記:ASCII,Unicode 和 UTF-8 - 阮一峰的網絡日志](http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html)
[非常詳細的字符編碼講解,ASCII、GB2312、GBK、Unicode、UTF-8等知識點都有](https://www.bilibili.com/video/BV1gZ4y1x7p7)
[非常生動的Python2和Python3的編解碼講解](https://www.bilibili.com/video/BV1XK4y1t7D4)
[一個神奇的Unicode字符:RLO(不要拿來干壞事)_嗶哩嗶哩 (゜-゜)つロ 干杯~-bilibili](https://www.bilibili.com/video/BV1Xk4y117He/?spm_id_from=333.788.recommend_more_video.4)
~~~
字節 解碼 成 Unicode形式
Unicode形式 編碼成 字節
在python中它們兩者打印時都可以顯示成字符
字節是編碼的結果,是已確定了編碼類型的(如 utf-8)二值序列,是信息的載體,否則字節就沒有任何意義
信息加載進內存和保存到磁盤上時需要編碼轉換成字節序列,處理或打印時需要解碼出信息,編碼解碼是一種信息轉換規則。
之前 把字符 帶進了編碼解碼 中,看來是錯誤的理解,字符只是顯示時的一種形式符號而已,只是查編碼表顯示出來符號而已,這個過程是操作系統處理的,程序不會干預,在程序內存中并不存在這個符號的概念。
~~~
[【社長說13】當年你用小本本記過蝌蚪文一樣的“密碼”嗎?](https://www.bilibili.com/video/BV1PW411a7p2)
微信設置彩色昵稱,火星文字,長草文字,編碼
[字符串的擴展 - ECMAScript 6入門](https://es6.ruanyifeng.com/#docs/string)
> 有了這種表示法之后,JavaScript 共有 6 種方法可以表示一個字符。
----
% = %25(雞=蛋)(%表示雞,25 表示生一次)
%25 = %2525(蛋 = 雞生的)
%2525 = %252525 (雞生的 = 蛋生的雞再生的蛋)
~~~
雞 = 蛋生的
蛋 = 雞生的
雞 = 蛋生的
蛋 = 雞生的
...
雞 = 雞生的 = 蛋生的
蛋 = 雞生的 = 蛋生的
雞 = 蛋
~~~
----
last update: 2020-12-06 22:45:33
- 開始
- 公益
- 更好的使用看云
- 推薦書單
- 優秀資源整理
- 技術文章寫作規范
- SublimeText - 編碼利器
- PSR-0/PSR-4命名標準
- php的多進程實驗分析
- 高級PHP
- 進程
- 信號
- 事件
- IO模型
- 同步、異步
- socket
- Swoole
- PHP擴展
- Composer
- easyswoole
- php多線程
- 守護程序
- 文件鎖
- s-socket
- aphp
- 隊列&并發
- 隊列
- 講個故事
- 如何最大效率的問題
- 訪問式的web服務(一)
- 訪問式的web服務(二)
- 請求
- 瀏覽器訪問阻塞問題
- Swoole
- 你必須理解的計算機核心概念 - 碼農翻身
- CPU阿甘 - 碼農翻身
- 異步通知,那我要怎么通知你啊?
- 實時操作系統
- 深入實時 Linux
- Redis 實現隊列
- redis與隊列
- 定時-時鐘-阻塞
- 計算機的生命
- 多進程/多線程
- 進程通信
- 拜占庭將軍問題深入探討
- JAVA CAS原理深度分析
- 隊列的思考
- 走進并發的世界
- 鎖
- 事務筆記
- 并發問題帶來的后果
- 為什么說樂觀鎖是安全的
- 內存鎖與內存事務 - 劉小兵2014
- 加鎖還是不加鎖,這是一個問題 - 碼農翻身
- 編程世界的那把鎖 - 碼農翻身
- 如何保證萬無一失
- 傳統事務與柔性事務
- 大白話搞懂什么是同步/異步/阻塞/非阻塞
- redis實現鎖
- 淺談mysql事務
- PHP異常
- php錯誤
- 文件加載
- 路由與偽靜態
- URL模式之分析
- 字符串處理
- 正則表達式
- 數組合并與+
- 文件上傳
- 常用驗證與過濾
- 記錄
- 趣圖
- foreach需要注意的問題
- Discuz!筆記
- 程序設計思維
- 抽象與具體
- 配置
- 關于如何學習的思考
- 編程思維
- 談編程
- 如何安全的修改對象
- 臨時
- 臨時筆記
- 透過問題看本質
- 程序后門
- 邊界檢查
- session
- 安全
- 王垠
- 第三方數據接口
- 驗證碼問題
- 還是少不了虛擬機
- 程序員如何談戀愛
- 程序員為什么要一直改BUG,為什么不能一次性把代碼寫好?
- 碎碎念
- 算法
- 實用代碼
- 相對私密與絕對私密
- 學習目標
- 隨記
- 編程小知識
- foo
- 落盤
- URL編碼的思考
- 字符編碼
- Elasticsearch
- TCP-IP協議
- 碎碎念2
- Grafana
- EFK、ELK
- RPC
- 依賴注入
- 科目一
- 開發筆記
- 經緯度格式轉換
- php時區問題
- 解決本地開發時調用遠程AIP跨域問題
- 后期靜態綁定
- 談tp的跳轉提示頁面
- 無限分類問題
- 生成微縮圖
- MVC名詞
- MVC架構
- 也許模塊不是唯一的答案
- 哈希算法
- 開發后臺
- 軟件設計架構
- mysql表字段設計
- 上傳表如何設計
- 二開心得
- awesomes-tables
- 安全的代碼部署
- 微信開發筆記
- 賬戶授權相關
- 小程序獲取是否關注其公眾號
- 支付相關
- 提交訂單
- 微信支付筆記
- 支付接口筆記
- 支付中心開發
- 下單與支付
- 支付流程設計
- 訂單與支付設計
- 敏感操作驗證
- 排序設計
- 代碼的運行環境
- 搜索關鍵字的顯示處理
- 接口異步更新ip信息
- 圖片處理
- 項目搭建
- 閱讀文檔的新方式
- mysql_insert_id并發問題思考
- 行鎖注意事項
- 細節注意
- 如何處理用戶的輸入
- 不可見的字符
- 抽獎
- 時間處理
- 應用開發實戰
- python 學習記錄
- Scrapy 教程
- Playwright 教程
- stealth.min.js
- Selenium 教程
- requests 教程
- pyautogui 教程
- Flask 教程
- PyInstaller 教程
- 蜘蛛
- python 文檔相似度驗證
- thinkphp5.0數據庫與模型的研究
- workerman進程管理
- workerman網絡分析
- java學習記錄
- docker
- 筆記
- kubernetes
- Kubernetes
- PaddlePaddle
- composer
- oneinstack
- 人工智能 AI
- 京東
- pc_detailpage_wareBusiness
- doc
- 電商網站設計
- iwebshop
- 商品規格分析
- 商品屬性分析
- tpshop
- 商品規格分析
- 商品屬性分析
- 電商表設計
- 設計記錄
- 優惠券
- 生成唯一訂單號
- 購物車技術
- 分類與類型
- 微信登錄與綁定
- 京東到家庫存系統架構設計
- crmeb
- 命名規范
- Nginx https配置
- 關于人工智能
- 從人的思考方式到二叉樹
- 架構
- 今日有感
- 文章保存
- 安全背后: 瀏覽器是如何校驗證書的
- 避不開的分布式事務
- devops自動化運維、部署、測試的最后一公里 —— ApiFox 云時代的接口管理工具
- 找到自己今生要做的事
- 自動化生活
- 開源與漿果
- Apifox: API 接口自動化測試指南