編碼 · TUNA-daily

[TOC] ## 1. 各類編碼 > 1. ASCII 占1個字節，只支持英文 > 2. GB2312 占2個字節，支持6700+漢字 > 3. GBK GB2312的升級版，支持21000+漢字 > 4. Shift-JIS 日本字符 > 5. ks_c_5601-1987 韓國編碼 > 6. TIS-620 泰國編碼由于每個國家都有自己的字符，所以其對應關系也涵蓋了自己國家的字符，但是以上編碼都存在局限性，即：僅涵蓋本國字符，無其他國家字符的對應關系。應運而生出現了萬國碼，他涵蓋了全球所有的文字和二進制的對應關系， ### 1.1 統一編碼之Unicode **Unicode** 2-4字節已經收錄136690個字符，并還在一直不斷擴張中.. 1. Unicode解決了字符和二進制的對應關系 2. 但是使用unicode表示一個字符，太浪費空間。例如：利用unicode表示“Python”需要12個字節才能表示，比原來ASCII表示增加了1倍。 3. 存儲和網絡傳輸時一般數據都會非常多，那么增加1倍將是無法容忍的！！！由于Python創始人在開發初期認知的局限性，其并未預料到python能發展成一個全球流行的語言，導致其開發初期并沒有把支持全球各國語言當做重要的事情來做，所以就輕佻的把ASCII當做了默認編碼。當后來大家對支持漢字、日文、法語等語言的呼聲越來越高時，Python于是準備引入unicode,但若直接把默認編碼改成unicode的話是不現實的，因為很多軟件就是基于之前的默認編碼ASCII開發的，編碼一換，那些軟件的編碼就都亂了。所以Python 2 就直接搞了一個新的字符類型，就叫unicode類型，比如你想讓你的中文在全球所有電腦上正常顯示，在內存里就得把字符串存成unicode類型. ### 1.2 utf 為了解決存儲和網絡傳輸的問題，出現了Unicode Transformation Format，學術名UTF，即：對unicode中的進行轉換，以便于在存儲和網絡傳輸時可以節省空間! > 1. UTF-8：使用1、2、3、4個字節表示所有字符；優先使用1個字符、無法滿足則使增加一個字節，最多4個字節。英文占1個字節、歐洲語系占2個、東亞占3個，其它及特殊字符占4個 > 2. UTF-16：使用2、4個字節表示所有字符；優先使用2個字節，否則使用4個字節表示。 > 3. UTF-32：使用4個字節表示所有字符；無論以什么編碼在內存里顯示字符，存到硬盤上都是2進制。 ~~~ ascii編碼(美國)： l 0b1101100 o 0b1101111 v 0b1110110 e 0b1100101 GBK編碼(中國)：老 0b11000000 0b11001111 男 0b11000100 0b11010000 孩 0b10111010 0b10100010 Shift_JIS編碼(日本)：私 0b10001110 0b10000100 は 0b10000010 0b11001101 ks_c_5601-1987編碼(韓國)： ? 0b10110011 0b10101010 ? 0b10110100 0b11000010 TIS-620編碼(泰國)： ??? 0b10101001 0b11010001 0b10111001 ~~~ ... 要注意的是，存到硬盤上時是以何種編碼存的，再從硬盤上讀出來時，就必須以何種編碼讀，要不然就亂了。。