##字符集是什么?
為了更好的識別中文、日文、英文、希臘語。對于常用的符號進行了編碼,這個編碼就是字符集。
字符集確定了文字的存儲方式。
字符集相當于是計算機中人類的語言。
舉個例子:
我說的是英文,所以我存儲的時候要用英文文字來存儲。
如果我說的是中文,用英文字符來存儲的話。那么人們就看不懂也看不明白,就是我們所說的亂碼。
因為字符集太多了,足夠有幾十種上百種之多。所以我們不需要了解太多的字符集的知識,甚至不需要了解字符集到底是如何編成人類可見字符的。
##字符集的重點知識
我們只需要了解:
1. 常用字符集
2. 數據庫中我們用什么字符集
英文字符集:
| 字符集 | 說明 | 字節長度 |
| -- | -- | -- |
| ASCII |美國標準信息交換代碼 | 單字節|
| GBK | 漢字內碼擴展規范| 雙字節|
| unicode| 萬國碼 | 4字節|
|UTF-8| Unicode的可變長度字符編碼 | 1到6個字節|
###ASCII
ASCII 碼使用指定的7 位或8 位二進制數組合來表示128 或256 種可能的字符。標準ASCII 碼也叫基礎ASCII碼,使用7 位二進制數來表示所有的大寫和小寫字母,數字0 到9、標點符號, 以及在美式英語中使用的特殊控制字符。
其中:
0~31及127(共33個)是控制字符或通信專用字符(其余為可顯示字符),如控制符:LF(換行)、CR(回車)、FF(換頁)、DEL(刪除)、BS(退格)、BEL(響鈴)等;通信專用字符:SOH(文頭)、EOT(文尾)、ACK(確認)等;ASCII值為8、9、10 和13 分別轉換為退格、制表、換行和回車字符。它們并沒有特定的圖形顯示,但會依不同的應用程序,而對文本顯示有不同的影響。
32~126(共95個)是字符(32是空格),其中48~57為0到9十個阿拉伯數字。
65~90為26個大寫英文字母,97~122號為26個小寫英文字母,其余為一些標點符號、運算符號等。
###GBK
GBK 向下與 GB 2312 編碼兼容。是中華人民共和國定義的漢字計算機編碼規范。早期版本為GB2312。
###Unicode
Unicode(統一碼、萬國碼、單一碼)Unicode是國際組織制定的可以容納世界上所有文字和符號的字符編碼方案。以滿足跨語言、跨平臺進行文本轉換、處理的要求。
###UTF-8
是一種針對Unicode的可變長度字符編碼,也是萬國碼。因為UNICODE比ASCII占用大一倍的空間,而對ASCII來說高字節的0對他毫無用處。為了解決這個問題,就出現了一些中間格式的字符集,他們被稱為通用轉換格式,即UTF(Universal Transformation Format)
##實際工作中要使用的編碼
在中文中常用的字符集分為utf-8和GBK。
實際使用的如下:
| 字符集 | 說明 |
| -- | --|
| gbk_chinese_ci |簡體中文, 不區分大小寫 |
| utf8_general_ci | Unicode (多語言), 不區分大小寫 |
觀察(圖一)的特點你會發現,MySQL字符集由三個部分組成:
1.字符集
2.語言
3.類型
最后的bin是指二進制字符集,后面的ci是指存儲排序時不區分字符的大小寫。
> 注意:
mysql在寫utf-8的時候寫的是utf8。不加中間的中橫線。
***
(圖一)
