7.2 字符集 · 3天入門MySQL

##字符集是什么？為了更好的識別中文、日文、英文、希臘語。對于常用的符號進行了編碼，這個編碼就是字符集。字符集確定了文字的存儲方式。字符集相當于是計算機中人類的語言。舉個例子：我說的是英文，所以我存儲的時候要用英文文字來存儲。如果我說的是中文，用英文字符來存儲的話。那么人們就看不懂也看不明白，就是我們所說的亂碼。因為字符集太多了，足夠有幾十種上百種之多。所以我們不需要了解太多的字符集的知識，甚至不需要了解字符集到底是如何編成人類可見字符的。 ##字符集的重點知識我們只需要了解： 1. 常用字符集 2. 數據庫中我們用什么字符集英文字符集： | 字符集 | 說明 | 字節長度 | | -- | -- | -- | | ASCII |美國標準信息交換代碼 | 單字節| | GBK | 漢字內碼擴展規范| 雙字節| | unicode| 萬國碼 | 4字節| |UTF-8| Unicode的可變長度字符編碼 | 1到6個字節| ###ASCII ASCII 碼使用指定的7 位或8 位二進制數組合來表示128 或256 種可能的字符。標準ASCII 碼也叫基礎ASCII碼，使用7 位二進制數來表示所有的大寫和小寫字母，數字0 到9、標點符號，以及在美式英語中使用的特殊控制字符。其中： 0～31及127(共33個)是控制字符或通信專用字符（其余為可顯示字符），如控制符：LF（換行）、CR（回車）、FF（換頁）、DEL（刪除）、BS（退格)、BEL（響鈴）等；通信專用字符：SOH（文頭）、EOT（文尾）、ACK（確認）等；ASCII值為8、9、10 和13 分別轉換為退格、制表、換行和回車字符。它們并沒有特定的圖形顯示，但會依不同的應用程序，而對文本顯示有不同的影響。 32～126(共95個)是字符(32是空格），其中48～57為0到9十個阿拉伯數字。 65～90為26個大寫英文字母，97～122號為26個小寫英文字母，其余為一些標點符號、運算符號等。 ###GBK GBK 向下與 GB 2312 編碼兼容。是中華人民共和國定義的漢字計算機編碼規范。早期版本為GB2312。 ###Unicode Unicode（統一碼、萬國碼、單一碼）Unicode是國際組織制定的可以容納世界上所有文字和符號的字符編碼方案。以滿足跨語言、跨平臺進行文本轉換、處理的要求。 ###UTF-8 是一種針對Unicode的可變長度字符編碼，也是萬國碼。因為UNICODE比ASCII占用大一倍的空間，而對ASCII來說高字節的0對他毫無用處。為了解決這個問題，就出現了一些中間格式的字符集，他們被稱為通用轉換格式，即UTF（Universal Transformation Format） ##實際工作中要使用的編碼在中文中常用的字符集分為utf-8和GBK。實際使用的如下： | 字符集 | 說明 | | -- | --| | gbk_chinese_ci |簡體中文, 不區分大小寫 | | utf8_general_ci | Unicode (多語言), 不區分大小寫 | 觀察（圖一）的特點你會發現，MySQL字符集由三個部分組成： 1.字符集 2.語言 3.類型最后的bin是指二進制字符集，后面的ci是指存儲排序時不區分字符的大小寫。 > 注意： mysql在寫utf-8的時候寫的是utf8。不加中間的中橫線。 *** （圖一） ![image](https://box.kancloud.cn/2015-10-10_5618defd1f9e3.png)