字符編碼和字符集 · java

字符編碼 ``` 計算機中儲存的信息都是用二進制數表示的，而我們在屏幕上看到的數字、英文、標點符號、漢字等字符是二進制數轉換之后的結果。按照某種規則，將字符存儲到計算機中，稱為編碼。反之，將存儲在計算機中的二進制數按照某種規則解析顯示出來，稱為解碼。比如說，按照A規則存儲，同樣按照A規則解析，那么就能顯示正確的文本f符號。反之，按照A規則存儲，再按照B規則解析，就會導致亂碼現象。字符編碼 Character?Encoding : 就是一套自然語言的字符與二進制數之間的對應規則 ``` 字符集 ``` 字符集 Charset ：也叫編碼表。是一個系統支持的所有字符的集合，包括各國家文字、標點符號、圖形符號、數字等。計算機要準確的存儲和識別各種字符集符號，需要進行字符編碼，一套字符集必然至少有一套字符編碼。常見字符集有 ASCII字符集、GBK字符集、Unicode字符集 ``` #### ASCII字符集 ASCII（American Standard Code for Information Interchange，美國信息交換標準代碼）是基于拉丁字母的一套電腦編碼系統，用于顯示現代英語，主要包括控制字符（回車鍵、退格、換行鍵等）和可顯示字符（英文大小寫字符、阿拉伯數字和西文符號）。基本的ASCII字符集，使用7位（bits）表示一個字符，共128字符。ASCII的擴展字符集使用8位（bits）表示一個字符，共256字符，方便支持歐洲常用字符。 #### ISO-8859-1字符集拉丁碼表，別名Latin-1，用于顯示歐洲使用的語言，包括荷蘭、丹麥、德語、意大利語、西班牙語等。 ISO-5559-1使用單字節編碼，兼容ASCII編碼。 #### GBxxx字符集 GB就是國標的意思，是為了顯示中文而設計的一套字符集。 GB2312：簡體中文碼表。一個小于127的字符的意義與原來相同。但兩個大于127的字符連在一起時，就表示一個漢字，這樣大約可以組合了包含7000多個簡體漢字，此外數學符號、羅馬希臘的字母、日文的假名們都編進去了，連在ASCII里本來就有的數字、標點、字母都統統重新編了兩個字節長的編碼，這就是常說的"全角"字符，而原來在127號以下的那些就叫"半角"字符了。 GBK：最常用的中文碼表。是在GB2312標準基礎上的擴展規范，使用了雙字節編碼方案，共收錄了 21003個漢字，完全兼容GB2312標準，同時支持繁體漢字以及日韓漢字等。 GB18030：最新的中文碼表。收錄漢字70244個，采用多字節編碼，每個字可以由1個、2個或4個字節組成。支持中國國內少數民族的文字，同時支持繁體漢字以及日韓漢字等。 #### Unicode字符集 Unicode編碼系統為表達任意語言的任意字符而設計，是業界的一種標準，也稱為統一碼、標準萬國碼。它最多使用4個字節的數字來表達每個字母、符號，或者文字。有三種編碼方案，UTF-8、UTF-16和UTF32。最為常用的UTF-8編碼。 UTF-8編碼，可以用來表示Unicode標準中任何字符，它是電子郵件、網頁及其他存儲或傳送文字的應用中，優先采用的編碼。互聯網工程工作小組（IETF）要求所有互聯網協議都必須支持UTF-8編碼。所以，我們開發Web應用，也要使用UTF-8編碼。它使用一至四個字節為每個字符編碼，編碼規則： 1. 128個US-ASCII字符，只需一個字節編碼。 2. 拉丁文等字符，需要二個字節編碼。 3. 大部分常用字（含中文），使用三個字節編碼。 4. 其他極少使用的Unicode輔助字符，使用四字節編碼