Unicode和Utf-8轉換 · php

[TOC] # Unicode和Utf-8編碼的區別 Unicode是一個字符集，定義了字符與數字之間的對應關系，在Unicode中：漢字“字”對應的數字是23383（十進制），十六進制表示為5B57。在Unicode中，我們有很多方式將數字23383表示成程序中的數據，包括：UTF-8、UTF-16、UTF-32。UTF是“Unicode Transformation Format”的縮寫，可以翻譯成Unicode字符集轉換格式，即怎樣將Unicode定義的數字轉換成程序數據。可以把utf-8理解成unicode編碼規則在計算機中的實現方式 nicode全部用兩個字節表示一個字符（所以最多可以表示65535個字符，其中中文的區間是 4e00 ~ 9fbf），通常用 '\u' 加上四位的十六進制數表示，比如 ‘你’的unicode編碼是‘\u4f60’ json格式中漢字就是用這種格式表示，比如： ~~~ echo json_encode(array('msg' => '你好')); //{"msg":"\u4f60\u597d"} ~~~ 而UTF-8并不是定長的，目前是用1-3個字節表示一個字符，對于ASCII字符，UTF-8同樣使用一個字節表示，這樣就可以兼容ASCII，對于漢字UTF-8使用三個字節來表示。URL中的漢字編碼就采用這種方式來表示 ~~~ echo urlencode('你'); //%E4%BD%A0 E4BDA0 就是‘你’的 UTF-8編碼 ~~~ # Utf-8怎么逆轉回Unicode呢當然在UTF-8到Unicode的轉換也是通過移位等來完成的，就是把UTF-8那些格式相應的位置的二進制數給揪出來。在上述例子中“你”為三個字節，因此要每個字節進行處理，有高位到低位進行處理。在UTF-8中“你”為11100100,10111101,10100000。從高位起即第一個字節11100100就是把其中的"0100"給取出來，這個很簡單只要和11111（0x1F）取與（&），由三字節可以得知最到位肯定位于12位之前，因為每次取六位。所以還要將得到的結果左移12位，最高位也就這樣完成了0100,000000,000000。而第二位則是要把“111101”給取出來，則只需將第二字節10111101和111111(0x3F)取與（&）。在將所得到的結果左移6位與最高字節所得的結果取或（|），第二位就這樣完成了，得到的結果為0100,111101,000000。以此類推最后一位直接與111111（0x3F）取與（&），再與前面所得的結果取或（|）即可得到結果0100,111101,100000。 ~~~ /** * utf8字符轉換成Unicode字符 * @param [type] $utf8_str Utf-8字符 * @return [type] Unicode字符 */ function utf8_str_to_unicode($utf8_str) { $unicode = 0; $unicode = (ord($utf8_str[0]) & 0x1F) << 12; $unicode |= (ord($utf8_str[1]) & 0x3F) << 6; $unicode |= (ord($utf8_str[2]) & 0x3F); return dechex($unicode); } /** * Unicode字符轉換成utf8字符 * @param [type] $unicode_str Unicode字符 * @return [type] Utf-8字符 */ function unicode_to_utf8($unicode_str) { $utf8_str = ''; $code = intval(hexdec($unicode_str)); //這里注意轉換出來的code一定得是整形，這樣才會正確的按位操作 $ord_1 = decbin(0xe0 | ($code >> 12)); $ord_2 = decbin(0x80 | (($code >> 6) & 0x3f)); $ord_3 = decbin(0x80 | ($code & 0x3f)); $utf8_str = chr(bindec($ord_1)) . chr(bindec($ord_2)) . chr(bindec($ord_3)); return $utf8_str; } ~~~ 測試下 ~~~ $utf8_str = '我'; //這是漢字“你”的Unicode編碼 $unicode_str = '4f6b'; //輸出 6211 echo utf8_str_to_unicode($utf8_str) . "<br/>"; //輸出漢字“你” echo unicode_str_to_utf8($unicode_str); ~~~