3.4 小鶴字詞庫 · 小鶴入門

關于小鶴字詞庫 ---- ### 一、字庫 1. 小鶴音形從5.0版開始，采用《通用規范漢字表》國發〔2013〕23號文制定的通用規范字表。此表收字8105個，分為三級：一級字表為常用字集，收字3500個，主要滿足基礎教育和文化普及的基本用字。二級字表收字3000個，使用度僅次于一級字。一、二級字表主要滿足印刷、辭書編纂和信息處理等方面的一般用字需要。三級字表收字1605個，是姓氏人名、地名、科學技術術語和中小學教材文言文用字中未進入一、二級字表的較通用的字，主要滿足信息化時代與大眾生活密切相關的專門領域的用字需要。 **《通用規范漢字表》8105字的字符集分布情況** 字符集 | 總字數 | 表字數 | Unicode編碼 | 備注 :-: | :-: | :-: | :-: | :-: 基本| 20902 | 7829 | 4E00-9FA5 | 基本補充| 74 | 3 | 9FA6-9FEF | Unicode 8.0 擴展A| 6582| 77 | 3400-4DB5 | 擴展B| 42711 | 36 | 20000-2A6D6 | win7 擴展C| 4149 | 44 | 2A700-2B734 | 擴展D| 222 | 8 | 2B740-2B81D | win8 擴展E| 5762 | 108 | 2B820-2CEA1 | win10 擴展F| 7473 | - | 2CEB0-2EBE0 | 擴展G| 4939 | - | 30000-3134A | Unicode 13.0 合計| 92814 | 8105| | 2. 著名計算語言學家馮志偉教授的統計數據：《信息時代漢字的標準化和共通化》 **7000通用漢字覆蓋率和不足率（補上通規字8000）** 漢字數|增加字數|覆蓋率|不足率 :-: | :-: | :-: | :-: 500| |78%|其他來源 1000| |90%|10% 2400|1400|99%|1% 3800|1400|99.9%|0.1% 5200|1400|99.99%|0.01% 6600|1400|99.999%|0.001% 8000|1400|99.9999%|0.0001% * 從中可以看出，1000個漢字的覆蓋率為90%，以后每增加1400字，覆蓋率百分比的最后一個9字之后便增加一個9字。覆蓋率達到99.9999%的8000個漢字，就構成了現代通用漢字的主體，覆蓋率達到99.9%的3800個漢字，就包含了全部現代常用漢字。 3. 據統計，紅樓夢書只用了4200個單字。從上面的數據可以看到，漢字很多，但常用漢字并不多。常用漢字可以粗略地定為3800(或5200)個，因為其覆蓋率達到了99.9%(或99.99%)，因此漢字輸入法只要能方便快速地輸入這3800(或5200)個常用漢字就基本能滿足日常需求。 4. 可見《通用規范漢字表》收字覆蓋率已經完全滿足日常使用，個人如有可能用到的零星表外字，自己加入用戶詞庫就好。沒有必要為了零星幾個字，而收錄十倍的表外字，且基本是生僻字，多數是死字，不少無讀音字。 5. 在我看來8000字實際上不是小而是多了，其中還有不少生僻字或者說無用字，我覺得6000字就應該夠了。 ### 二、詞庫再來說說詞庫，截至10.9z版，收詞5.33萬。有人也說小了，對于一個原來用拼音輸入法的用戶，這樣說沒錯，但小鶴音形是四碼方案，對于一個四碼方案來說，這已經是個中等詞庫了，3萬才是小詞庫，9萬已經算是大詞庫了。現在一些大廠五筆輸入法，動則十幾二十萬往上，這純粹是為了迎合拼音用戶大詞庫習慣，甚至開發者很可能都是拼音用戶。拼音用戶習慣大詞庫的根本原因是拼音單字不能直達本身，這就造成了拼音用戶懼怕單字，要用各種造詞來避開單字，于是什么都要構成詞，也不管是不是詞。于是就有了大詞庫、云詞庫，然后自己再不斷的造詞。而四碼方案解決的就是單字直達本身的問題，這時就不應該再恐懼單字，還要堅持把原來的用詞習慣帶進來，首先應該學習適應四碼方案的用詞習慣，不濫造詞。 ---