<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                ??碼云GVP開源項目 12k star Uniapp+ElementUI 功能強大 支持多語言、二開方便! 廣告
                關于小鶴字詞庫 ---- ### 一、字庫 1. 小鶴音形從5.0版開始,采用《通用規范漢字表》國發〔2013〕23號文制定的通用規范字表。 此表收字8105個,分為三級: 一級字表為常用字集,收字3500個,主要滿足基礎教育和文化普及的基本用字。 二級字表收字3000個,使用度僅次于一級字。一、二級字表主要滿足印刷、辭書編纂和信息處理等方面的一般用字需要。 三級字表收字1605個,是姓氏人名、地名、科學技術術語和中小學教材文言文用字中未進入一、二級字表的較通用的字,主要滿足信息化時代與大眾生活密切相關的專門領域的用字需要。 **《通用規范漢字表》8105字的字符集分布情況** 字符集 | 總字數 | 表字數 | Unicode編碼 | 備注 :-: | :-: | :-: | :-: | :-: 基本| 20902 | 7829 | 4E00-9FA5 | 基本補充| 74 | 3 | 9FA6-9FEF | Unicode 8.0 擴展A| 6582| 77 | 3400-4DB5 | 擴展B| 42711 | 36 | 20000-2A6D6 | win7 擴展C| 4149 | 44 | 2A700-2B734 | 擴展D| 222 | 8 | 2B740-2B81D | win8 擴展E| 5762 | 108 | 2B820-2CEA1 | win10 擴展F| 7473 | - | 2CEB0-2EBE0 | 擴展G| 4939 | - | 30000-3134A | Unicode 13.0 合計| 92814 | 8105| | 2. 著名計算語言學家馮志偉教授的統計數據:《信息時代漢字的標準化和共通化》 **7000通用漢字覆蓋率和不足率(補上通規字8000)** 漢字數|增加字數|覆蓋率|不足率 :-: | :-: | :-: | :-: 500| |78%|其他來源 1000| |90%|10% 2400|1400|99%|1% 3800|1400|99.9%|0.1% 5200|1400|99.99%|0.01% 6600|1400|99.999%|0.001% 8000|1400|99.9999%|0.0001% * 從中可以看出,1000個漢字的覆蓋率為90%,以后每增加1400字,覆蓋率百分比的最后一個9字之后便增加一個9字。覆蓋率達到99.9999%的8000個漢字,就構成了現代通用漢字的主體,覆蓋率達到99.9%的3800個漢字,就包含了全部現代常用漢字。 3. 據統計,紅樓夢書只用了4200個單字。 從上面的數據可以看到,漢字很多,但常用漢字并不多。常用漢字可以粗略地定為3800(或5200)個,因為其覆蓋率達到了99.9%(或99.99%),因此漢字輸入法只要能方便快速地輸入這3800(或5200)個常用漢字就基本能滿足日常需求。 4. 可見《通用規范漢字表》收字覆蓋率已經完全滿足日常使用,個人如有可能用到的零星表外字,自己加入用戶詞庫就好。沒有必要為了零星幾個字,而收錄十倍的表外字,且基本是生僻字,多數是死字,不少無讀音字。 5. 在我看來8000字實際上不是小而是多了,其中還有不少生僻字或者說無用字,我覺得6000字就應該夠了。 ### 二、詞庫 再來說說詞庫,截至10.9z版,收詞5.33萬。有人也說小了,對于一個原來用拼音輸入法的用戶,這樣說沒錯,但小鶴音形是四碼方案,對于一個四碼方案來說,這已經是個中等詞庫了,3萬才是小詞庫,9萬已經算是大詞庫了。現在一些大廠五筆輸入法,動則十幾二十萬往上,這純粹是為了迎合拼音用戶大詞庫習慣,甚至開發者很可能都是拼音用戶。 拼音用戶習慣大詞庫的根本原因是拼音單字不能直達本身,這就造成了拼音用戶懼怕單字,要用各種造詞來避開單字,于是什么都要構成詞,也不管是不是詞。于是就有了大詞庫、云詞庫,然后自己再不斷的造詞。而四碼方案解決的就是單字直達本身的問題,這時就不應該再恐懼單字,還要堅持把原來的用詞習慣帶進來,首先應該學習適應四碼方案的用詞習慣,不濫造詞。 ---
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看