<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                ??碼云GVP開源項目 12k star Uniapp+ElementUI 功能強大 支持多語言、二開方便! 廣告
                # 為 word2vec 模型準備數據 我們將使用流行的 PTB 和 text8 數據集進行演示。 **Penn Treebank** ( **PTB** )數據集是在 UPenn 進行的 Penn Treebank 項目的副產品( [https://catalog.ldc.upenn.edu/ldc99t42](https://catalog.ldc.upenn.edu/ldc99t42) )。 PTB 項目團隊在華爾街日報三年的故事中提取了大約一百萬字,并以 Treebank II 風格對其進行了注釋。 PTB 數據集有兩種形式: 基本示例,大小約為 35 MB, 高級示例,大小約為 235 MB。我們將使用由 929K 字組成的簡單數據集進行訓練,73K 字用于驗證,82K 字用于測試。建議您瀏覽高級數據集。有關 PTB 數據集的更多詳細信息,請訪問以下鏈接: [http://www.fit.vutbr.cz/~imikolov/rnnlm/simple-examples.tgz](http://www.fit.vutbr.cz/~imikolov/rnnlm/simple-examples.tgz) 。 可以從以下鏈接下載 PTB 數據集:[http://www.fit.vutbr.cz/~imikolov/rnnlm/rnn-rt07-example.tar.gz](http://www.fit.vutbr.cz/~imikolov/rnnlm/rnn-rt07-example.tar.gz). **text8** 數據集是一個較短的清理版本的大型維基百科數據轉儲,大小約為 1 GB。有關如何創建 text8 數據集的過程,請參見以下鏈接: [http://mattmahoney.net/dc/textdata.html](http://mattmahoney.net/dc/textdata.html) 。 text8 數據集可以從以下鏈接下載:[http://mattmahoney.net/dc/text8.zip](http://mattmahoney.net/dc/text8.zip). 使用我們的自定義庫`datasetslib`中的`load_data`代碼加載數據集: `load_data()`函數執行以下操作: 1. 如果數據集的 URL 在本地不可用,它將從數據集的 URL 下載數據存檔。 2. 由于`PTB`數據有三個文件,它首先從訓練文件中讀取文本,而對于`text8`,它從歸檔中讀取第一個文件。 3. 它將訓練文件中的單詞轉換為詞匯表,并為每個詞匯單詞分配一個唯一的數字,word-id,將其存儲在集合`word2id`中,并準備反向詞典,這樣我們就可以從 ID 中查找單詞,并將其存儲在集合`id2word`中。 1. 它使用集合`word2id`將文本文件轉換為 ID 序列。 2. 因此,在`load_data`的末尾,我們在訓練數據集中有一系列數字,在集合`id2word`中有一個 ID 到字的映射。 讓我們看一下從 text8 和 PTB 數據集加載的數據:
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看