<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                企業??AI智能體構建引擎,智能編排和調試,一鍵部署,支持知識庫和私有化部署方案 廣告
                # 自然語言處理的數據集 > 原文: [https://machinelearningmastery.com/datasets-natural-language-processing/](https://machinelearningmastery.com/datasets-natural-language-processing/) 在開始深入學習自然語言處理任務時,您需要數據集來練習。 最好使用可以快速下載的小型數據集,并且不需要太長時間來適應模型。此外,使用易于理解和廣泛使用的標準數據集也很有幫助,這樣您就可以比較結果,看看您是否在取得進展。 在這篇文章中,您將發現一套用于自然語言處理任務的標準數據集,您可以在深入學習入門時使用這些數據集。 ### 概觀 這篇文章分為 7 個部分;他們是: 1. 文本分類 2. 語言建模 3. 圖像標題 4. 機器翻譯 5. 問題回答 6. 語音識別 7. 文件摘要 我試圖提供一種混合的數據集,這些數據集很受歡迎,適用于規模適中的學術論文。 幾乎所有數據集都可以免費下載。 如果您沒有列出您最喜歡的數據集,或者您認為您知道應該列出的更好的數據集,請在下面的評論中告訴我。 讓我們開始吧。 ![Datasets for Natural Language Processing](img/5035bb8bcd75bf878dc5c012041baddc.jpg) 自然語言處理數據集 照[格蘭特](https://www.flickr.com/photos/visual_dichotomy/2400003250/),保留一些權利。 ## 1.文本分類 文本分類是指標記句子或文檔,例如電子郵件垃圾郵件分類和情感分析。 下面是一些很好的初學者文本分類數據集。 * [路透社 Newswire 主題分類](http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html)(路透社-21578)。 1987 年路透社出現的一系列新聞文件,按類別編制索引。 [另見 RCV1,RCV2 和 TRC2](http://trec.nist.gov/data/reuters/reuters.html) 。 * [IMDB 電影評論情感分類](http://ai.stanford.edu/~amaas/data/sentiment/)(斯坦福)。來自網站 imdb.com 的一系列電影評論及其積極或消極的情感。 * [新聞集團電影評論情感分類](http://www.cs.cornell.edu/people/pabo/movie-review-data/)(康奈爾)。來自網站 imdb.com 的一系列電影評論及其積極或消極的情感。 有關更多信息,請參閱帖子: * [單標簽文本分類的數據集。](http://ana.cachopo.org/datasets-for-single-label-text-categorization) ## 2.語言建模 語言建模涉及開發一種統計模型,用于預測句子中的下一個單詞或單詞中的下一個單詞。它是語音識別和機器翻譯等任務中的前置任務。 它是語音識別和機器翻譯等任務中的前置任務。 下面是一些很好的初學者語言建模數據集。 * [Project Gutenberg](https://www.gutenberg.org/) ,這是一系列免費書籍,可以用純文本檢索各種語言。 還有更多正式的語料庫得到了很好的研究;例如: * [布朗大學現代美國英語標準語料庫](https://en.wikipedia.org/wiki/Brown_Corpus)。大量英語單詞樣本。 * [谷歌 10 億字語料庫](https://github.com/ciprian-chelba/1-billion-word-language-modeling-benchmark)。 ## 3.圖像標題 圖像字幕是為給定圖像生成文本描述的任務。 下面是一些很好的初學者圖像字幕數據集。 * [上下文中的通用對象(COCO)](http://mscoco.org/dataset/#overview)。包含超過 12 萬張描述圖像的集合 * [Flickr 8K](http://nlp.cs.illinois.edu/HockenmaierGroup/8k-pictures.html) 。從 flickr.com 獲取的 8 千個描述圖像的集合。 * [Flickr 30K](http://shannon.cs.illinois.edu/DenotationGraph/) 。從 flickr.com 獲取的 3 萬個描述圖像的集合。 欲了解更多,請看帖子: * [探索圖像字幕數據集](http://sidgan.me/technical/2016/01/09/Exploring-Datasets),2016 年 ## 4.機器翻譯 機器翻譯是將文本從一種語言翻譯成另一種語言的任務。 下面是一些很好的初學者機器翻譯數據集。 * [加拿大第 36 屆議會的協調議長](https://www.isi.edu/natural-language/download/hansard/)。成對的英語和法語句子。 * [歐洲議會訴訟平行語料庫 1996-2011](http://www.statmt.org/europarl/) 。句子對一套歐洲語言。 有大量標準數據集用于年度機器翻譯挑戰;看到: * [統計機器翻譯](http://www.statmt.org/) ## 5.問題回答 問答是一項任務,其中提供了一個句子或文本樣本,從中提出問題并且必須回答問題。 下面是一些很好的初學者問題回答數據集。 * [斯坦福問題答疑數據集(SQuAD)](https://rajpurkar.github.io/SQuAD-explorer/)。回答有關維基百科文章的問題。 * [Deepmind Question Answering Corpus](https://github.com/deepmind/rc-data) 。從每日郵報回答有關新聞文章的問題。 * [亞馬遜問答數據](http://jmcauley.ucsd.edu/data/amazon/qa/)。回答關于亞馬遜產品的問題。 有關更多信息,請參閱帖子: * [數據集:我如何獲得問答網站的語料庫,如 Quora 或 Yahoo Answers 或 Stack Overflow 來分析答案質量?](https://www.quora.com/Datasets-How-can-I-get-corpus-of-a-question-answering-website-like-Quora-or-Yahoo-Answers-or-Stack-Overflow-for-analyzing-answer-quality) ## 6.語音識別 語音識別是將口語的音頻轉換為人類可讀文本的任務。 下面是一些很好的初學者語音識別數據集。 * [TIMIT 聲 - 語音連續語音語料庫](https://catalog.ldc.upenn.edu/LDC93S1)。不是免費的,但因其廣泛使用而上市。口語美國英語和相關的轉錄。 * [VoxForge](http://voxforge.org/) 。用于構建用于語音識別的開源數據庫的項目。 * [LibriSpeech ASR 語料庫](http://www.openslr.org/12/)。從 [LibriVox](https://librivox.org/) 中收集的大量英語有聲讀物。 你知道一些更好的自動語音識別數據集嗎? 請在評論中告訴我。 ## 7.文件摘要 文檔摘要是創建較大文檔的簡短有意義描述的任務。 下面是一些很好的初學者文檔摘要數據集。 * [法律案例報告數據集](https://archive.ics.uci.edu/ml/datasets/Legal+Case+Reports)。收集了 4000 份法律案件及其摘要。 * [TIPSTER 文本摘要評估會議語料庫](http://www-nlpir.nist.gov/related_projects/tipster_summac/cmp_lg.html)。收集了近 200 份文件及其摘要。 * [英語新聞文本的 AQUAINT 語料庫](https://catalog.ldc.upenn.edu/LDC2002T31)。不是免費的,而是廣泛使用的。新聞文章的語料庫。 欲了解更多信息: * [文件理解會議(DUC)任務](http://www-nlpir.nist.gov/projects/duc/data.html)。 * [我在哪里可以找到文本摘要的好數據集?](https://www.quora.com/Where-can-I-find-good-data-sets-for-text-summarization) ## 進一步閱讀 如果您希望更深入,本節提供了其他數據集列表。 * [維基百科研究中使用的文本數據集](https://en.wikipedia.org/wiki/List_of_datasets_for_machine_learning_research#Text_data) * [數據集:計算語言學家和自然語言處理研究人員使用的主要文本語料庫是什么?](https://www.quora.com/Datasets-What-are-the-major-text-corpora-used-by-computational-linguists-and-natural-language-processing-researchers-and-what-are-the-characteristics-biases-of-each-corpus) * [斯坦福統計自然語言處理語料庫](https://nlp.stanford.edu/links/statnlp.html#Corpora) * [按字母順序排列的 NLP 數據集](https://github.com/niderhoff/nlp-datasets) * [NLTK Corpora](http://www.nltk.org/nltk_data/) * [DL4J 深度學習開放數據](https://deeplearning4j.org/opendata) 你知道其他任何自然語言處理數據集的好名單嗎? 請在下面的評論中告訴我。 ## 摘要 在這篇文章中,您發現了一套標準數據集,您可以在深入學習入門時用于自然語言處理任務。 你選擇了一個數據集嗎?您使用上述數據集之一嗎? 請在下面的評論中告訴我。
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看