如何開始深度學習自然語言處理（7 天迷你課程） · Machine Learning Mastery 博客文章翻譯

# 如何開始深度學習自然語言處理（7 天迷你課程） > 原文： [https://machinelearningmastery.com/crash-course-deep-learning-natural-language-processing/](https://machinelearningmastery.com/crash-course-deep-learning-natural-language-processing/) ## NLP 速成班的深度學習。 #### 在 7 天內為您的文本數據項目帶來深度學習方法。我們充斥著文字，包括書籍，論文，博客，推文，新聞，以及來自口頭發言的越來越多的文字。處理文本很難，因為它需要利用來自不同領域的知識，如語言學，機器學習，統計方法，以及如今的深度學習。深度學習方法開始在一些具有挑戰性的自然語言處理問題上超越經典和統計方法，使用單一和簡單的模型。在本速成課程中，您將了解如何在 7 天內使用 Python 開始并自信地開發自然語言處理問題的深度學習。這是一個重要且重要的帖子。您可能想要將其加入書簽。讓我們開始吧。 ![How to Get Started with Deep Learning for Natural Language Processing](img/66190c5e18dacc8bf2d7536ffde3013a.jpg) 如何開始深度學習自然語言處理照片由 [Daniel R. Blume](https://www.flickr.com/photos/drb62/2054107736/) ，保留一些權利。 ## 誰是這個崩潰課程？在我們開始之前，讓我們確保您在正確的位置。以下列表提供了有關本課程設計對象的一般指導原則。如果你沒有完全匹配這些點，請不要驚慌，你可能只需要在一個或另一個區域刷新以跟上。 **你需要知道：** * 你需要了解基本的 Python，NumPy 和 Keras 的深度學習方法。 **你不需要知道：** * 你不需要成為一個數學家！ * 你不需要成為一名深度學習專家！ * 你不需要成為一名語言學家！這個速成課程將帶您從了解機器學習的開發人員到可以為您自己的自然語言處理項目帶來深度學習方法的開發人員。注意：此速成課程假設您有一個有效的 Python 2 或 3 SciPy 環境，至少安裝了 NumPy，Pandas，scikit-learn 和 Keras 2。如果您需要有關環境的幫助，可以按照此處的分步教程進行操作： * [如何使用 Anaconda 設置用于機器學習和深度學習的 Python 環境](https://machinelearningmastery.com/setup-python-environment-machine-learning-deep-learning-anaconda/) ## 速成課程概述這個速成課程分為 7 節課。您可以每天完成一節課（推薦）或在一天內完成所有課程（硬核）。這取決于你有空的時間和你的熱情程度。以下是 7 個課程，通過深入學習 Python 中的自然語言處理，可以幫助您開始并提高工作效率： 1. **第 01 課**：深度學習和自然語言 2. **第 02 課**：清理文本數據 3. **第 03 課**：Bag-of-Words 模型 4. **第 04 課**：詞嵌入表示 5. **第 05 課**：學習嵌入 6. **第 06 課**：文本分類 7. **第 07 課**：電影評論情感分析項目每節課可能需要 60 秒或 30 分鐘。花點時間，按照自己的進度完成課程。在下面的評論中提出問題甚至發布結果。課程期望你去學習如何做事。我會給你提示，但每節課的部分內容是強迫你學習去哪里尋求幫助以及深入學習，自然語言處理和 Python 中最好的工具（提示，我直接在這個博客上有所有答案，使用搜索框）。我確實以相關帖子的鏈接形式提供了更多幫助，因為我希望你建立一些信心和慣性。在評論中發布您的結果，我會為你歡呼！掛在那里，不要放棄。 **注**：這只是一個速成課程。有關更多細節和 30 個充實的教程，請參閱我的書，主題為“ _[深度學習自然語言處理](https://machinelearningmastery.com/deep-learning-for-nlp/)”。_ ## 第一課：深度學習和自然語言在本課程中，您將發現自然語言，深度學習的簡明定義以及使用文本數據進行深度學習的承諾。 ### 自然語言處理自然語言處理（簡稱 NLP）被廣義地定義為通過軟件自動操縱自然語言，如語音和文本。自然語言處理的研究已經存在了 50 多年，隨著計算機的興起，語言學領域逐漸興起。理解文本的問題沒有解決，也可能永遠不會，主要是因為語言混亂。規則很少。然而，我們可以在大多數時間輕松地相互理解。 ### 深度學習深度學習是機器學習的一個子領域，涉及受大腦結構和功能激發的算法，稱為人工神經網絡。深度學習的一個特性是這些類型的模型的表現通過增加其深度或代表能力來訓練它們的更多示例而得到改善。除了可擴展性之外，深度學習模型的另一個經常被引用的好處是它們能夠從原始數據執行自動特征提取，也稱為特征學習。 ### NLP 深度學習的承諾深度學習方法在自然語言中很受歡迎，主要是因為它們兌現了他們的承諾。深度學習的第一次大型演示是自然語言處理，特別是語音識別。最近在機器翻譯。自然語言處理深度學習的三個關鍵承諾如下： * **特色學習的承諾**。也就是說，深度學習方法可以從模型所需的自然語言中學習特征，而不是要求專家指定和提取特征。 * **持續改進的承諾**。也就是說，自然語言處理中的深度學習的表現基于實際結果，并且改進似乎在繼續并且可能加速。 * **端到端模型的承諾**。也就是說，大型端到端深度學習模型可以適應自然語言問題，提供更通用，表現更好的方法。自然語言處理不是“解決”，但需要深入學習才能使您掌握該領域中許多具有挑戰性的問題的最新技術。 ### 你的任務在本課程中，您必須研究并列出深度學習方法在自然語言處理領域的 10 個令人印象深刻的應用。如果您可以鏈接到演示該示例的研究論文，則可獲得獎勵積分。在下面的評論中發表您的答案。我很樂意看到你發現了什么。 ### 更多信息 * [什么是自然語言處理？](https://machinelearningmastery.com/natural-language-processing/) * [什么是深度學習？](https://machinelearningmastery.com/what-is-deep-learning/) * [深度學習對自然語言處理的承諾](https://machinelearningmastery.com/promise-deep-learning-natural-language-processing/) * [7 深度學習在自然語言處理中的應用](https://machinelearningmastery.com/applications-of-deep-learning-for-natural-language-processing/) 在下一課中，您將了解如何清理文本數據以便為建模做好準備。 ## 第 02 課：清理文本數據在本課程中，您將了解如何加載和清理文本數據，以便可以手動和使用 NLTK Python 庫進行建模。 ### 文字很亂你不能直接從原始文本到適合機器學習或深度學習模型。您必須首先清理文本，這意味著將其拆分為單詞并規范化問題，例如： * 大寫和小寫字符。 * 單詞內部和周圍的標點符號。 * 金額和日期等數字。 * 拼寫錯誤和區域變化。 * Unicode 字符 * 以及更多… ### 手動標記一般來說，我們指的是將原始文本轉換為我們可以建模為“分詞”的東西的過程，其中我們留下了單詞列表或“標記”。我們可以手動開發 Python 代碼來清理文本，并且這通常是一種很好的方法，因為每個文本數據集必須以獨特的方式進行分詞。例如，下面的代碼片段將加載文本文件，按空格分割標記并將每個標記轉換為小寫。 ```py filename = '...' file = open(filename, 'rt') text = file.read() file.close() # split into words by white space words = text.split() # convert to lowercase words = [word.lower() for word in words] ``` 您可以想象如何擴展此代碼段以處理和規范化 Unicode 字符，刪除標點符號等。 ### NLTK 分詞許多用于標記原始文本的最佳實踐已被捕獲并在名為 Natural Language Toolkit 或 NLTK 的 Python 庫中提供。您可以使用 pip 在命令行上鍵入以下命令來安裝此庫： ```py sudo pip install -U nltk ``` 安裝后，還必須通過 Python 腳本安裝庫使用的數據集： ```py import nltk nltk.download() ``` 或通過命令行： ```py python -m nltk.downloader all ``` 安裝后，您可以使用 API??來標記文本。例如，下面的代碼段將加載并分詞 ASCII 文本文件。 ```py # load data filename = '...' file = open(filename, 'rt') text = file.read() file.close() # split into words from nltk.tokenize import word_tokenize tokens = word_tokenize(text) ``` 此庫中有許多工具，您可以使用自己的手動方法進一步優化干凈的令牌，例如刪除標點，刪除停用詞，詞干等等。 ### 你的任務您的任務是在 Project Gutenberg 網站上找到一本免費的經典書籍，下載書籍的 ASCII 版本并將文本分詞并將結果保存到新文件中。探索手動和 NLTK 方法的加分點。在下面的評論中發布您的代碼。我很想看看你選擇哪本書以及你如何選擇它來標記它。 ### 更多信息 * [Gutenberg 項目](http://www.gutenberg.org/) * [nltk.tokenize 包 API](http://www.nltk.org/api/nltk.tokenize.html) * [如何使用 Python 清理機器學習文本](https://machinelearningmastery.com/clean-text-machine-learning-python/) 在下一課中，您將發現詞袋模型。 ## 第 03 課：詞袋模型在本課程中，您將發現單詞模型包以及如何使用此模型對文本進行編碼，以便您可以使用 scikit-learn 和 Keras Python 庫來訓練模型。 ### 一袋詞詞袋模型是一種在使用機器學習算法對文本建模時表示文本數據的方式。該方法非常簡單和靈活，并且可以以多種方式用于從文檔中提取特征。詞袋是文本的表示，用于描述文檔中單詞的出現。選擇詞匯表，其中可能丟棄一些不經常使用的詞。然后使用對于詞匯表中的每個單詞具有一個位置的向量以及在文檔中出現（或不出現）的每個已知單詞的分數來表示給定的文本文檔。它被稱為單詞的“包”，因為有關文檔中單詞的順序或結構的任何信息都被丟棄。該模型僅關注文檔中是否出現已知單詞，而不是文檔中的位置。 ## 帶有 scikit-learn 的詞匯用于機器學習的 scikit-learn Python 庫提供了用于為詞袋模型編碼文檔的工具。可以創建編碼器的實例，在文本文檔集上訓練，然后反復使用以編碼訓練，測試，驗證以及需要為您的模型編碼的任何新數據。有一個編碼器根據他們的計數得分單詞，稱為 CountVectorizer，一個用于使用每個單詞的哈希函數來減少稱為 HashingVectorizer 的向量長度，以及一個使用基于文檔中單詞出現的得分和反向出現的單詞。所有文件稱為 TfidfVectorizer。下面的代碼段顯示了如何訓練 TfidfVectorizer 字袋編碼器并使用它來編碼多個小文本文檔。 ```py from sklearn.feature_extraction.text import TfidfVectorizer # list of text documents text = ["The quick brown fox jumped over the lazy dog.", "The dog.", "The fox"] # create the transform vectorizer = TfidfVectorizer() # tokenize and build vocab vectorizer.fit(text) # summarize print(vectorizer.vocabulary_) print(vectorizer.idf_) # encode document vector = vectorizer.transform([text[0]]) # summarize encoded vector print(vector.shape) print(vector.toarray()) ``` ### 與 Keras 的詞袋用于深度學習的 Keras Python 庫還提供了使用 Tokenizer 類中的 bag-of words-model 對文本進行編碼的工具。如上所述，編碼器必須在源文檔上進行訓練，然后可用于對將來的訓練數據，測試數據和任何其他數據進行編碼。 API 還具有在對單詞進行編碼之前執行基本分詞的優點。下面的代碼段演示了如何使用 Keras API 和單詞的“計數”類型評分來訓練和編碼一些小型文本文檔。 ```py from keras.preprocessing.text import Tokenizer # define 5 documents docs = ['Well done!', 'Good work', 'Great effort', 'nice work', 'Excellent!'] # create the tokenizer t = Tokenizer() # fit the tokenizer on the documents t.fit_on_texts(docs) # summarize what was learned print(t.word_counts) print(t.document_count) print(t.word_index) print(t.word_docs) # integer encode documents encoded_docs = t.texts_to_matrix(docs, mode='count') print(encoded_docs) ``` ### 你的任務您在本課程中的任務是嘗試使用 scikit-learn 和 Keras 方法為單詞包模型編碼小型設計文本文檔。如果您使用文檔的小型標準文本數據集進行練習并執行數據清理作為準備工作的一部分，則可獲得獎勵積分。在下面的評論中發布您的代碼。我很想看看您探索和演示的 API。 ### 更多信息 * [對詞袋模型的溫和介紹](https://machinelearningmastery.com/gentle-introduction-bag-words-model/) * [如何使用 scikit-learn](https://machinelearningmastery.com/prepare-text-data-machine-learning-scikit-learn/) 為機器學習準備文本數據 * [如何使用 Keras](https://machinelearningmastery.com/prepare-text-data-deep-learning-keras/) 為深度學習準備文本數據在下一課中，您將發現單詞嵌入。 ## 第 04 課：詞嵌入表示法在本課程中，您將發現嵌入分布式表示的單詞以及如何使用 Gensim Python 庫開發單詞嵌入。 ### 詞嵌入詞嵌入是一種單詞表示，允許具有相似含義的單詞具有相似的表示。它們是文本的分布式表示，這可能是深度學習方法在挑戰自然語言處理問題上令人印象深刻的表現的關鍵突破之一。單詞嵌入方法從文本語料庫中學習預定義固定大小的詞匯表的實值向量表示。 ### 訓練詞嵌入您可以使用 Gensim Python 庫訓練嵌入分布式表示的單詞，以進行主題建模。 Gensim 提供了 word2vec 算法的實現，該算法是在 Google 開發的，用于快速訓練來自文本文檔的字嵌入表示，您可以在命令行中鍵入以下內容，使用 pip 安裝 Gensim： ```py pip install -U gensim ``` 下面的代碼段顯示了如何定義一些人為的句子并在 Gensim 中訓練一個嵌入表示的單詞。 ```py from gensim.models import Word2Vec # define training data sentences = [['this', 'is', 'the', 'first', 'sentence', 'for', 'word2vec'], ['this', 'is', 'the', 'second', 'sentence'], ['yet', 'another', 'sentence'], ['one', 'more', 'sentence'], ['and', 'the', 'final', 'sentence']] # train model model = Word2Vec(sentences, min_count=1) # summarize the loaded model print(model) # summarize vocabulary words = list(model.wv.vocab) print(words) # access vector for one word print(model['sentence']) ``` ### 使用嵌入一旦經過訓練，嵌入就可以保存到文件中，作為另一個模型的一部分，例如深度學習模型的前端。您還可以繪制單詞的分布式表示的投影，以了解模型如何相信單詞的相關性。您可以使用的常見投影技術是主成分分析或 PCA，可在 scikit-learn 中使用。下面的代碼段顯示了如何訓練單詞嵌入模型，然后繪制詞匯表中所有單詞的二維投影。 ```py from gensim.models import Word2Vec from sklearn.decomposition import PCA from matplotlib import pyplot # define training data sentences = [['this', 'is', 'the', 'first', 'sentence', 'for', 'word2vec'], ['this', 'is', 'the', 'second', 'sentence'], ['yet', 'another', 'sentence'], ['one', 'more', 'sentence'], ['and', 'the', 'final', 'sentence']] # train model model = Word2Vec(sentences, min_count=1) # fit a 2D PCA model to the vectors X = model[model.wv.vocab] pca = PCA(n_components=2) result = pca.fit_transform(X) # create a scatter plot of the projection pyplot.scatter(result[:, 0], result[:, 1]) words = list(model.wv.vocab) for i, word in enumerate(words): pyplot.annotate(word, xy=(result[i, 0], result[i, 1])) pyplot.show() ``` ### 你的任務您在本課程中的任務是使用 Gensim 在文本文檔上訓練單詞嵌入，例如來自 Project Gutenberg 的書籍。如果您可以生成常用單詞的圖表，則可以獲得獎勵積分。在下面的評論中發布您的代碼。我很想看看你選擇哪本書以及你學習嵌入的任何細節。 ### 更多信息 * [什么是詞嵌入文本？](https://machinelearningmastery.com/what-are-word-embeddings/) * [如何使用 Gensim](https://machinelearningmastery.com/develop-word-embeddings-python-gensim/) 在 Python 中開發詞嵌入 * [Gutenberg 項目](http://www.gutenberg.org/) 在下一課中，您將了解如何將詞嵌入作為深度學習模型的一部分進行學習。 ## 第 05 課：學習嵌入在本課程中，您將學習如何學習嵌入字的分布式表示的單詞，作為擬合深度學習模型的一部分 ### 嵌入層 Keras 提供了一個嵌入層，可用于文本數據的神經網絡。它要求輸入數據是整數編碼的，以便每個單詞由唯一的整數表示。可以使用 Keras 提供的 Tokenizer API 來執行該數據準備步驟。使用隨機權重初始化嵌入層，并將學習訓練數據集中所有單詞的嵌入。你必須指定 _input_dim_ ，這是詞匯量的大小， _output_dim_ 是嵌入的向量空間的大小，可選擇 _input_length_ 是輸入序列中的單詞數。 ```py layer = Embedding(input_dim, output_dim, input_length=??) ``` 或者，更具體地，200 個單詞的詞匯表，32 維的分布式表示和 50 個單詞的輸入長度。 ```py layer = Embedding(200, 32, input_length=50) ``` ### 嵌入模型嵌入層可以用作深度學習模型的前端，以提供豐富的單詞分布式表示，重要的是，這種表示可以作為訓練深度學習模型的一部分來學習。例如，下面的代碼片段將定義和編譯具有嵌入輸入層和密集輸出層的神經網絡，用于文檔分類問題。當模型被訓練有關填充文檔及其相關輸出標簽的示例時，網絡權重和分布式表示將被調整到特定數據。 ```py from keras.models import Sequential from keras.layers import Dense from keras.layers import Flatten from keras.layers.embeddings import Embedding # define problem vocab_size = 100 max_length = 32 # define the model model = Sequential() model.add(Embedding(vocab_size, 8, input_length=max_length)) model.add(Flatten()) model.add(Dense(1, activation='sigmoid')) # compile the model model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['acc']) # summarize the model print(model.summary()) ``` 還可以使用預先訓練的權重來初始化嵌入層，例如由 Gensim 準備的權重，并將層配置為不可訓練的。如果可以使用非常大的文本語料庫來預先訓練單詞嵌入，則該方法可能是有用的。 ### 你的任務您在本課程中的任務是設計一個小型文檔分類問題，其中包含 10 個文檔，每個文檔包含一個句子以及相關的正面和負面結果標簽，并使用單詞嵌入這些數據來訓練網絡。請注意，在使用 Keras pad_sequences（）函數訓練模型之前，需要將每個句子填充到相同的最大長度。如果您加載使用 Gensim 準備的預訓練單詞嵌入，則可獲得獎勵積分。在下面的評論中發布您的代碼。我很想看看你設法的句子和模特的技巧。 ### 更多信息 * [可變長度輸入序列的數據準備](https://machinelearningmastery.com/data-preparation-variable-length-input-sequences-sequence-prediction/) * [如何使用 Keras 深入學習使用詞嵌入層](https://machinelearningmastery.com/use-word-embedding-layers-deep-learning-keras/) 在下一課中，您將了解如何開發用于分類文本的深度學習模型。 ## 第 06 課：文本分類在本課程中，您將發現標準的深度學習模型，用于對文本情感分析等問題上使用的文本進行分類。 ### 文件分類文本分類描述了一類問題，例如預測推文和電影評論的情感，以及將電子郵件分類為垃圾郵件。它是自然語言處理的一個重要領域，也是開始在文本數據上使用深度學習技術的好地方。深度學習方法在文本分類方面證明非常好，在一系列標準學術基準問題上實現了最先進的結果。 ### 嵌入+ CNN 文本分類的操作方法涉及使用單詞嵌入來表示單詞，使用卷積神經網絡或 CNN 來學習如何區分分類問題的文檔。該架構由三個關鍵部分組成： * **單詞嵌入模型**：單詞的分布式表示，其中具有相似含義的不同單詞（基于其用法）也具有相似的表示。 * **卷積模型**：一種特征提取模型，用于學習從使用單詞嵌入表示的文檔中提取顯著特征。 * **完全連接模型**：根據預測輸出解釋提取的特征。這種類型的模型可以在 Keras Python 深度學習庫中定義。下面的代碼段顯示了一個深度學習模型示例，用于將文本文檔分類為兩個類之一。 ```py # define problem vocab_size = 100 max_length = 200 # define model model = Sequential() model.add(Embedding(vocab_size, 100, input_length=max_length)) model.add(Conv1D(filters=32, kernel_size=8, activation='relu')) model.add(MaxPooling1D(pool_size=2)) model.add(Flatten()) model.add(Dense(10, activation='relu')) model.add(Dense(1, activation='sigmoid')) print(model.summary()) ``` ### 你的任務您在本課程中的任務是研究使用嵌入+ CNN 深度學習方法組合進行文本分類，并報告配置此模型的示例或最佳實踐，例如層數，內核大小，詞匯量大小等等。如果您可以通過改變內核大小找到并描述支持 n-gram 或多組單詞作為輸入的變體，則可獲得獎勵積分。在下面的評論中發布您的發現。我很樂意看到你發現了什么。 ### 更多信息 * [深度學習文檔分類的最佳實踐](https://machinelearningmastery.com/best-practices-document-classification-deep-learning/) 在下一課中，您將了解如何處理情感分析預測問題。 ## 第 07 課：電影評論情感分析項目在本課程中，您將了解如何準備文本數據，開發和評估深度學習模型以預測電影評論的情感。我希望您將在此速成課程中學到的所有內容聯系在一起，并通過端到端的實際問題進行處理。 ### 電影評論數據集電影評論數據集是 Bo Pang 和 Lillian Lee 在 21 世紀初從 imdb.com 網站上檢索到的電影評論的集合。收集的評論作為他們自然語言處理研究的一部分。您可以從此處下載數據集： * [電影評論 Polarity Dataset](http://www.cs.cornell.edu/people/pabo/movie-review-data/review_polarity.tar.gz) （review_polarity.tar.gz，3MB）從該數據集中，您將開發情感分析深度學習模型，以預測給定的電影評論是正面還是負面。 ### 你的任務您在本課程中的任務是開發和評估電影評論數據集中的深度學習模型： 1. 下載并檢查數據集。 2. 清理并標記文本并將結果保存到新文件。 3. 將干凈的數據拆分為訓練和測試數據集。 4. 在訓練數據集上開發嵌入+ CNN 模型。 5. 評估測試數據集上的模型。如果您可以通過對新的電影評論進行預測，設計或真實來展示您的模型，那么獎勵積分。如果您可以將您的模型與神經詞袋模型進行比較，則可獲得額外獎勵積分。在下面的評論中發布您的代碼和模型技能。我很想看看你能想出什么。更簡單的模型是首選，但也嘗試深入，看看會發生什么。 ### 更多信息 * [如何為情感分析準備電影評論數據](https://machinelearningmastery.com/prepare-movie-review-data-sentiment-analysis/) * [如何開發一種用于預測電影評論情感的深度學習詞袋模型](https://machinelearningmastery.com/deep-learning-bag-of-words-model-sentiment-analysis/) * [如何開發用于預測電影評論情感的詞嵌入模型](https://machinelearningmastery.com/develop-word-embedding-model-predicting-movie-review-sentiment/) ## 結束！（看你有多遠）你做到了。做得好！花點時間回顧一下你到底有多遠。你發現： * 什么是自然語言處理，以及深度學習對該領域的承諾和影響。 * 如何手動清理和標記原始文本數據，并使用 NLTK 使其為建模做好準備。 * 如何使用帶有 scikit-learn 和 Keras 庫的詞袋模型對文本進行編碼。 * 如何訓練使用 Gensim 庫嵌入單詞的分布式表示的單詞。 * 如何學習嵌入分布式表示的單詞作為擬合深度學習模型的一部分。 * 如何使用卷積神經網絡的詞嵌入來解決文本分類問題。 * 如何使用深度學習方法端到端地處理真實的情感分析問題。這只是您深入學習自然語言處理之旅的開始。繼續練習和發展你的技能。下一步，查看我的[關于 NLP](https://machinelearningmastery.com/deep-learning-for-nlp/) 深度學習的書。 ## 摘要 **你是如何使用迷你課程的？** 你喜歡這個速成班嗎？ **你有什么問題嗎？有沒有任何問題？** 讓我知道。在下面發表評論。