自然語言處理神經網絡模型入門 · Machine Learning Mastery 博客文章翻譯

# 自然語言處理神經網絡模型入門 > 原文： [https://machinelearningmastery.com/primer-neural-network-models-natural-language-processing/](https://machinelearningmastery.com/primer-neural-network-models-natural-language-processing/) 深度學習對自然語言處理領域產生巨大影響。但是，作為初學者，你從哪里開始？深度學習和自然語言處理都是巨大的領域。每個領域需要關注的重點是什么？NLP 的哪些領域是深度學習影響最大的？在這篇文章中，您將發現有關自然語言處理的深度學習的入門讀物。閱讀這篇文章后，你會知道： * 對自然語言處理領域影響最大的神經網絡架構。 * 可以通過深度學習成功解決的自然語言處理任務的廣泛視圖。 * 密集詞表示的重要性以及可用于學習它們的方法。讓我們開始吧。 ![Primer on Neural Network Models for Natural Language Processing](img/a192778fb6caa7fef7a80b720560a307.jpg) 自然語言處理的神經網絡模型入門照片由 [faungg 的照片](https://www.flickr.com/photos/44534236@N00/10984105353/)，保留一些權利。 ## 概觀這篇文章分為 12 個部分，遵循論文的結構;他們是： 1. 關于論文（簡介） 2. 神經網絡架構 3. 特征表示 4. 前饋神經網絡 5. 詞嵌入 6. 神經網絡訓練 7. 級聯和多任務學習 8. 結構化輸出預測 9. 卷積層 10. 循環神經網絡 11. 具體的 RNN 架構 12. 樹木建模我想給大家介紹一下本文的主要部分和風格，以及對該主題的高級介紹。如果你想更深入，我強烈推薦[完整閱讀](https://arxiv.org/abs/1510.00726)或[最新書](http://amzn.to/2tXn2dZ)。 ## 1.關于論文該論文的標題是：“_ 自然語言處理神經網絡模型入門 _”。它是[在 ArXiv](https://arxiv.org/abs/1510.00726) 上免費提供，并且是 2015 年的最后日期。它是一份技術報告或教程而不是一篇論文，并提供了針對自然語言處理（NLP）的深度學習方法的全面介紹，供研究人員使用和學生。 > 本教程從自然語言處理研究的角度對神經網絡模型進行了調查，試圖通過神經技術使自然語言研究人員加快速度。該入門書由 [Yoav Goldberg](https://www.cs.bgu.ac.il/~yoavg/uni/) 撰寫，他是 NLP 領域的研究員，曾在 Google Research 擔任研究科學家。 Yoav 最近引起了一些[爭議](https://medium.com/@yoav.goldberg/an-adversarial-review-of-adversarial-generation-of-natural-language-409ac3378bd7)，但我不會反對他。這是一份技術報告，大約 62 頁，有大約 13 頁的參考文獻。該論文非常適合初學者，原因有兩個： * 除了你對這個主題感興趣而且你知道一點機器學習和/或自然語言處理之外，它對讀者幾乎沒有什么假設。 * 它具有廣泛的廣度，涵蓋了廣泛的深度學習方法和自然語言問題。 > 在本教程中，我嘗試為 NLP 從業者（以及新手）提供基本背景，行話，工具和方法，使他們能夠理解神經網絡模型背后的原理并將其應用于自己的工作中。 ...它針對那些有興趣采用現有的有用技術并以有用和創造性的方式應用于他們最喜歡的 NLP 問題的讀者。通常，使用語言學或自然語言處理的術語或命名法重新構建關鍵的深度學習方法，從而提供有用的橋梁。最后，這本 2015 年的入門書已經變成 2017 年出版的一本書，名為“[自然語言處理的神經網絡方法](http://amzn.to/2tXn2dZ)”。 [![Amazon Image](img/82db93f4aeff9716b90238fbd979adea.jpg)](http://www.amazon.com/dp/1627052984?tag=inspiredalgor-20) 如果您喜歡這本入門書并希望深入了解，我強烈推薦 Yoav 的書。 ## 2.神經網絡架構這個簡短的部分介紹了不同類型的神經網絡體系結構，并在后面的部分中進行了交叉引用。 > 完全連接的前饋神經網絡是非線性學習器，在大多數情況下，無論在何處使用線性學習器，它都可以用作替代品。共涵蓋了 4 種類型的神經網絡架構，重點介紹了每種架構的應用和參考示例： * 完全連接的前饋神經網絡，例如，多層感知器網絡。 * 具有卷積和池化層的網絡，例如，卷積神經網絡。 * 循環神經網絡，例如長期的短期記憶網絡。 * 循環神經網絡。如果您只對特定網絡類型的應用程序感興趣并想直接閱讀源文件，那么本節提供了一個很好的來源。 ## 3.特征表示本節重點介紹從稀疏到密集表示的轉換，這些表示又可以與深度學習模型一起進行訓練。 > 從稀疏輸入線性模型轉向基于神經網絡的模型時，最大的跳躍可能是停止將每個特征表示為唯一維度（所謂的單熱表示）并將其表示為密集向量。提出了 NLP 分類系統的一般結構，總結如下： 1. 提取一組核心語言功能。 2. 檢索每個向量的相應向量。 3. 組合特征向量。 4. 將組合的向量饋送到非線性分類器中。這個公式的關鍵是密集而不是稀疏的特征向量和核心特征的使用而不是特征組合。 > 請注意，神經網絡設置中的特征提取階段僅涉及核心特征的提取。這與傳統的基于線性模型的 NLP 系統形成對比，在該系統中，特征設計者不僅需要手動指定興趣的核心特征，還需要手動指定它們之間的相互作用。 ## 4.前饋神經網絡本節提供前饋人工神經網絡的速成課程。 ![Feed-forward neural network with two hidden layers](img/d1e0f90b5a8041a681052ed400e52b28.jpg) 具有兩個隱藏層的前饋神經網絡，取自“用于自然語言處理的神經網絡模型的入門”。使用腦啟發的隱喻和使用數學符號來呈現網絡。涵蓋了常見的神經網絡主題，例如： * 表示功率（例如通用近似）。 * 常見的非線性（例如傳遞函數）。 * 輸出變換（例如 softmax）。 * 詞嵌入（例如內置的學習密集表示）。 * 損失函數（例如鉸鏈和對數損失）。 ## 5\. 詞嵌入單詞嵌入表示的主題是自然語言處理中神經網絡方法的關鍵。本節對主題進??行了擴展，并列舉了關鍵方法。 > 神經網絡方法的主要組成部分是使用嵌入 - 將每個特征表示為低維空間中的向量將審核以下單詞嵌入主題： * 隨機初始化（例如，從均勻的隨機向量開始）。 * 監督任務特定的預訓練（例如轉學習）。 * 無人監督的預訓練（例如像 word2vec 和 GloVe 這樣的統計方法）。 * 訓練目標（例如，目標對結果向量的影響）。 * 上下文的選擇（例如每個單詞周圍的單詞的影響）。神經詞嵌入源于語言建模的世界，其中訓練網絡以基于先前詞的序列預測下一個詞 ## 6.神經網絡訓練這個較長的部分側重于如何訓練神經網絡，為那些剛接觸神經網絡范例的人編寫。 > 神經網絡訓練是通過嘗試使用基于梯度的方法最小化訓練集上的損失函數來完成的。本節重點介紹隨機梯度下降（以及像迷你批次這樣的朋友）以及正規化等訓練期間的重要主題。有趣的是，提出了神經網絡的計算圖透視，為像 Theano 和 TensorFlow 這樣的符號數值庫提供了入門，這些庫是實現深度學習模型的流行基礎。 > 構建圖形后，可以直接運行正向計算（計算計算結果）或反向計算（計算梯度） ## 7.級聯和多任務學習本節以上一節為基礎，總結了用于跨多種語言任務學習的級聯 NLP 模型和模型的工作。 **模型級聯**：利用神經網絡模型的計算圖定義來利用中間表示（編碼）來開發更復雜的模型。 > 例如，我們可以有一個前饋網絡，用于根據單詞的相鄰單詞和/或組成單詞的字符來預測單詞的詞性。 **多任務學習**：相關的自然語言預測任務不相互饋送，但可以跨任務共享信息。 > 用于預測塊邊界，命名實體邊界和句子中的下一個詞的信息都依賴于一些共享的底層語法 - 語義表示在神經網絡的背景下描述了這兩個先進概念，其允許在訓練（錯誤的反向傳播）和進行預測期間的模型或信息之間的連接。 ## 8.結構化輸出預測本節涉及自然語言任務的示例，其中深度學習方法用于進行序列，樹和圖等結構化預測。 > 典型示例是序列標記（例如，詞性標記）序列分段（分塊，NER）和句法分析。本節涵蓋貪婪和基于搜索的結構化預測，重點關注后者。 > 預測自然語言結構的常用方法是基于搜索。 ## 9.卷積層本節提供了卷積神經網絡（CNN）的速成課程及其對自然語言的影響。值得注意的是，CNN 已被證明對分類 NLP 任務非常有效，例如情感分析，例如，學習在文本中尋找特定的子序列或結構以進行預測。 > 卷積神經網絡被設計用于識別大結構中的指示性局部預測器，并將它們組合以產生結構的固定大小向量表示，捕獲對于手頭的預測任務最具信息性的這些局部方面。 ## 10.循環神經網絡與前一節一樣，本節重點介紹特定類型網絡的使用及其在 NLP 中的作用和應用。在這種情況下，用于建模序列的循環神經網絡（RNN）。 > 循環神經網絡（RNN）允許在固定大小的向量中表示任意大小的結構化輸入，同時關注輸入的結構化屬性。鑒于 RNN 的普及，特別是 NLP 中的長期短期記憶（LSTM），這個較大的部分通過各種經常性的主題和模型來工作，包括： * RNN 抽象（例如網絡圖中的循環連接）。 * RNN 訓練（例如，通過時間反向傳播）。 * 多層（堆疊）RNN（例如深度學習的“深層”部分）。 * BI-RNN（例如，提供序列作為輸入向前和向后）。 * 用于表示堆棧的 RNN 時間花在 RNN 模型架構或架構元素上，具體如下： * **接受器**：完成輸入序列后輸出計算的損耗。 * **編碼器**：最終向量用作輸入序列的編碼。 * **傳感器**：為輸入序列中的每個觀察創建一個輸出。 * **編碼器 - 解碼器**：輸入序列在被解碼為輸出序列之前被編碼為固定長度的向量。 ## 11.具體的 RNN 架構本節以前面的方式為基礎，介紹了特定的 RNN 算法。具體涉及的是： * 簡單的 RNN（SRNN）。 * 長短期記憶（LSTM）。 * 門控循環單元（GRU）。 ## 12.樹木建模最后一節重點介紹一種更為復雜的網絡，稱為循環神經網絡，用于學習模型樹。樹木可以是句法樹，話語樹，甚至是樹，代表句子各部分所表達的情感。我們可能希望基于特定樹節點預測值，基于根節點預測值，或者將質量分數分配給完整樹或樹的一部分。由于循環神經網絡維持輸入序列的狀態，循環神經網絡維持樹中節點的狀態。 ![Example of a Recursive Neural Network](img/0c3673f27664459e71deb868d523255d.jpg) 循環神經網絡的示例，取自“用于自然語言處理的神經網絡模型的入門”。 ## 進一步閱讀如果您要深入了解，本節將提供有關該主題的更多資源。 * [自然語言處理神經網絡模型入門](https://arxiv.org/abs/1510.00726)，2015 * [自然語言處理的神經網絡方法](http://amzn.to/2tXn2dZ)，2017 * [Yoav Goldberg 主頁](https://www.cs.bgu.ac.il/~yoavg/uni/) * [Yoav Goldberg 中等](https://medium.com/@yoav.goldberg) ## 摘要在這篇文章中，您發現了自然語言處理的深度學習入門。具體來說，你學到了： * 對自然語言處理領域影響最大的神經網絡架構。 * 可以通過深度學習成功解決自然語言處理任務的廣泛視圖。 * 密集詞表示的重要性以及可用于學習它們的方法。你有任何問題嗎？在下面的評論中提出您的問題，我會盡力回答。