用于文本摘要的編碼器 - 解碼器深度學習模型 · Machine Learning Mastery 博客文章翻譯

# 用于文本摘要的編碼器 - 解碼器深度學習模型 > 原文： [https://machinelearningmastery.com/encoder-decoder-deep-learning-models-text-summarization/](https://machinelearningmastery.com/encoder-decoder-deep-learning-models-text-summarization/) 文本摘要是從較大的文本文檔創建簡短，準確和流暢的摘要的任務。最近深度學習方法已被證明在文本摘要的抽象方法中是有效的。在這篇文章中，您將發現三種不同的模型，它們構建在有效的編碼器 - 解碼器架構之上，該架構是為機器翻譯中的序列到序列預測而開發的。閱讀這篇文章后，你會知道： * Facebook AI Research 模型使用編碼器 - 解碼器模型和卷積神經網絡編碼器。 * 使用 Encoder-Decoder 模型的 IBM Watson 模型，具有指向和分層注意力。 * 斯坦福/谷歌模型使用帶有指向和覆蓋的編碼器 - 解碼器模型。讓我們開始吧。 ![Encoder-Decoder Deep Learning Models for Text Summarization](img/3c52998a2f284f4cb4fabfab639712d7.jpg) 用于文本摘要的編碼器 - 解碼器深度學習模型照片由[Hi?uBùi](https://www.flickr.com/photos/thphoto1788/34624647625/)拍攝，保留一些權利。 ## 型號概述我們將查看三種不同的文本摘要模型，這些模型以撰寫本文時作者所屬的組織命名： 1. Facebook 模型 2. IBM 模型 3. 谷歌模型 ## Facebook 模型 Alexander Rush 等人描述了這種方法。來自 Facebook AI Research（FAIR）的 2015 年論文“[用于抽象句子摘要的神經注意模型](https://arxiv.org/abs/1509.00685)”。該模型是為句子摘要而開發的，具體為： > 給定一個輸入句子，目標是產生一個簡明的摘要。 [...]摘要生成器將 x 作為輸入并輸出長度 N <1 的縮短句子 y。 M.我們將假設摘要中的單詞也來自相同的詞匯表這比完整的文檔摘要更簡單。該方法遵循用于具有編碼器和解碼器的神經機器轉換的一般方法。探索了三種不同的解碼器： * **Bag-of-Words 編碼器**。輸入句子使用詞袋模型編碼，丟棄詞序信息。 * **卷積編碼器**。使用字嵌入表示，然后使用跨字和匯集層的時間延遲卷積層。 * **基于注意力的編碼器**。單詞嵌入表示與上下文向量一起使用簡單的注意機制，在輸入句子和輸出摘要之間提供一種軟對齊。 ![Network Diagram of Encoder and Decoder Elements](img/bf03345040dee4e6c83f6bd3e5a3db62.jpg) 編碼器和解碼器元件的網絡圖取自“用于抽象句子摘要的神經注意模型”。然后，在生成文本摘要時使用波束搜索，這與機器翻譯中使用的方法不同。該模型在標準 [DUC-2014 數據集](http://duc.nist.gov/data.html)上進行評估，該數據集涉及為 500 篇新聞文章生成大約 14 個字的摘要。這項任務的數據包括來自紐約時報和美聯社有線服務的 500 篇新聞文章，每篇文章都配有 4 個不同的人工參考摘要（實際上不是頭條新聞），上限為 75 字節。該模型還在大約 950 萬篇新聞文章的 [Gigaword 數據集](https://catalog.ldc.upenn.edu/LDC2012T21)上進行了評估，其中給出了新聞文章第一句的標題。使用 ROUGE-1，ROUGE-2 和 ROUGE-L 測量結果報告了兩個問題，并且調諧系統顯示在 DUC-2004 數據集上實現了最先進的結果。 > 與幾個強大的基線相比，該模型顯示了 DUC-2004 共享任務的顯著表現提升。 ## IBM 模型 Ramesh Nallapati 等人描述了這種方法。來自 IBM Watson 的 2016 年論文“[使用序列到序列 RNN 和超越](https://arxiv.org/abs/1602.06023)的抽象文本摘要”。該方法基于編碼器 - 解碼器循環神經網絡，注重機器翻譯。 > 我們的基線模型對應于 Bahdanau 等人使用的神經機器翻譯模型。（2014）。編碼器由雙向 GRU-RNN（Chung 等，2014）組成，而解碼器由具有與編碼器相同的隱藏狀態大小的單向 GRU-RNN 和源上的關注機制組成。 - 隱藏狀態和目標詞匯表上的軟最大層以生成單詞。除了用于標記的詞性和離散的 TF 和 IDF 特征的嵌入之外，還使用用于輸入詞的詞嵌入。這種更豐富的輸入表示旨在使模型在識別源文本中的關鍵概念和實體方面具有更好的表現。該模型還使用學習開關機制來決定是否生成輸出字或指向輸入序列中的字，用于處理稀有和低頻字。 > ...解碼器配有一個“開關”，用于決定在每個時間步使用發生器還是指針。如果開關打開，則解碼器以正常方式從其目標詞匯表中產生一個單詞。但是，如果關閉開關，則解碼器生成指向源中的一個字位置的指針。最后，該模型是分層的，因為注意機制在編碼輸入數據上的單詞級和句子級操作。 ![Hierarchical encoder with hierarchical attention](img/c64351a71d47be92099f11ee7e621711.jpg) 具有分層關注的分層編碼器。取自“使用序列到序列的 RNN 及其后的抽象文本摘要”。在 DUC-2003/2004 數據集和 Gigaword 數據集上評估了該方法的總共 6 種變體，兩者都用于評估 Facebook 模型。該模型還在來自 CNN 和 Daily Mail 網站的新的新聞文章集上進行了評估。與 Facebook 方法和其他方法相比，IBM 方法在標準數據集上取得了令人矚目的成果。 > ...我們將注意力編碼器 - 解碼器應用于抽象概括的任務，具有非常有希望的結果，在兩個不同的數據集上顯著優于最先進的結果。 ## 谷歌模型 Abigail See 等人描述了這種方法。來自斯坦福大學 2017 年論文“[到達重點：利用指針生成器網絡進行總結](https://arxiv.org/abs/1704.04368)。” 一個更好的名字可能是“斯坦福模型”，但我試圖將這項工作與合作者 Peter Liu（谷歌大腦）2016 年帖子標題為“[文本摘要與 TensorFlow](https://research.googleblog.com/2016/08/text-summarization-with-tensorflow.html) ”在谷歌上聯系起來研究博客。在他們的博客文章中，Peter Liu 等人。在 Google Brain 上引入了 [TensorFlow 模型](https://github.com/tensorflow/models/tree/master/textsum)，該模型直接將用于機器翻譯的編碼器 - 解碼器模型應用于生成 Gigaword 數據集的短句的摘要。雖然沒有在代碼提供的文本文檔之外提供結果的正式記錄，但它們聲稱比模型的最新結果更好。在他們的論文中，Abigail See 等人。描述了抽象文本摘要的深度學習方法的兩個主要缺點：它們產生事實錯誤并且它們重復出現。 > 雖然這些系統很有前景，但它們表現出不良行為，例如不準確地復制事實細節，無法處理詞匯外（OOV）詞，以及重復自己他們的方法旨在總結多個句子而不是單句概括，并應用于用于演示 IBM 模型的 CNN / Daily Mail 數據集。該數據集中的文章平均包含大約 39 個句子。基線編碼器 - 解碼器模型與字嵌入，雙向 LSTM 用于輸入和注意一起使用。探索了一種擴展，它使用指向輸入數據中的單詞來解決詞匯表單詞，類似于 IBM 模型中使用的方法。最后，覆蓋機制用于幫助減少輸出中的重復。 ![Pointer-generator model for Text Summarization](img/b1597fc975e0921630e8ec485d29844d.jpg) 用于文本摘要的指針生成器模型取自“到達點：使用指針生成器網絡進行匯總”。使用 ROUGE 和 METEOR 得分報告結果，與其他抽象方法和挑戰采掘模型的得分相比，顯示出最先進的表現。 > 我們的指針生成器模型覆蓋率進一步提高了 ROUGE 和 METEOR 得分，令人信服地超越了最佳[比較]抽象模型...... 結果確實表明可以使用基線 seq-to-seq 模型（帶注意的編碼器 - 解碼器），但不會產生競爭結果，顯示了它們對方法的擴展的好處。 > 我們發現我們的基線模型在 ROUGE 和 METEOR 方面都表現不佳，實際上較大的詞匯量（150k）似乎沒有幫助。 ......事實細節經常被錯誤地復制，通常用一個更常見的替代詞替換一個不常見的（但是詞匯表中）詞。 ## 進一步閱讀如果您要深入了解，本節將提供有關該主題的更多資源。 * [抽象句子摘要的神經注意模型](https://arxiv.org/abs/1509.00685)（[見代碼](https://github.com/facebook/NAMAS)），2015。 * [使用序列到序列 RNN 及其后的抽象文本摘要](https://arxiv.org/abs/1602.06023)，2016。 * [達到要點：指針生成器網絡匯總](https://arxiv.org/abs/1704.04368)（[見代碼](https://github.com/abisee/pointer-generator)），2017 年。 * [使用 TensorFlow 進行文本摘要](https://research.googleblog.com/2016/08/text-summarization-with-tensorflow.html)（[參見代碼](https://github.com/tensorflow/models/tree/master/textsum)），2016 * [馴服循環神經網絡以實現更好的總結](http://www.abigailsee.com/2017/04/16/taming-rnns-for-better-summarization.html)，2017 年。 ## 摘要在這篇文章中，您發現了文本摘要的深度學習模型。具體來說，你學到了： * 使用編碼器 - 解碼器模型和卷積神經網絡編碼器的 Facebook AI Research 模型。 * 使用 Encoder-Decoder 模型的 IBM Watson 模型，具有指向和分層注意力。 * 斯坦福/谷歌模型使用帶有指向和覆蓋的編碼器 - 解碼器模型。你有任何問題嗎？在下面的評論中提出您的問題，我會盡力回答。