文本摘要的溫和介紹 · Machine Learning Mastery 博客文章翻譯

# 文本摘要的溫和介紹 > 原文： [https://machinelearningmastery.com/gentle-introduction-text-summarization/](https://machinelearningmastery.com/gentle-introduction-text-summarization/) 文本摘要是創建較長文本文檔的簡短，準確和流暢摘要的問題。非常需要自動文本摘要方法來解決在線可用的不斷增長的文本數據量，以便更好地幫助發現相關信息并更快地消費相關信息。在這篇文章中，您將發現自然語言處理中的文本摘要問題。閱讀這篇文章后，你會知道： * 為什么文本摘要很重要，特別是考慮到互聯網上提供的大量文本。 * 您可能每天都會遇到的文本摘要示例。 * 深度學習方法在自動文本摘要中的應用和前景。讓我們開始吧。 ![A Gentle Introduction to Text Summarization](img/adefef2a81ecd2c263765772d19e0ecf.jpg) 文本摘要的溫和介紹 [Dmitry Sumin](https://www.flickr.com/photos/dmitrysumin/5197447420/) 的照片，保留一些權利。 ## 概觀這篇文章分為 5 部分;他們是： 1. 文本摘要 2. 什么是自動文本摘要？ 3. 文本摘要的示例 4. 如何總結文本 5. 深度學習文本摘要 ## 文本摘要有大量的文字材料，它每天都在增長。想想互聯網，包括網頁，新聞文章，狀態更新，博客等等。數據是非結構化的，我們可以做的最好的方法是使用搜索和瀏覽結果。非常需要將大部分文本數據縮減為捕獲顯著細節的更短，更集中的摘要，以便我們可以更有效地導航它，以及檢查較大的文檔是否包含我們正在尋找的信息。 > 數字文檔形式的文本信息很快就會累積到大量數據中。這些大量文檔中的大部分都是非結構化的：它不受限制，并且沒有被組織到傳統數據庫中。因此，處理文件是一項敷衍的任務，主要是由于缺乏標準。 - 第 xix 頁，[自動文本摘要](http://amzn.to/2wgob34)，2014。我們不可能手動創建所有文本的摘要;非常需要自動方法。在 2014 年關于題為“ _[自動文本摘要](http://amzn.to/2fhUPNt)_ ”的書中，作者提供了我們需要自動文本摘要工具的 6 個理由。 > 1. 摘要減少了閱讀時間。 > 2. 在研究文檔時，摘要使選擇過程更容易。 > 3. 自動摘要提高了索引的有效性。 > 4. 自動摘要算法的偏差小于人類摘要。 > 5. 個性化摘要在問答系統中非常有用，因為它們提供個性化信息。 > 6. 使用自動或半自動摘要系統，商業抽象服務可以增加他們能夠處理的文本數量。 - 第 4-5 頁，[自動文本摘要](http://amzn.to/2wgob34)，2014。現在我們知道我們需要自動文本摘要，讓我們更好地定義文本摘要的含義。 ## 什么是自動文本摘要？自動文本摘要或僅文本摘要是創建較長文檔的簡短一致版本的過程。 > 文本摘要是從源（或多個源）中提取最重要信息以生成特定用戶（或用戶）和任務（或任務）的簡化版本的過程。 - 第 1 頁，[自動文本摘要的進展](http://amzn.to/2giFqN1)，1999。我們（人類）通常擅長這種類型的任務，因為它涉及首先理解源文檔的含義，然后在新描述中提煉意義并捕獲顯著的細節。因此，自動創建文本摘要的目標是使得到的摘要與人類編寫的摘要一樣好。 > 自動摘要工作的理想是開發一種技術，通過該技術，機器可以生成成功模仿人類生成的摘要的摘要。 - 第 2 頁，[創新文檔摘要技術：革新知識理解](http://amzn.to/2gigHIS)，2014 年。僅僅生成捕獲源文檔要點的單詞和短語是不夠的。摘要應該準確，并且應該作為新的獨立文檔流暢地閱讀。 > 自動文本摘要是在保留關鍵信息內容和整體含義的同時生成簡潔流暢的摘要的任務 - [文本摘要技術：簡要調查](https://arxiv.org/abs/1707.02268)，2017 年。接下來，讓我們通過一些例子來理解這種理解。 ## 文本摘要的示例更大的文檔摘要有很多原因和用途。可能會想到的一個例子是創建一篇長篇新聞文章的簡明摘要，但是我們每天都會遇到更多的文本摘要案例。在他們 1999 年關于題為“ _[自動文本摘要的進展](http://amzn.to/2giFqN1)_ ”主題的書中，作者提供了一個有用的列表，列出了每天的文本摘要示例。 * 頭條新聞（來自世界各地） * 大綱（學生筆記） * 會議紀要（會議紀要） * 預覽（電影） * 大綱（肥皂劇列表） * 評論（書籍，CD，電影等） * 摘要（電視指南） * 傳記（簡歷，ob 告） * abridgments（兒童莎士比亞） * 公告（天氣預報/股市報告） * 聲音叮咬（當前問題上的政治家） * 歷史（顯著事件的年表） - 第 1 頁，[自動文本摘要的進展](http://amzn.to/2giFqN1)，1999。很明顯，我們閱讀和使用摘要的次數比我們最初認為的要多。 ## 如何總結文本總結文本文檔有兩種主要方法;他們是： 1.提取方法。 2.抽象方法。 > 文本摘要的不同維度通常可以基于其輸入類型（單個或多個文檔），目的（通用，特定于域或基于查詢）和輸出類型（提取或抽象）來分類。 - [自動文本摘要方法評論](http://thescipub.com/PDF/jcssp.2016.178.190.pdf)，2016。提取文本摘要涉及從源文檔中選擇短語和句子以構成新摘要。技術涉及對短語的相關性進行排序，以便僅選擇與源的含義最相關的那些。抽象文本摘要涉及生成全新的短語和句子以捕獲源文檔的含義。這是一種更具挑戰性的方法，但也是人類最終使用的方法。傳統方法通過從源文檔中選擇和壓縮內容來進行操作。 > ...自動摘要有兩種不同的方法：提取和抽象。摘要摘要方法通過識別文本的重要部分并逐字生成它們來工作; [...]抽象概括方法旨在以新的方式產生重要的材料。換句話說，他們使用先進的自然語言技術解釋和檢查文本，以生成一個新的較短文本，傳達原始文本中最重要的信息 - [文本摘要技術：簡要調查](https://arxiv.org/abs/1707.02268)，2017 年。傳統上，大多數成功的文本摘要方法都是提取方法，因為它是一種更簡單的方法，但抽象方法可以為這個問題提供更一般的解決方案。 ## 深度學習文本摘要最近深度學習方法已經顯示出有希望的文本摘要結果。已經提出了通過應用深度學習方法進行自動機器翻譯的方法，特別是通過將文本摘要的問題構建為序列到序列學習問題。 > 抽象文本摘要是生成標題或簡短摘要的任務，該摘要由捕獲文章或段落的顯著想法的幾個句子組成。 [...]此任務也可以自然地轉換為將源文檔中的單詞的輸入序列映射到稱為摘要的單詞的目標序列。 - [使用序列到序列 RNN 及其后的抽象文本摘要](https://arxiv.org/abs/1602.06023)，2016。這些自動文本摘要的深度學習方法可以被認為是抽象方法，并通過學習特定于源文檔的語言生成模型來生成全新的描述。 > ......序列到序列模型的最近成功，其中循環神經網絡（RNN）既讀取又自由生成文本，使得抽象概括成為可能 - [達到要點：利用指針生成器網絡匯總](https://arxiv.org/abs/1704.04368)，2017 年。與提取方法相比，深度學習方法的結果還不是最先進的，但是在受約束的問題上取得了令人印象深刻的結果，例如為與其他抽象方法相媲美或超出其他抽象方法的新聞文章生成標題。該方法的前景是，模型可以在沒有專門的數據準備或子模型的情況下進行端到端的訓練，并且模型完全是數據驅動的，無需編寫專門的詞匯表或專業預處理的源文檔。 > ......我們提出了一種完全數據驅動的抽象句子摘要方法。 [...]該模型結構簡單，可以輕松地進行端到端的訓練，并可以擴展到大量的訓練數據。 - [抽象句概括的神經注意模型](https://arxiv.org/abs/1509.00685)，2015 ## 進一步閱讀如果您要深入了解，本節將提供有關該主題的更多資源。 ### 文字摘要論文 * [關于自動文本摘要方法的評論](http://thescipub.com/PDF/jcssp.2016.178.190.pdf)，2016。 * [關于文本摘要的評論文件](https://www.ijarcce.com/upload/2016/march-16/IJARCCE%2040.pdf)，2016 年。 * [文本摘要技術：簡要調查](https://arxiv.org/abs/1707.02268)，2017 年。 ### 深度學習文本摘要論文 * [抽象句概括的神經注意模型](https://arxiv.org/pdf/1509.00685.pdf)，2015 * [使用序列到序列 RNN 及其后的抽象文本摘要](https://arxiv.org/abs/1602.06023)，2016。 * [達到要點：利用指針生成器網絡匯總](https://arxiv.org/abs/1704.04368)，2017 年。 ### 圖書 * [自動文本摘要的進展](http://amzn.to/2giFqN1)，1999。 * [自動文本摘要](http://amzn.to/2wgob34)，2014 年。 * [創新文檔摘要技術：革新知識理解](http://amzn.to/2gigHIS)，2014 年。 ### 用品 * [自動摘要](https://en.wikipedia.org/wiki/Automatic_summarization) * [使用 TensorFlow 進行文本摘要](https://research.googleblog.com/2016/08/text-summarization-with-tensorflow.html)，2016 年 * [深度學習是否已應用于自動文本摘要（成功）？](https://www.quora.com/Has-Deep-Learning-been-applied-to-automatic-text-summarization-successfully) * [馴服循環神經網絡以實現更好的總結](http://www.abigailsee.com/2017/04/16/taming-rnns-for-better-summarization.html)，2017 年。 * [深度學習文本摘要](http://deeplearningkit.org/2016/04/23/deep-learning-for-text-summarization/) ## 摘要在這篇文章中，您發現了自然語言處理中的文本摘要問題。具體來說，你學到了： * 為什么文本摘要很重要，特別是考慮到互聯網上提供的大量文本。 * 您可能每天都會遇到的文本摘要示例。 * 深度學習方法在自動文本摘要中的應用和前景。你有任何問題嗎？在下面的評論中提出您的問題，我會盡力回答。