淺談神經機器翻譯 · Machine Learning Mastery 博客文章翻譯

# 淺談神經機器翻譯 > 原文： [https://machinelearningmastery.com/introduction-neural-machine-translation/](https://machinelearningmastery.com/introduction-neural-machine-translation/) 計算機最早的目標之一是將文本從一種語言自動轉換為另一種語言。考慮到人類語言的流動性，自動或機器翻譯可能是最具挑戰性的人工智能任務之一。傳統上，基于規則的系統被用于這項任務，在 20 世紀 90 年代用統計方法取代了這一系統。最近，深度神經網絡模型在一個恰當地命名為神經機器翻譯的領域中實現了最先進的結果。在這篇文章中，您將發現機器翻譯的挑戰和神經機器翻譯模型的有效性。閱讀這篇文章后，你會知道： * 鑒于人類語言固有的模糊性和靈活性，機器翻譯具有挑戰性。 * 統計機器翻譯將經典的基于規則的系統替換為學習從示例翻譯的模型。 * 神經機器翻譯模型適合單個模型而不是微調模型的管道，并且目前實現最先進的結果。讓我們開始吧。 ![A Gentle Introduction to Neural Machine Translation](img/794b6df79869c917f098df7b3999c43c.jpg) 神經機器翻譯的溫和介紹 [Fabio Achilli](https://www.flickr.com/photos/travelourplanet/6218704200/) 的照片，保留一些權利。 ## 什么是機器翻譯？機器翻譯是將一種語言的源文本自動轉換為另一種語言的文本的任務。 > 在機器翻譯任務中，輸入已經由某種語言的符號序列組成，并且計算機程序必須將其轉換為另一種語言的符號序列。 - 第 98 頁，[深度學習](http://amzn.to/2xBEsBJ)，2016 年。給定源語言中的一系列文本，該文本沒有一個單一的最佳翻譯成另一種語言。這是因為人類語言的自然模糊性和靈活性。這使得自動機器翻譯的挑戰變得困難，也許是人工智能中最難的一個： > 事實是，準確的翻譯需要背景知識，以解決歧義并確定句子的內容。 - 第 21 頁，[人工智能，現代方法](http://amzn.to/2wUZesr)，第 3 版，2009 年。經典機器翻譯方法通常涉及將源語言中的文本轉換為目標語言的規則。這些規則通常由語言學家開發，可以在詞匯，句法或語義層面上運作。這種對規則的關注給出了這個研究領域的名稱：基于規則的機器翻譯或 RBMT。 > RBMT 的特點是明確使用和手動創建語言知情規則和表示。 - 第 133 頁，[自然語言處理和機器翻譯手冊](http://amzn.to/2jYUFfy)，2011。經典機器翻譯方法的主要局限性是開發規則所需的專業知識，以及所需的大量規則和例外。 ## 什么是統計機器翻譯？統計機器翻譯（簡稱 SMT）是使用統計模型來學習將文本從源語言翻譯成目標語言，從而提供大量的示例。使用統計模型的任務可以正式說明如下： > 給定目標語言中的句子 T，我們尋找翻譯者產生 T 的句子 S.我們知道通過選擇最可能給出 T 的句子 S 來最小化我們的錯誤機會。因此，我們希望選擇 S 所以為了最大化 Pr（S | T）。 - [機器翻譯的統計方法](https://dl.acm.org/citation.cfm?id=92860)，1990。這種形式化的規范使輸出序列的概率最大化，給定文本的輸入序列。它還使得存在一套候選翻譯的概念明確，并且需要搜索過程或解碼器從模型的輸出概率分布中選擇最可能的翻譯。 > 鑒于源語言中的文本，目標語言中最可能的翻譯是什么？ [...]如何構建一個統計模型，為“好”翻譯分配高概率，為“壞”翻譯分配低概率？ - 第 xiii 頁，[基于句法的統計機器翻譯](http://amzn.to/2xCrl3p)，2017。該方法是數據驅動的，只需要包含源語言和目標語言文本的示例語料庫。這意味著語言學家不再需要指定翻譯規則。 > 這種方法不需要復雜的語際概念本體論，也不需要源語言和目標語言的手工語法，也不需要手工標記的樹庫。它所需要的只是數據樣本翻譯，從中可以學習翻譯模型。 - 第 909 頁，[人工智能，現代方法](http://amzn.to/2wUZesr)，第 3 版，2009 年。很快，機器翻譯的統計方法優于傳統的基于規則的方法，成為事實上的標準技術集。 > 自 20 世紀 80 年代末該領域開始以來，最流行的統計機器翻譯模型基于序列。在這些模型中，翻譯的基本單位是單詞或單詞序列[...]這些模型簡單有效，適用于人類語言對 - [基于句法的統計機器翻譯](http://amzn.to/2xCrl3p)，2017。最廣泛使用的技術是基于短語的，并且側重于分段翻譯源文本的子序列。 > 幾十年來，統計機器翻譯（SMT）一直是主流的翻譯范式。 SMT 的實際實現通常是基于短語的系統（PBMT），其翻譯長度可以不同的單詞或短語的序列 - [谷歌的神經機器翻譯系統：縮小人機翻譯之間的差距](https://arxiv.org/abs/1609.08144)，2016。雖然有效，但統計機器翻譯方法很少關注被翻譯的短語，失去了目標文本的更廣泛性質。對數據驅動方法的高度關注也意味著方法可能忽略了語言學家已知的重要語法區別。最后，統計方法需要仔細調整轉換管道中的每個模塊。 ## 什么是神經機器翻譯？神經機器翻譯（簡稱 NMT）是利用神經網絡模型來學習機器翻譯的統計模型。該方法的主要好處是可以直接在源文本和目標文本上訓練單個系統，不再需要統計機器學習中使用的專用系統的管道。 > 與傳統的基于短語的翻譯系統不同，翻譯系統由許多單獨調整的小子組件組成，神經機器翻譯嘗試構建和訓練單個大型神經網絡，該網絡讀取句子并輸出正確的翻譯。 - [通過聯合學習對齊和翻譯的神經機器翻譯](https://arxiv.org/abs/1409.0473)，2014。因此，神經機器翻譯系統被稱為端到端系統，因為翻譯僅需要一個模型。 > NMT 的優勢在于它能夠以端到端的方式直接學習從輸入文本到相關輸出文本的映射。 - [谷歌的神經機器翻譯系統：縮小人機翻譯之間的差距](https://arxiv.org/abs/1609.08144)，2016。 ### 編碼器 - 解碼器模型多層感知器神經網絡模型可用于機器轉換，盡管模型受固定長度輸入序列的限制，其中輸出必須具有相同的長度。最近，通過使用組織成編碼器 - 解碼器結構的循環神經網絡，這些早期模型得到了極大的改進，該結構允許可變長度的輸入和輸出序列。 > 編碼器神經網絡將源句子讀取并編碼為固定長度的向量。然后，解碼器從編碼向量輸出轉換。整個編碼器 - 解碼器系統，包括用于語言對的編碼器和解碼器，被聯合訓練以最大化給定源句子的正確翻譯的概率。 - [通過聯合學習對齊和翻譯的神經機器翻譯](https://arxiv.org/abs/1409.0473)，2014。編碼器 - 解碼器架構的關鍵是模型將源文本編碼為稱為上下文向量的內部固定長度表示的能力。有趣的是，一旦編碼，原則上可以使用不同的解碼系統將上下文翻譯成不同的語言。 > ...一個模型首先讀取輸入序列并發出一個匯總輸入序列的數據結構。我們將此摘要稱為“上下文”C. [...]第二種模式，通常是 RNN，然后讀取上下文 C 并生成目標語言的句子。 - 第 461 頁，[深度學習](http://amzn.to/2xBEsBJ)，2016 年。有關編碼器 - 解碼器循環神經網絡架構的更多信息，請參閱帖子： * [編碼器 - 解碼器長短期存儲器網絡](https://machinelearningmastery.com/encoder-decoder-long-short-term-memory-networks/) ### 帶注意的編碼器解碼器雖然有效，但編碼器 - 解碼器架構在要翻譯的長文本序列方面存在問題。問題源于必須用于解碼輸出序列中每個單詞的固定長度內部表示。解決方案是使用注意機制，該機制允許模型在輸出序列的每個字被解碼時學習將注意力放在輸入序列的哪個位置。 > 使用固定大小的表示來捕獲很長句子的所有語義細節是非常困難的。 [...]然而，更有效的方法是閱讀整個句子或段落[...]，然后一次一個地產生翻譯的單詞，每次都集中在他輸入句子的不同部分以收集所需的語義細節生成下一個輸出字。 - 第 462 頁，[深度學習](http://amzn.to/2xBEsBJ)，2016 年。目前關注的編碼器 - 解碼器循環神經網絡架構是機器翻譯的一些基準問題的最新技術。此架構用于谷歌翻譯服務中使用的谷歌神經機器翻譯系統（GNMT）的核心。 https://translate.google.com > ......當前最先進的機器翻譯系統由引起注意的模型提供動力。 - 第 209 頁，[自然語言處理中的神經網絡方法](http://amzn.to/2wPrW37)，2017。有關關注的更多信息，請參閱帖子： * [長期短期記憶循環神經網絡](https://machinelearningmastery.com/attention-long-short-term-memory-recurrent-neural-networks/)的注意事項雖然有效，但神經機器翻譯系統仍然存在一些問題，例如縮放到較大的單詞詞匯表以及訓練模型的速度慢。目前有大型生產神經翻譯系統的重點領域，例如 Google 系統。 > 神經機器翻譯的三個固有缺點：它的訓練速度和推理速度較慢，處理稀有單詞的效率低下，有時無法翻譯源句中的所有單詞。 - [谷歌的神經機器翻譯系統：縮小人機翻譯之間的差距](https://arxiv.org/abs/1609.08144)，2016。 ## 進一步閱讀如果您希望深入了解，本節將提供有關該主題的更多資源。 ### 圖書 * [自然語言處理中的神經網絡方法](http://amzn.to/2wPrW37)，2017。 * [基于句法的統計機器翻譯](http://amzn.to/2xCrl3p)，2017。 * [深度學習](http://amzn.to/2xBEsBJ)，2016 年。 * [統計機器翻譯](http://amzn.to/2xCe1vP)，2010。 * [自然語言處理和機器翻譯手冊](http://amzn.to/2jYUFfy)，2011。 * [人工智能，現代方法](http://amzn.to/2wUZesr)，第 3 版，2009 年。 ### 文件 * [機器翻譯的統計方法](https://dl.acm.org/citation.cfm?id=92860)，1990。 * [評論文章：基于實例的機器翻譯](https://link.springer.com/article/10.1023/A:1008109312730)，1999。 * [使用 RNN 編碼器 - 解碼器進行統計機器翻譯的學習短語表示](https://arxiv.org/abs/1406.1078)，2014。 * [通過聯合學習對齊和翻譯的神經機器翻譯](https://arxiv.org/abs/1409.0473)，2014。 * [谷歌的神經機器翻譯系統：縮小人機翻譯之間的差距](https://arxiv.org/abs/1609.08144)，2016。 * [用神經網絡進行序列學習的序列](https://arxiv.org/abs/1409.3215)，2014。 * [循環連續翻譯模型](http://www.aclweb.org/anthology/D13-1176)，2013。 * [基于短語的統計機器翻譯的連續空間翻譯模型](https://aclweb.org/anthology/C/C12/C12-2104.pdf)，2013。 ### 額外 * [機器翻譯檔案](http://www.mt-archive.info/) * [維基百科上的神經機器翻譯](https://en.wikipedia.org/wiki/Neural_machine_translation) * [第 13 章，神經機器翻譯，統計機器翻譯](https://arxiv.org/abs/1709.07809)，2017。 ## 摘要在這篇文章中，您發現了機器翻譯的挑戰和神經機器翻譯模型的有效性。具體來說，你學到了： * 鑒于人類語言固有的模糊性和靈活性，機器翻譯具有挑戰性。 * 統計機器翻譯將經典的基于規則的系統替換為學習從示例翻譯的模型。 * 神經機器翻譯模型適合單個模型而不是精細調整模型的管道，并且目前實現最先進的結果。你有任何問題嗎？在下面的評論中提出您的問題，我會盡力回答。