使用編碼器 - 解碼器模型的用于字幕生成的注入和合并架構 · Machine Learning Mastery 博客文章翻譯

# 使用編碼器 - 解碼器模型的用于字幕生成的注入和合并架構 > 原文： [https://machinelearningmastery.com/caption-generation-inject-merge-architectures-encoder-decoder-model/](https://machinelearningmastery.com/caption-generation-inject-merge-architectures-encoder-decoder-model/) 字幕生成是一個具有挑戰性的人工智能問題，它利用計算機視覺和自然語言處理。編碼器 - 解碼器循環神經網絡架構已被證明在這個問題上是有效的。這種體系結構的實現可以被提煉為基于注入和合并的模型，并且兩者都對循環神經網絡在解決問題中的作用做出了不同的假設。在這篇文章中，您將發現針對字幕生成的編碼器 - 解碼器循環神經網絡模型的注入和合并架構。閱讀這篇文章后，你會知道： * 字幕生成的挑戰和編碼器 - 解碼器架構的使用。 * 注入模型將編碼圖像與每個單詞組合以生成標題中的下一個單詞。 * 合并模型，分別對圖像和描述進行編碼，這些圖像和描述被解碼以生成標題中的下一個單詞。讓我們開始吧。 ![Caption Generation with the Inject and Merge Architectures for the Encoder-Decoder Model](img/3f82dd3abbb7a26c92386577fe91f3cb.jpg) 使用編碼器 - 解碼器模型的注入和合并架構生成標題照片由 [Bernard Spragg 撰寫。 NZ](https://www.flickr.com/photos/volvob12b/24450140624/) ，保留一些權利。 ## 圖像標題生成圖像標題生成的問題涉及輸出對照片內容的可讀和簡明的描述。這是一個具有挑戰性的人工智能問題，因為它需要來自計算機視覺的兩種技術來解釋照片的內容和來自自然語言處理的技術以生成文本描述。最近，深度學習方法已經在這個具有挑戰性的問題上取得了最新成果。結果令人印象深刻，這個問題已經成為深度學習能力的標準示范問題。 ## 編碼器 - 解碼器架構標準編碼器 - 解碼器循環神經網絡架構用于解決圖像標題生成問題。這涉及兩個要素： 1. **編碼器**：一種網絡模型，它使用內部表示讀取照片輸入并將內容編碼為固定長度的向量。 2. **解碼器**：讀取編碼照片并生成文本描述輸出的網絡模型。有關編碼器 - 解碼器循環神經網絡架構的更多信息，請參閱帖子： * [編碼器 - 解碼器長短期存儲器網絡](https://machinelearningmastery.com/encoder-decoder-long-short-term-memory-networks/) 通常，卷積神經網絡用于編碼圖像，并且循環神經網絡（例如長短期存儲器網絡）用于編碼到目前為止生成的文本序列，和/或生成序列中的下一個單詞。。對于字幕生成問題，有很多方法可以實現這種架構。通常使用在具有挑戰性的照片分類問題上訓練的預先訓練的卷積神經網絡模型來對照片進行編碼。可以加載預訓練的模型，移除模型的輸出，以及用作輸入圖像的編碼或內部表示的照片的內部表示。對于問題的框架也是常見的，使得模型生成輸出文本描述中的一個單詞，給定照片和輸入生成的描述。在此框架中，模型被遞歸調用，直到生成整個輸出序列。 ![Recursive Framing of the Caption Generation Model](img/7ca4c56d22539853c5068e00643b2707.jpg) 字幕生成模型的遞歸成幀取自“將圖像放在圖像標題生成器中的位置”。這種框架可以使用兩種架構中的一種來實現，由 [Marc Tanti](https://geekyisawesome.blogspot.com.au/) 等人調用。作為注入和合并模型。 ## 注入模型注入模型將圖像的編碼形式與迄今為止生成的文本描述中的每個單詞組合在一起。該方法使用循環神經網絡作為文本生成模型，其使用圖像和單詞信息的序列作為輸入，以便生成序列中的下一個單詞。 > 在這些“注入”體系結構中，圖像向量（通常從卷積神經網絡中的隱藏層的激活值導出）被注入到 RNN 中，例如通過將圖像向量與“單詞”相提并論并且包括它作為標題前綴的一部分。 - [將圖像放在圖像標題生成器](https://arxiv.org/abs/1703.09137)中的位置，2017 年。 ![Inject Architecture for Encoder-Decoder Model](img/f117849faccabf7b42e0f4bf81d0c172.jpg) 編碼器 - 解碼器模型的注入體系結構取自“圖像標題生成器中的循環神經網絡（RNN）的作用是什么？”。該模型將圖像的關注點與每個輸入詞組合在一起，要求編碼器開發一種將視覺和語言信息結合在一起的編碼。 > 在注入模型中，RNN 被訓練以基于由語言和感知特征組成的歷史來預測序列。因此，在該模型中，RNN 主要負責圖像條件語言的生成。 - [循環神經網絡（RNN）在圖像標題生成器中的作用是什么？](https://arxiv.org/abs/1708.02043) ，2017。 ## 合并模型合并模型將圖像輸入的編碼形式與到目前為止生成的文本描述的編碼形式相結合。然后，這兩個編碼輸入的組合由非常簡單的解碼器模型使用，以生成序列中的下一個字。該方法僅使用循環神經網絡對目前生成的文本進行編碼。 > 在“合并”架構的情況下，圖像被排除在 RNN 子網之外，使得 RNN 僅處理字幕前綴，即僅處理純語言信息。在對前綴進行向量化之后，然后將圖像向量與前綴向量合并在一個單獨的“多模式層”中，后者位于 RNN 子網之后 - [將圖像放在圖像標題生成器](https://arxiv.org/abs/1703.09137)中的位置，2017 年。 ![Merge Architecture for the Encoder-Decoder Model](img/7d5ec7c10df6dfc3472ad4927a5d9f59.jpg) 編碼器 - 解碼器模型的合并架構取自“圖像標題生成器中循環神經網絡（RNN）的作用是什么？”。這分離了對圖像輸入建模，文本輸入以及編碼輸入的組合和解釋的關注。如上所述，通常使用預訓練的模型來編碼圖像，但類似地，該架構還允許使用預訓練的語言模型來編碼字幕文本輸入。 > ...在合并架構中，RNN 實際上編碼語言表示，它們本身構成了在多模式層之后的后來預測階段的輸入。只有在這個晚期階段才能使用圖像特征來預測預測 - [循環神經網絡（RNN）在圖像標題生成器中的作用是什么？](https://arxiv.org/abs/1708.02043) ，2017。盡管 Marc Tanti 等人進行了實驗，但有多種方法可以將兩種編碼輸入結合起來，例如連接，乘法和加法。已經顯示出更好的工作。一般來說，Marc Tanti，et al。發現與注入方法相比，合并架構更有效。 > 總的來說，有證據表明，延遲將圖像特征與語言編碼合并到架構的后期階段可能是有利的[...]結果表明合并架構比注入架構具有更高的容量，并且可以生成更小質量的字幕層。 - [循環神經網絡（RNN）在圖像標題生成器中的作用是什么？](https://arxiv.org/abs/1708.02043) ，2017。 ## 更多關于合并模型編碼器 - 解碼器架構的合并模型的成功表明，循環神經網絡的作用是編碼輸入而不是生成輸出。這與共同理解背道而馳，認為循環神經網絡的貢獻是生成模型的貢獻。 > 如果 RNN 具有生成字幕的主要作用，那么它將需要訪問圖像以便知道要生成什么。這似乎不是這種情況，因為將圖像包括在 RNN 中通常不利于其作為字幕生成器的表現。 - [循環神經網絡（RNN）在圖像標題生成器中的作用是什么？](https://arxiv.org/abs/1708.02043) ，2017。注入和合并模型的明確比較，以及用于字幕生成的合并注入成功，提出了這種方法是否轉換為相關的序列到序列生成問題的問題。可以使用預訓練的語言模型來代替用于編碼圖像的預訓練模型，以在諸如文本摘要，問題回答和機器翻譯之類的問題中對源文本進行編碼。 > 我們想研究架構中的類似變化是否適用于序列到序列的任務，例如機器翻譯，而不是在圖像上調節語言模型，而是調整源語言中句子的目標語言模型。 - [循環神經網絡（RNN）在圖像標題生成器中的作用是什么？](https://arxiv.org/abs/1708.02043) ，2017。 ## 進一步閱讀如果您希望深入了解，本節將提供有關該主題的更多資源。 * [Marc Tanti 的博客](https://geekyisawesome.blogspot.com.au/) * [編碼器 - 解碼器長短期存儲器網絡](https://machinelearningmastery.com/encoder-decoder-long-short-term-memory-networks/) * [將圖像放在圖像標題生成器](https://arxiv.org/abs/1703.09137)中的位置，2017。 * [循環神經網絡（RNN）在圖像標題生成器中的作用是什么？](https://arxiv.org/abs/1708.02043) ，2017。 ## 摘要在這篇文章中，您發現了字幕生成的編碼器 - 解碼器循環神經網絡模型的注入和合并架構。具體來說，你學到了： * 字幕生成的挑戰和編碼器 - 解碼器架構的使用。 * 注入模型將編碼圖像與每個單詞組合以生成標題中的下一個單詞。 * 合并模型，分別對圖像和描述進行編碼，這些圖像和描述被解碼以生成標題中的下一個單詞。你有任何問題嗎？在下面的評論中提出您的問題，我會盡力回答。