如何利用深度學習自動生成照片的文本描述 · Machine Learning Mastery 博客文章翻譯

# 如何利用深度學習自動生成照片的文本描述 > 原文： [https://machinelearningmastery.com/how-to-caption-photos-with-deep-learning/](https://machinelearningmastery.com/how-to-caption-photos-with-deep-learning/) 字幕圖像涉及在給定圖像（例如照片）的情況下生成人類可讀的文本描述。這對于人來說是一個簡單的問題，但對機器來說非常具有挑戰性，因為它既涉及理解圖像的內容，又涉及如何將這種理解轉化為自然語言。最近，深度學習方法取代了傳統方法，并且為圖像自動生成描述（稱為“字幕”）的問題實現了最先進的結果。在這篇文章中，您將了解如何使用深度神經網絡模型自動生成圖像描述，例如照片。完成這篇文章后，你會知道： * 關于為圖像生成文本描述的挑戰以及結合計算機視覺和自然語言處理的突破的需要。 * 關于構成神經特征字幕模型的元素，即特征提取器和語言模型。 * 如何使用注意機制將模型的元素排列到編碼器 - 解碼器中。讓我們開始吧。 ## 概觀這篇文章分為 3 部分;他們是： 1. 用文本描述圖像 2. 神經字幕模型 3. 編碼器 - 解碼器架構 ## 用文本描述圖像描述圖像是生成圖像的人類可讀文本描述的問題，例如對象或場景的照片。該問題有時被稱為“_ 自動圖像注釋 _”或“_ 圖像標記 _”。對于人來說這是一個簡單的問題，但對于機器來說卻非常具有挑戰性。 > 快速瀏覽圖像就足以讓人指出并描述有關視覺場景的大量細節。然而，這種卓越的能力已被證明是我們視覺識別模型的一項難以捉摸的任務 - [用于生成圖像描述的深度視覺語義對齊](https://arxiv.org/abs/1412.2306)，2015。解決方案需要理解圖像的內容并將其翻譯成單詞的含義，并且單詞必須串在一起才能被理解。它結合了計算機視覺和自然語言處理，在更廣泛的人工智能中標志著一個真正的挑戰性問題 > 自動描述圖像的內容是連接計算機視覺和自然語言處理的人工智能中的基本問題。 - [Show and Tell：神經圖像標題生成器](https://arxiv.org/abs/1411.4555)，2015。此外，問題可能存在困難;讓我們看一下示例中問題的三種不同變化。 ### 1.分類圖像為圖像分配來自數百或數千個已知類之一的類標簽。 ![Example of classifying images into known classes](img/e8fedb2abc9ff288281994e19c378e2b.jpg) 將圖像分類為已知類的示例摘自“檢測鱷梨到西葫蘆：我們做了什么，我們要去哪里？”，2013 年。 ### 2.描述圖像生成內容圖像的文本描述。 ![Example of captions generated for photogaphs](img/bbefe3affc12f1fe2a508c6e6ea158ca.jpg) 為 photogaphs 生成的字幕示例取自“用于視覺識別和描述的長期復發卷積網絡”，2015 年。 ### 3.注釋圖像為圖像上的特定區域生成文本描述。 ![Example of annotation regions of an image with descriptions](img/00257adfd720b362b3e2733b9a176c05.jpg) 具有描述的圖像的注釋區域的示例。取自“用于生成圖像描述的深度視覺語義對齊”，2015 年。一般問題也可以擴展到在視頻中隨時間描述圖像。在這篇文章中，我們將把注意力集中在描述圖像上，我們將其描述為'_ 圖像字幕 _。 ## 神經字幕模型神經網絡模型已經成為自動字幕生成領域的主導;這主要是因為這些方法展示了最先進的結果。在用于生成圖像標題的端到端神經網絡模型之前的兩種主要方法是基于模板的方法和基于最近鄰居的方法以及修改現有標題。 > 在使用神經網絡生成字幕之前，兩種主要方法占主導地位。第一個涉及生成標題模板，這些模板根據對象檢測和屬性發現的結果填寫。第二種方法基于首先從大型數據庫中檢索類似的字幕圖像，然后修改這些檢索到的字幕以適合查詢。 [...]這兩種方法都已經不再支持現在占主導地位的神經網絡方法。 - [顯示，參與和講述：視覺注意的神經圖像標題生成](https://arxiv.org/abs/1502.03044)，2015。用于字幕的神經網絡模型涉及兩個主要元素： 1. 特征提取。 2. 語言模型。 ### 特征提取模型特征提取模型是神經網絡，其給定圖像能夠提取顯著特征，通常以固定長度向量的形式。提取的特征是圖像的內部表示，而不是直接可理解的東西。深度卷積神經網絡或 CNN 用作特征提取子模型。可以直接在圖像字幕數據集中的圖像上訓練該網絡。或者，可以使用預訓練的模型，例如用于圖像分類的現有技術模型，或者使用預先訓練的模型并對問題進行微調的一些混合模型。在為 ILSVRC 挑戰開發的 ImageNet 數據集中使用表現最佳的模型很受歡迎，例如 Oxford Vision Geometry Group 模型，簡稱為 VGG。 > [...]我們探索了幾種處理過度擬合的技術。不過度擬合的最明顯的方法是將我們系統的 CNN 組件的權重初始化為預訓練模型（例如，在 ImageNet 上） - [顯示，參與和講述：視覺注意的神經圖像標題生成](https://arxiv.org/abs/1502.03044)，2015。 ![Feature Extractor](img/df92f91870144ab9724c30295efa7685.jpg) 特征提取器 ### 語言模型通常，語言模型在給定已經存在于序列中的單詞的情況下預測序列中下一個單詞的概率。對于圖像字幕，語言模型是一種神經網絡，給定從網絡中提取的特征能夠預測描述中的單詞序列，并以已經生成的單詞為條件建立描述。使用循環神經網絡（例如長短期記憶網絡或 LSTM）作為語言模型是很流行的。每個輸出時間步驟在序列中生成一個新單詞。然后使用字嵌入（例如 word2vec）對生成的每個字進行編碼，并將其作為輸入傳遞給解碼器以生成后續字。對模型的改進涉及在輸出序列的詞匯表中收集單詞的概率分布并搜索它以生成多個可能的描述。可以對這些描述進行評分并按可能性排序。通常使用 Beam Search 進行此搜索。可以使用從圖像數據集中提取的預先計算的特征來獨立地訓練語言模型;它可以與特征提取網絡或某種組合共同訓練。 ![Language Model](img/69dfe5e8f735119e0e47ea955bbd8c3e.jpg) 語言模型 ## 編碼器 - 解碼器架構構建子模型的流行方法是使用編碼器 - 解碼器架構，其中兩個模型被聯合訓練。 > [該模型]基于卷積神經網絡，該網絡將圖像編碼為緊湊表示，然后是生成相應句子的循環神經網絡。訓練該模型以最大化給定圖像的句子的可能性。 - [Show and Tell：神經圖像標題生成器](https://arxiv.org/abs/1411.4555)，2015。這是為機器翻譯開發的體系結構，其中輸入序列（例如法語）由編碼器網絡編碼為固定長度向量。然后，一個單獨的解碼器網絡讀取編碼并以新語言生成輸出序列，比如英語。除了該方法令人印象深刻的技能之外，這種方法的好處是可以針對該問題訓練單個端到端模型。當適用于圖像字幕時，編碼器網絡是深度卷積神經網絡，并且解碼器網絡是 LSTM 層的堆棧。 > [機器翻譯]“編碼器”RNN 讀取源句子并將其轉換為富的固定長度向量表示，其又用作生成目標句子的“解碼器”RNN 的初始隱藏狀態。在這里，我們建議遵循這個優雅的秘籍，用深度卷積神經網絡（CNN）代替編碼器 RNN。 - [Show and Tell：神經圖像標題生成器](https://arxiv.org/abs/1411.4555)，2015。 ![Example of the CNN and LSTM Architecture](img/69e5b4673f02fec1116478202afcb95e.jpg) CNN 和 LSTM 架構的示例。取自“Show and Tell：A Neural Image Caption Generator”，2015。 ### 帶注意的字幕模型編碼器 - 解碼器架構的限制是使用單個固定長度表示來保持提取的特征。通過在更豐富的編碼中開發注意力在機器翻譯中解決了這一問題，允許解碼器在生成翻譯中的每個單詞時學習在何處注意。通過允許解碼器在描述中生成每個單詞時學習將注意力放在圖像中的哪個位置，已經使用關注方法來改進用于圖像字幕的編碼器 - 解碼器架構的表現。 > 最近在字幕生成方面的進步以及最近在機器翻譯和對象識別中引起注意力的成功激發了我們的鼓舞，我們研究了可以在生成其標題時關注圖像的顯著部分的模型。 - [顯示，參與和講述：視覺注意的神經圖像標題生成](https://arxiv.org/abs/1502.03044)，2015。這種方法的一個好處是可以在描述中生成每個單詞時準確地可視化注意的位置。 > 我們還通過可視化顯示模型如何能夠在輸出序列中生成相應的單詞時自動學習如何將注視固定在顯著對象上。 - [顯示，參與和講述：視覺注意的神經圖像標題生成](https://arxiv.org/abs/1502.03044)，2015。用一個例子來說這是最容易理解的;見下文。 ![Example of image captioning with attention](img/d387687b7fbb194b8fd85be888373fb8.jpg) 注意圖像字幕的示例取自“顯示，參加和講述：視覺注意的神經圖像標題生成”，2015 年。 ## 進一步閱讀如果您要深入了解，本節將提供有關該主題的更多資源。 ### 文件 * [Show and Tell：神經圖像標題生成器](https://arxiv.org/abs/1411.4555)，2015。 * [顯示，參與和講述：視覺注意的神經圖像標題生成](https://arxiv.org/abs/1502.03044)，2015。 * [用于視覺識別和描述的長期復發卷積網絡](https://arxiv.org/abs/1411.4389)，2015。 * [用于生成圖像描述的深層視覺語義對齊](https://arxiv.org/abs/1412.2306)，2015。 ### 用品 * [維基百科上的自動圖像注釋](https://en.wikipedia.org/wiki/Automatic_image_annotation) * [Show and Tell：圖片字幕開源于 TensorFlow](https://research.googleblog.com/2016/09/show-and-tell-image-captioning-open.html) ，2016 年。 * [演示：使用 ConvNets 和 Recurrent Nets](https://www.youtube.com/watch?v=xKt21ucdBY0) ，Andrej Karpathy 和 Fei-Fei Li（[幻燈片](https://cs.stanford.edu/people/karpathy/sfmltalk.pdf)）進行自動圖像捕獲。 ### 項目 * [項目：用于生成圖像描述的深層視覺語義對齊](http://cs.stanford.edu/people/karpathy/deepimagesent/)，2015。 * [NeuralTalk2：Torch 中的高效圖像字幕代碼，運行在 GPU](https://github.com/karpathy/neuraltalk2) ，Andrej Karpathy 上。 ## 摘要在這篇文章中，您發現了如何使用深度神經網絡模型自動生成圖像描述，例如照片。具體來說，你學到了： * 關于為圖像生成文本描述的挑戰以及結合計算機視覺和自然語言處理的突破的需要。 * 關于構成神經特征字幕模型的元素，即特征提取器和語言模型。 * 如何使用注意機制將模型的元素排列到編碼器 - 解碼器中。你有任何問題嗎？在下面的評論中提出您的問題，我會盡力回答。