2.3時空卷積網絡 · ApacheCN 深度學習譯文集

### 2.3時空卷積網絡通過使用ConvNets為各種基于圖像的應用程序帶來的顯著性能提升，如第2.2節所述，引發了對將2D空間ConvNets擴展到用于視頻分析的3D時空ConvNets的興趣。通常，文獻中提出的各種時空架構只是試圖將2D架構從空間域![](https://img.kancloud.cn/e3/52/e3525a37737641aedf64a87c4d730002_40x18.gif)擴展到時域![](https://img.kancloud.cn/87/7c/877cf62ba415c8a9e022fb6869ee8865_54x18.gif)。在基于訓練的時空ConvNets領域，有三種不同的建筑設計決策是突出的：基于LSTM（_例如_。[112,33]），3D（_例如_。[139] ，84]和雙流會議（_，例如_。[134,43]），將在本節中描述。 #### 2.3.1基于LSTM的時空ConvNet 基于LSTM的時空轉換，_，例如_。 [112,33]是將2D網絡擴展到時空處理的早期嘗試。他們的操作可以分為三個步驟，如圖2.16所示。首先，使用2D網絡處理每個幀，并從其最后一層提取特征向量。其次，這些來自不同時間步驟的特征然后被用作產生時間結果的LSTM的輸入，![](https://img.kancloud.cn/5a/bc/5abc4cc46dce76c9b23c3acd9ae4abb6_14x12.gif)。第三，然后將這些結果平均或線性組合并傳遞給softmax分類器以進行最終預測。 ![](https://img.kancloud.cn/15/c8/15c88de0694783f954be32daa524924b_299x263.png) 圖2.16：基于LSTM的時空ConvNet示例。在該網絡中，輸入包括來自視頻流的連續幀。圖[33]再版。基于LSTM的ConvNets的目標是逐步整合時態信息，同時不受限于嚴格的輸入大小（暫時）。這種架構的一個好處是使網絡能夠生成可變大小的文本描述（_，即_ .LSTMs優秀的任務），如[33]中所做的那樣。然而，雖然LSTM可以捕獲全局運動關系，但它們可能無法捕獲更精細的運動模式。此外，這些模型通常較大，需要更多數據，因此難以訓練。迄今為止，除了正在整合視頻和文本分析的情況（_，例如_。[33]），LSTM通常在時空圖像分析中取得了有限的成功。 #### 2.3.2 3D ConvNet 第二種突出類型的時空網絡為標準2D ConvNet處理提供了最簡單的圖像時空概括。它直接與RGB圖像的時間流一起工作，并通過應用學習的3D，![](https://img.kancloud.cn/87/7c/877cf62ba415c8a9e022fb6869ee8865_54x18.gif)，卷積濾波器對這些圖像進行操作。這種泛化形式的一些早期嘗試使用過濾器，這些過濾器延伸到具有非常淺的網絡的時間域[80]或僅在第一卷積層[84]。當僅在第一層使用3D卷積時，在每3或4個連續幀上應用小抽頭時空濾波器。為了捕獲更長距離的運動，并行使用多個這樣的流，并且由堆疊這樣的流產生的層級增加了網絡的時間接收場。但是，由于時空濾波僅限于第一層，因此這種方法與基于樸素幀的2D ConvNets應用相比沒有產生顯著的改進。現在廣泛使用的C3D網絡提供了更強的泛化，它在所有層使用3D卷積和匯集操作[139]。 C3D從2D到3D架構的直接推廣需要大量增加要學習的參數數量，這可以通過在所有層使用非常有限的時空支持來補償（_即_。![](https://img.kancloud.cn/4d/dc/4ddcb2ef1fdfd1c00d99144cae172605_72x12.gif)卷積）。最近略有不同的方法提出通過修改ResNet架構[64]來集成時間過濾，以成為時間ResNet（T-ResNet）[42]。特別是，T-ResNet使用![](https://img.kancloud.cn/c9/97/c997665c80c3767424e2b34a18a66b51_75x13.gif)濾波器增加剩余單位（如圖2.10（a）所示），該濾波器沿時間維度應用一維學習濾波操作。最終，此類3D ConvNet架構的目標是在整個模型中直接集成時空濾波，以便同時捕獲外觀和運動信息。這些方法的主要缺點是其參數數量的增加。 #### 2.3.3雙流ConvNet 第三種類型的時空架構依賴于雙流設計。標準的雙流結構[134]，如圖2.17所示，在兩個平行路徑中運行，一個用于處理外觀，另一個用于運動，類似于生物視覺系統研究中的雙流假設[55]。輸入到外觀路徑是RGB圖像;輸入到運動路徑是光流場的堆棧。基本上，每個流都使用相當標準的2D ConvNet架構單獨處理。每個途徑進行單獨分類，后期融合用于實現最終結果。原始雙流網絡的各種改進遵循相同的基本思想，同時為各個流使用各種基線架構（_，例如_。[43,443,144]）或提出連接兩個流的不同方式（_例如_。[43,40,41]）。值得注意的是，最近的工作稱為I3D [20]，建議通過在兩個流上使用3D卷積來使用3D濾波和雙流架構。然而，除了網絡在基準動作識別數據集上獲得稍好的結果之外，作者還沒有提出令人信服的論據來支持除3D過濾之外的冗余光流流的需求。 ![](https://img.kancloud.cn/09/a9/09a9a5e6b9043eab1ad12d69c70fb059_530x188.png) 圖2.17：原始的雙流網絡。網絡將RGB幀和光流堆棧作為輸入。圖[134]轉載。總體而言，雙流控制系統支持外觀和運動信息的分離，以便了解時空內容。值得注意的是，這種架構似乎是時空ConvNets中最受歡迎的，因為它的變化導致了各種動作識別基準的最新結果（_，例如_。[43,40,41,144]）。 ### 2.4總體討論多層表示一直在計算機視覺中發揮重要作用。實際上，即使是標準廣泛使用的手工制作的特征，如SIFT [99]，也可以看作淺層多層表示，松散地說，它包括卷積層，然后是匯集操作。此外，前ConvNet最先進的識別系統通常遵循手工制作的特征提取與（學習的）編碼，然后是空間組織的池和學習的分類器[_，例如_。[39]），也是一種多層代表性方法。現代多層體系結構推動了分層數據表示的思想更深層次，同時通常避開手工設計的特征，轉而采用基于學習的方法。在計算機視覺應用方面，ConvNets的特定架構使它們成為最具吸引力的架構之一。總的來說，雖然處理多層網絡的文獻非常龐大，每個派系都提倡一種架構優于另一種架構，但已經出現了一些常見的“最佳實踐”。突出的例子包括：大多數架構依賴于四個常見構建塊（_即_。卷積，整流，規范化和池化），深度架構與小型支持卷積內核的重要性，以實現具有可管理數量的抽象參數，殘余連接以應對學習過程中誤差梯度傳播的挑戰。更一般地，文獻同意關鍵點，輸入數據的良好表示是分層的，如前面幾個貢獻中所述[119]。重要的是，雖然這些網絡在許多計算機視覺應用中取得了競爭性成果，但它們的主要缺點依然存在：對學習表示的確切性質的理解有限，對大量訓練數據集的依賴性，缺乏支持精確性能界限的能力以及缺乏關于網絡超參數選擇的清晰度。這些選擇包括濾波器大小，非線性選擇，池功能和參數以及層數和架構本身。在ConvNets“構建塊”的背景下，其中幾個選擇背后的動機將在下一章中討論。