5.7 使用重復元素的網絡(VGG) · 動手學深度學習--pytorch

# 5.7 使用重復元素的網絡（VGG） AlexNet在LeNet的基礎上增加了3個卷積層。但AlexNet作者對它們的卷積窗口、輸出通道數和構造順序均做了大量的調整。雖然AlexNet指明了深度卷積神經網絡可以取得出色的結果，但并沒有提供簡單的規則以指導后來的研究者如何設計新的網絡。我們將在本章的后續幾節里介紹幾種不同的深度網絡設計思路。本節介紹VGG，它的名字來源于論文作者所在的實驗室Visual Geometry Group [1]。VGG提出了可以通過重復使用簡單的基礎塊來構建深度模型的思路。 ## 5.7.1 VGG塊 VGG塊的組成規律是：連續使用數個相同的填充為1、窗口形狀為`$ 3\times 3 $`的卷積層后接上一個步幅為2、窗口形狀為`$ 2\times 2 $`的最大池化層。卷積層保持輸入的高和寬不變，而池化層則對其減半。我們使用`vgg_block`函數來實現這個基礎的VGG塊，它可以指定卷積層的數量和輸入輸出通道數。 > 對于給定的感受野（與輸出有關的輸入圖片的局部大小），采用堆積的小卷積核優于采用大的卷積核，因為可以增加網絡深度來保證學習更復雜的模式，而且代價還比較小（參數更少）。例如，在VGG中，使用了3個3x3卷積核來代替7x7卷積核，使用了2個3x3卷積核來代替5*5卷積核，這樣做的主要目的是在保證具有相同感知野的條件下，提升了網絡的深度，在一定程度上提升了神經網絡的效果。 ``` python import time import torch from torch import nn, optim import sys sys.path.append("..") import d2lzh_pytorch as d2l device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') def vgg_block(num_convs, in_channels, out_channels): blk = [] for i in range(num_convs): if i == 0: blk.append(nn.Conv2d(in_channels, out_channels, kernel_size=3, padding=1)) else: blk.append(nn.Conv2d(out_channels, out_channels, kernel_size=3, padding=1)) blk.append(nn.ReLU()) blk.append(nn.MaxPool2d(kernel_size=2, stride=2)) # 這里會使寬高減半 return nn.Sequential(*blk) ``` ## 5.7.2 VGG網絡與AlexNet和LeNet一樣，VGG網絡由卷積層模塊后接全連接層模塊構成。卷積層模塊串聯數個`vgg_block`，其超參數由變量`conv_arch`定義。該變量指定了每個VGG塊里卷積層個數和輸入輸出通道數。全連接模塊則跟AlexNet中的一樣。現在我們構造一個VGG網絡。它有5個卷積塊，前2塊使用單卷積層，而后3塊使用雙卷積層。第一塊的輸入輸出通道分別是1（因為下面要使用的Fashion-MNIST數據的通道數為1）和64，之后每次對輸出通道數翻倍，直到變為512。因為這個網絡使用了8個卷積層和3個全連接層，所以經常被稱為VGG-11。 ``` python conv_arch = ((1, 1, 64), (1, 64, 128), (2, 128, 256), (2, 256, 512), (2, 512, 512)) # 經過5個vgg_block, 寬高會減半5次, 變成 224/32 = 7 fc_features = 512 * 7 * 7 # c * w * h fc_hidden_units = 4096 # 任意 ``` 下面我們實現VGG-11。 ``` python def vgg(conv_arch, fc_features, fc_hidden_units=4096): net = nn.Sequential() # 卷積層部分 for i, (num_convs, in_channels, out_channels) in enumerate(conv_arch): # 每經過一個vgg_block都會使寬高減半 net.add_module("vgg_block_" + str(i+1), vgg_block(num_convs, in_channels, out_channels)) # 全連接層部分 net.add_module("fc", nn.Sequential(d2l.FlattenLayer(), nn.Linear(fc_features, fc_hidden_units), nn.ReLU(), nn.Dropout(0.5), nn.Linear(fc_hidden_units, fc_hidden_units), nn.ReLU(), nn.Dropout(0.5), nn.Linear(fc_hidden_units, 10) )) return net ``` 下面構造一個高和寬均為224的單通道數據樣本來觀察每一層的輸出形狀。 ``` python net = vgg(conv_arch, fc_features, fc_hidden_units) X = torch.rand(1, 1, 224, 224) # named_children獲取一級子模塊及其名字(named_modules會返回所有子模塊,包括子模塊的子模塊) for name, blk in net.named_children(): X = blk(X) print(name, 'output shape: ', X.shape) ``` 輸出： ``` vgg_block_1 output shape: torch.Size([1, 64, 112, 112]) vgg_block_2 output shape: torch.Size([1, 128, 56, 56]) vgg_block_3 output shape: torch.Size([1, 256, 28, 28]) vgg_block_4 output shape: torch.Size([1, 512, 14, 14]) vgg_block_5 output shape: torch.Size([1, 512, 7, 7]) fc output shape: torch.Size([1, 10]) ``` 可以看到，每次我們將輸入的高和寬減半，直到最終高和寬變成7后傳入全連接層。與此同時，輸出通道數每次翻倍，直到變成512。因為每個卷積層的窗口大小一樣，所以每層的模型參數尺寸和計算復雜度與輸入高、輸入寬、輸入通道數和輸出通道數的乘積成正比。VGG這種高和寬減半以及通道翻倍的設計使得多數卷積層都有相同的模型參數尺寸和計算復雜度。 ## 5.7.3 獲取數據和訓練模型因為VGG-11計算上比AlexNet更加復雜，出于測試的目的我們構造一個通道數更小，或者說更窄的網絡在Fashion-MNIST數據集上進行訓練。 ``` python ratio = 8 small_conv_arch = [(1, 1, 64//ratio), (1, 64//ratio, 128//ratio), (2, 128//ratio, 256//ratio), (2, 256//ratio, 512//ratio), (2, 512//ratio, 512//ratio)] net = vgg(small_conv_arch, fc_features // ratio, fc_hidden_units // ratio) print(net) ``` 輸出： ``` Sequential( (vgg_block_1): Sequential( (0): Conv2d(1, 8, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (1): ReLU() (2): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False) ) (vgg_block_2): Sequential( (0): Conv2d(8, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (1): ReLU() (2): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False) ) (vgg_block_3): Sequential( (0): Conv2d(16, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (1): ReLU() (2): Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (3): ReLU() (4): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False) ) (vgg_block_4): Sequential( (0): Conv2d(32, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (1): ReLU() (2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (3): ReLU() (4): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False) ) (vgg_block_5): Sequential( (0): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (1): ReLU() (2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (3): ReLU() (4): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False) ) (fc): Sequential( (0): FlattenLayer() (1): Linear(in_features=3136, out_features=512, bias=True) (2): ReLU() (3): Dropout(p=0.5) (4): Linear(in_features=512, out_features=512, bias=True) (5): ReLU() (6): Dropout(p=0.5) (7): Linear(in_features=512, out_features=10, bias=True) ) ) ``` 模型訓練過程與上一節的AlexNet中的類似。 ``` python batch_size = 64 # 如出現“out of memory”的報錯信息，可減小batch_size或resize train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=224) lr, num_epochs = 0.001, 5 optimizer = torch.optim.Adam(net.parameters(), lr=lr) d2l.train_ch5(net, train_iter, test_iter, batch_size, optimizer, device, num_epochs) ``` 輸出： ``` training on cuda epoch 1, loss 0.0101, train acc 0.755, test acc 0.859, time 255.9 sec epoch 2, loss 0.0051, train acc 0.882, test acc 0.902, time 238.1 sec epoch 3, loss 0.0043, train acc 0.900, test acc 0.908, time 225.5 sec epoch 4, loss 0.0038, train acc 0.913, test acc 0.914, time 230.3 sec epoch 5, loss 0.0035, train acc 0.919, test acc 0.918, time 153.9 sec ``` ## 小結 * VGG-11通過5個可以重復使用的卷積塊來構造網絡。根據每塊里卷積層個數和輸出通道數的不同可以定義出不同的VGG模型。 ## 參考文獻 [1] Simonyan, K., & Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556. ----------- > 注：除代碼外本節與原書此節基本相同，[原書傳送門](https://zh.d2l.ai/chapter_convolutional-neural-networks/vgg.html)