Vision Transformer (ViT) 介绍

王茂南

3389
文章

75
评论

2022年11月5日07:26:08

评论 5221字阅读17分24秒

摘要本文会介绍 Vision Transformer (ViT) ，包括对原始论文的简单解读，核心代码的讲解，和一个完整的 Vision Transformer (ViT) 的流程介绍。

文章目录(Table of Contents)

简介

我们在之前的文章中，介绍了 Transformer 的结构和其在自然语言中的应用，Transformer 结构介绍，Transformer 完全图解指南。在本文中，我们会介绍 Transformer 的结构在「图像」上面的应用，也就是 Vision Transformer (ViT) 。

之前对于「图像」数据的处理，通常是使用「卷积网络（Pytorch入门教程13-卷积神经网络的CIFAR-10的识别）」，例如 ResNet。而 ViT 当在足够大的数据集上进行预训练，再迁移到特定的任务上面时，可以得到超越传统「卷积网络」的效果。同时，这篇文章也说明了纯 Transformer 结构可以在图像上获得好的结果。

参考资料

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (Paper Explained)，ViT的原始论文阅读；
Vision Transformer (ViT) 用于图片分类，一个中文视频对 ViT 的介绍（本文后面的 ViT 流程主要是根据该视频进行描述的）；
Vision Transformer in PyTorch，使用 PyTorch 来实现 ViT。这个视频讲的非常详细，非常推荐看一遍。该视频对应的代码仓库是，vision_transformer（这里自己实现的代码完全就是依照这个说明）；
ViT 完整代码-Github；从头实现的 ViT 代码，内容也是参考自 Vision Transformer in PyTorch。

Vision Transformer 介绍

ViT 的基本想法

ViT 模型其实就是 Transformer Encoder 部分。本文的出发点是，当 Transformer 的结构在「自然语言」上获得了较好的结果，是否可以将其使用在图片上。目前图像的任务还是会使用「卷积网络」，本文用纯的 Transformer 结构，在大数据集预训练下，可以获得很好的结果。

本文得到的结论是，在小的数据集上，传统的「卷积网络」，例如 ResNet 会更好，这里作者解释是因为「卷积网络」会对图片是有假设的，（1）图片相邻区域是相似的；（2）translation equivariance。但是在更大的数据集上，ViT 模型就会获得比之前方法更好的效果。

ViT 方法

ViT 模型的结构可以用下面的图来描述。本文是想与传统的 Transformer 框架尽量是一样的，这样就可以复用之前的模型框架等。

上图展示了 ViT 模型的结构。我们（1）首先将图片分成不同的小块；（2）接着通过一个线性变换，转换为向量，并加上位置信息（此时就获得了 patch embedding，这个就和 word embedding 是类似的含义）；（3）后面的步骤就可以直接使用在「自然语言处理」部分的 Transformer 的结构了。

作者用下面的四个式子来说明了 ViT 模型的步骤：

（1）：有 N 个 patch 和一个 CLS token，E 表示线性变化，接着再加上位置编码；
（2）和（3）：这两个式子是 Transformer Encoder 的部分，计算 multi-head attention 和 MLP；
（4）最后取最后一层的第一个值，来用作分类任务；

ViT 模型其实不是很复杂。下面会对「位置编码」和「CLS token」稍微做一点详细的解释。

Position Embedding

首先来看一下「位置编码」。这里的「位置编码」是可以学习的，且只记录了一维的信息。下面是「位置编码」的定义，我们会将位置编码与 x 直接相加。

self.pos_embed = nn.Parameter(
torch.zeros(1, 1 + self.patch_embed.n_patches, embed_dim)
) # 可以学习的位置编码
x = x + self.pos_embed

其实还会有不同的「位置编码」的设计。原文中也是进行了比较，但是发现不同「位置编码」结果是类似的。如下表所是：

同时作者也对「位置编码」进行了可视化分析，将一个特定位置的 Position Embedding 与其他所有位置的 Position Embedding 计算「余弦相似度」，最终结果如下图。可以看到例如「第一行第一列」的 Position Embedding 与同行同列的相似度较高。这个也可以解释为什么使用不同的「位置编码」结果类似，这是因为当前的位置编码已经学出了二维的信息。

CLS Token

接着我们来解释一下为什么需要使用「CLS token」。这是因为希望「自然语言处理」部分使用的模型是对齐的，在 Bert 中也是使用了「CLS token」。

作者也是尝试了与图像处理中经常使用的「globally average-pooling (GAP)」进行比较，结果表明只需要适当的对学习率进行调整，使用 GAP 也是可以获得好的结果。这里因为想尽量少的改变原始的 Transformer 框架，所以使用了 CLS token。

ViT 实验结果

ViT 在三个不同大小的数据集上进行了实验。

下面是一个实验结果的概括。简单来说，在大数据集上预训练，ViT 可以获得更好的结果： Vision Transformer (ViT) 介绍

下面来看一下不同模型性能随着数据量的变化具体的变化。如下图所是，可以看到随着 pre-training samples 数量的增大，ViT 的效果是可以一直上升的。有以下的结论：

While large ViT models perform worse than BiT ResNets (shaded area) when pre-trained on small datasets, they shine when pre-trained on larger datasets. Similarly, larger ViT variants overtake smaller ones as the dataset grows.
Linear few-shot evaluation on ImageNet versus pre-training size. ResNets perform better with smaller pre-training datasets but plateau sooner than ViT, which performs better with larger pre-training.（这里 Linear few-shot evaluation 是指用对应模型作为特征提取器，参数不变，后面接一个全连接的效果）

其实下面的图也是给出了一个说明，大概多大的数据量使用什么样子的模型。当小于 100M 的时候，ResNet 表现会更好。当大于 300M 的时候，ViT 表现会更好，ResNet 就每什么提升了。