Dropout技术介绍

2019年4月26日07:40:25

评论3 3732字阅读12分26秒

摘要本篇介绍关于dropout技术。dropout是在过拟合的时候进行使用的技术，适用与deep learning。

文章目录(Table of Contents)

Dropout在做什么

当dropout(p)时，意味着每个neuron, 有p%的可能性被去除;（这里需要注意的是，不是去除p%的neuron）

我们可以看到的是，每一次进行dropout的时候，网络的结构都会发生改变，会变成一个比之前thin的网络结构。

所以，总结一下：dropout在训练的时候步骤如下：

在进行test的时候，我们是不进行dropout，同时要修改之前的系数，我们看一下具体的步骤。

下面我们来解释一下为什么最后所有系数要乘(1-p%)，他的最终的目标是为了保持不进行dropout时候网络输出的值与进行dropout时，网络输出值的期望相同。我们看下面一个具体的例子：

上图中，我们的Dropout(0.5)。则每个点有50%的可能性被去掉。

原始的结构如蓝框所示，则dropout后会有四种不同的可能性，分别如图左边的四个小结构所示，其中每个结构的可能性都是1/4.

我们对上面可能的四个结构的输出求期望，得到1/2×w1×x1+1/2×w2×x2，相当于在原始的网络的系数上都乘了(1-0.5)。这也就是为什么在最后进行test的时候，所有的系数都需要乘上(1-p)了。

对于线性结构来说，我们都是可以这么进行计算的，即dropout和最后系数乘(1-p)是等价的。这样大概解释了一下为什么最后系数要乘(1-p).

上面我们看了dropout在train和test上的一些应用, 下面我们不使用Pytorch提供你的dropout, 自己实现一遍.

在上面我们讲了, 在test的模式下面, 最后的系数需要乘上(1-p), 其实我们可以直接对数据X做修改, 如果上一层网络的输出是X, 那么在dropout输出的时候, 没有被dropout的点, 我们除(1-p). 例如还是上面的情况, 此时四个图最后的输出分别是:

最终的期望是z = w1×x1+w2×x2, 此时test模式就不需要进行改变. 我们按照这个思想, 可以写出如下的dropout的函数.

我们进行一下简单的测试, 可以看到在dropout=0.5的情况下, 最后保留下来的值, 都会被乘2.

于是, 我们在设计网络的时候, 只需要在测试的时候去除dropout即可, 就不需要更改模型的系数了.

class Net(nn.Module):
def __init__(self, num_inputs, num_outputs, num_hiddens1, num_hiddens2, is_training = True):
super(Net, self).__init__()
self.num_inputs = num_inputs
self.is_training = is_training
self.lin1 = nn.Linear(num_inputs, num_hiddens1)
self.lin2 = nn.Linear(num_hiddens1, num_hiddens2)
self.lin3 = nn.Linear(num_hiddens2, num_outputs)
self.relu = nn.ReLU()
def forward(self, X):
H1 = self.relu(self.lin1(X.reshape((-1, self.num_inputs))))
# Use dropout only when training the model
if self.is_training == True:
# Add a dropout layer after the first fully connected layer
H1 = dropout_layer(H1, dropout1)
H2 = self.relu(self.lin2(H1))
if self.is_training == True:
# Add a dropout layer after the second fully connected layer
H2 = dropout_layer(H2, dropout2)
out = self.lin3(H2)
return out