Batch Normalization技术介绍

王茂南

3371
文章

75
评论

2019年4月26日08:20:36

评论 7046字阅读23分29秒

摘要这一部分介绍一下Batch Normalization，这个可以帮助我们在模型train不起来的时候，帮助模型的训练。十分有用的一个工具。

文章目录(Table of Contents)

Batch Normalization工作原理

首先，我们输入的是一个batch，下面的例子中，我们可以将(x1,x2,x3)看成一个Batch。

接着，我们计算在经过一层网络后, 输出值(z1,z2,z3)的均值和标准差，如下图所示：

接着，对(z1,z2,z3)进行标准化，标准化后z的均值为0，方差为1;

最后，我们的输出为 z=A*z' + B，其中A和B是需要学习的参数, 这里A和B是包含在Batch Normalization层的参数; 例如我们直接查看Pytorch中BN层的参数, 可以发现是有weight和bias的.

n = nn.Sequential(nn.Conv2d(1, 6, kernel_size=5), nn.BatchNorm2d(6))
n[1].state_dict()
"""
OrderedDict([('weight', tensor([1., 1., 1., 1., 1., 1.])),
('bias', tensor([0., 0., 0., 0., 0., 0.])),
('running_mean', tensor([0., 0., 0., 0., 0., 0.])),
('running_var', tensor([1., 1., 1., 1., 1., 1.])),
('num_batches_tracked', tensor(0))])
"""

我们注意到，当A=标准差, B=均值, 则相当于z_new = z，即相当于没有进行batch normalization.

需要注意

Batch Normalization不能在小数据集上进行，因为均值和方差的估计会不准确。
在test上时，不会计算test的均值与方差，会使用trian时候均值方差的移动平均来代替（下面会有一个例子）；

Batch Normalization实际使用

在batch normalization的时候，我们在train和test的时候进行的操作是不同的。这是由于在test的时候, 输入数据可能只有一个data, 故不能计算均值和标准差;

所以, 在test的时候, 会使用之前计算得到的均值和标准差做标准化。

初始化参数

首先，我们先初始化一些参数，下面初始化的有我们的测试数据X，测试数据的均值方差，迭代式子里最初的均值方差(均值0，方差1)，和迭代的公式。

迭代计算过程

下面看一下在输入是X的情况下，在训练模式下的输出结果和在测试模式下的输出结果。

可以看到，在训练模式下，pytorch会对原始数据进行标准化，同时更新均值与方差（这个均值与方差是在test的时候，对test数据进行标准化的）。

在测试模式下，会使用在训练模式下反复计算的均值和方差来进行标准化。具体的计算过程可以结合上面的图进行推导。

第一行是第一次输出X后不同的输出，第二行是第二次输入X后不同的输出。

测试代码

把测试代码放在下面，方便自己测试。

# Without Learnable Parameters(没有学习参数)
# 这里是momentum=0.5的情况
m = nn.BatchNorm1d(2, affine=False, eps=0, momentum=0.5, track_running_stats=True) # 2为输出的特征数
print("初始化 : {}, :mean:{},var:{}".format(m.training,m.running_mean,m.running_var))
# --------
# 第一轮
# --------
# 训练模式
m.train()
output = m(inputData)
print("TrainModeP : {}, :mean:{},var:{}".format(m.training,m.running_mean,m.running_var))
print("TrainMode:\n{}".format(output))
# 测试模式
print('------------')
m.eval()
print("EvalMode : {}, mean:{},var:{}".format(m.training,m.running_mean,m.running_var))
output = m(inputData)
print("EvalMode : {}, mean:{},var:{}".format(m.training,m.running_mean,m.running_var))
print("EvalMode:\n{}".format(output))
# --------
# 第二轮
# --------
print('\n=====\n')
# 训练模式
m.train()
output = m(inputData)
print("TrainModeP : {}, :mean:{},var:{}".format(m.training,m.running_mean,m.running_var))
print("TrainMode:\n{}".format(output))
# 测试模式
print('------------')
m.eval()
print("EvalMode : {}, mean:{},var:{}".format(m.training,m.running_mean,m.running_var))
output = m(inputData)
print("EvalMode : {}, mean:{},var:{}".format(m.training,m.running_mean,m.running_var))
print("EvalMode:\n{}".format(output))
# --------
# 第三轮
# --------
print('\n=====\n')
# 训练模式
m.train()
output = m(inputData)
print("TrainModeP : {}, :mean:{},var:{}".format(m.training,m.running_mean,m.running_var))
print("TrainMode:\n{}".format(output))
# 测试模式
print('------------')
m.eval()
print("EvalMode : {}, mean:{},var:{}".format(m.training,m.running_mean,m.running_var))
output = m(inputData)
print("EvalMode : {}, mean:{},var:{}".format(m.training,m.running_mean,m.running_var))
print("EvalMode:\n{}".format(output))