Backpropagation(反向传播)方法介绍

王茂南

3302
文章

75
评论

2019年5月6日07:57:20

评论 4435字阅读14分47秒

摘要这篇文章会简单介绍一下反向传播的相关内容。并说明一下梯度消失的原因。给出如何在Pytorch中初始化网络的系数，并打印出网络的梯度和系数的值。给出一个反向传播的例子。

简介

这一篇文章，会简单介绍一下反向传播的相关内容。并说明一下梯度消失的原因。

数学基础

Chain Rule

这里主要介绍一下Chain Rule(链式法则)，也只用到了Chain Rule.

Sigmoid函数导数

简单例子

下面这个例子，我们使用一下上面的链式法则，来尝试进行求导。

对于上面的网络结构，我们初始a=2, b=1(图中应该是b=1, 我写了a=1)。

此时, 若想求e关于a和b的导数, 则可以使用链式法则，我们可以写成下面的表达式.

使用链式法则的一些问题

如求e关于b的偏导,需要找出e到b的所有路径, 正向求导比较麻烦;
一些值会重复使用, 具体看下面的一个例子.

全链接网络推导

我们看一个全连接网络的例子。我们想要求出loss关于w1,w2等的偏导.

下面分别是loss关于w5和w1的偏导的求解. 我们可以看到在求loss关于w1的偏导数时, 红色部分是上面在求loss关于w5偏导时求过的值, 我们想到可以重复进行使用.

计算图与反向传播

在通常进行Backpropagation, 我们会使用计算图来进行表示, 我们看一下下面的例子.

上面的网络，绘制为计算图时, 为如下的样子.

我自己重新手画一下，方便后面的书写。我们对其进行初始化与正向传播, 其中x=1, w1=(1,2), w2=((3,4),(5,6)), 图中蓝色标出的为正向传播时每一步的值.

接着我们进行反向传播，即此时我们需要计算loss对于w2, w1的偏导数, 计算表达式如下所示.

求关于w2的偏导数:

求关于w1的偏导数:

相当于从loss开始往前传递梯度.
会重复利用之前计算的梯度, 如上图中红色框出的部分.
如上图中红色框出的部分, 在计算loss对w2的偏导时, 计算完毕后会存储在起来(可以理解为存储在z2节点处), 下次在计算loss对w1的偏导时, 可以重复利用该值.

Pytorch实验

下面对于上面的计算图，我们使用Pytorch进行一下实验。也是记录一下如何在Pytorch中初始化网络的系数，打印梯度与系数。

网络的定义

class NeuralNet(nn.Module):
def __init__(self):
super(NeuralNet, self).__init__()
self.linear1 = nn.Linear(in_features=1, out_features=2, bias=False)
self.linear2 = nn.Linear(in_features=2, out_features=2, bias=False)
self.sig = nn.Sigmoid()
def forward(self, x):
out = self.linear1(x)
print(out)
out = self.sig(out)
# y1 = out.detach().numpy().reshape(2,1)
print(out)
out = self.linear2(out)
print(out)
out = self.sig(out)
# y2 = out.detach().numpy().reshape(2,1)
print(out)
# 可以自己尝试自己写一下梯度的计算
# grad = np.dot(np.dot(np.dot(y2-np.array([[1],[0]]),y2.T),np.array([[1],[1]])-y2),y1.T)
# print(grad)
return out

初始化系数

首先查看一下网络的原始的weight

# 网络的初始化
model = NeuralNet()
# 原始的weight
for num, (name, params) in enumerate(model.named_parameters()):
print(num,params.data.shape,'\n',params.data)

接着我们将系数设为给定的值, 方便实验.

# 做初始化系数
model.linear1.weight.data = torch.FloatTensor([[1],[2]])
# model.linear1.bias.data = torch.FloatTensor([1,2])
model.linear2.weight.data = torch.FloatTensor([[3,4],[5,6]])
# model.linear2.bias.data = torch.FloatTensor([1,2])
# 现在的系数
for num, (name, params) in enumerate(model.named_parameters()):
print(num,params)

正向传播

# 正向传播
input_data = Variable(torch.FloatTensor([1]))
out = model(input_data)

下面我们计算一下误差，target我们设置为(1,0)，计算得到loss=0.4999

# 计算误差
label = Variable(torch.FloatTensor([1,0]))
loss_fn = nn.MSELoss(reduction='mean')
loss = loss_fn(out, label)
loss

打印此时的梯度和weight，可以看到只进行正向传播并计算误差时，梯度还是没有进行计算的。

# 打印梯度和系数
print(model.linear1.weight.grad)
print(model.linear2.weight.grad)
# 现在的系数
for num, (name, params) in enumerate(model.named_parameters()):
print(num,params)

反向传播

接着我们进行反向传播，同时打印出现在的梯度和weight, 这里梯度就已经算出来很小了。

# 反向传播
loss.backward()
# 打印梯度和系数
print(model.linear1.weight.grad)
print(model.linear2.weight.grad)
# 现在的系数
for num, (name, params) in enumerate(model.named_parameters()):
print(num,params)

更新weight

接着就可以使用各种优化算法进行weight的更新了。(这里有与上面梯度算出来太小了, 就不把打印出来的值进行截图了)

# 更新参数参数
optimiser = optim.SGD(params=model.parameters(), lr=1) # 定义优化器
optimiser.step()

梯度清零, 进行下一次计算loss

梯度清零后，在进行查看。可以看到此时的梯度为0.

# 梯度清零
optimiser.zero_grad()
# 打印梯度和系数
print(model.linear1.weight.grad)
print(model.linear2.weight.grad)
# 现在的系数
for num, (name, params) in enumerate(model.named_parameters()):
print(num,params)

导出模型并绘图

下面我们将网络保存为onnx文件，可以进行网络结构的绘制。

# 打印网络结构
import torch.onnx
# 输入测试数据
input_data = Variable(torch.FloatTensor([1]))
torch.onnx.export(model, input_data, "model2.onnx", export_params=True, verbose=True, training=True)

绘制工具参考这篇文章, 深度学习模型可视化-Netron