Pytorch入门教程08-激活函数介绍

王茂南

3302
文章

75
评论

2020年10月7日07:14:34

评论 2913字阅读9分42秒

摘要上一篇我们主要讲了线性回归问题. 但是, 有很多问题不是线性函数可以解决的, 这个时候需要引入了激活函数来解决非线性的问题. 同样, 常见的激活函数已经在Pytorch中定义好了, 我们直接使用就可以了.

文章目录(Table of Contents)

简介

上一篇我们主要讲了线性回归问题. 但是, 有很多问题不是线性函数可以解决的, 这个时候需要引入了激活函数来解决非线性的问题.

这一篇主要介绍常见的激活函数, 和相应的函数图像.

Sigmoid函数, 函数的范围为(0,1).
ReLU函数, 函数的范围为(0,+无穷).
Tanh函数, 函数的范围为(-1,1).

常见激活函数可视化

Sigmoid函数

Sigmoid函数(又名Logistic函数), 他是深度学习中最经典的, 最先被使用的激活函数之一, 他可以将数据压缩到[0,1]的范围里. 在Pytorch中, 可以通过nn.Sigmoid()来进行使用. 他的公式如下所示:

我们绘制出该函数的图像.

# 手写 sigmoid 函数
def sigmoid(x):
return 1 / (1 + np.exp(-x))
# 画图
matplotlib.style.use('classic')
x = np.linspace(-10, 10, 500)
plt.plot(x, sigmoid(x), 'b')
plt.grid(color='black', linestyle='--')
plt.xticks(np.arange(-10,10,2))
plt.yticks([0, 0.5, 1])
plt.ylim(0, 1)
plt.xlim(-10, 10)
plt.show()

Sigmoid函数的图像如下图所示:

从上图中, 激活函数Sigmoid在定义域内处处可导(平滑的). 但是, 通过曲线的斜率, 可以发现, 当输入一个较小或较大的数时, 该函数的导数会变得很小, 梯度趋近于0. 当经过多次导数之后, 梯度就会变得很小, 出现梯度消失的问题.

我们对Sigmoid进行求导, 梯度为下面的表达式.

我们将画出上面梯度的函数, 从下图可以看到:

当x=0的时候, 梯度达到最大, 此时是0.25.
当x向0的左右两边移动的时候, 梯度减小, 逐渐变为0.

关于更多梯度消失, 可以查看链接: 梯度消失解释

Tanh 函数

Tanh是双曲函数中的双曲正切函数, 他的数学公式如下所示, 他可以将数据压缩到[-1,1]的范围里:

接着绘制出Tanh的函数图形:

def tanh(x):
return (np.exp(x) - np.exp(-x))/(np.exp(x) + np.exp(-x))
x = np.linspace(-10, 10, 100)
plt.plot(x, tanh(x), 'b')
plt.grid(color='black', linestyle='--')
plt.xlabel('X Axis')
plt.ylabel('Y Axis')
plt.xticks(np.arange(-10,10,2))
plt.yticks([-1, 0, 1])
plt.ylim(-1, 1)
plt.xlim(-10, 10)
plt.show()

Tanh的函数图像如下所示:

同样, Tanh的导数如下所示:

我们对其进行可视化, 可以看到:

在x=0的地方, tanh的导数达到最大, 此时是1;
在0的周围, 导数逐渐减小;

ReLU函数

Tanh(双曲正切函数)和Sigmoid函数相似, 也存在着梯度消失现象. 且由于解析式中存在幂运算, 计算起来较复杂. 因此, 为了解决梯度消失的问题, 线性修正单元函数(Rectified Linear Units，简称ReLU)孕育而生. ReLU是目前比较常用的激活函数之一. ReLU公式如下所示: