Pytorch入门教程11-Softmax 函数和交叉熵

2020年10月10日07:50:00

评论1 4779字阅读15分55秒

摘要这一篇我们介绍一下在多分类问题中经常会使用到的Softmax和交叉熵的概念. 特别的, 在Pytorch中, 因为损失函数CorssEntropyLoss中同时包含了Softmax和交叉熵, 所以我们在构建网络的时候, 最后一层不需要再使用Softmax, 只需要直接使用nn.Linear即可.

文章目录(Table of Contents)

简介

这一篇我们会讲解二分类问题和多分类问题。在「二分类问题」中，我们可以使用 Sigmoid 作为输出，看成是一类的概率，另一类的概率就是 1-Sogmoid 的输出结果。但是在多分类问题中，我们需要每一类的概率，这个就需要使用 Softmax。

参考资料

关于交叉熵的原理介绍: 熵, 交叉熵, 和KL散度
关于 Pytorch 中 CrossEntropyLoss 的介绍: PyTorch中交叉熵的计算-CrossEntropyLoss介绍
关于下面 Softmax 的图片来源: Deep Learning — Logistic Classification — using Softmax function
一个特别好的文章, Understanding softmax and the negative log-likelihood

关于 Softmax 和多分类问题

Softmax 函数介绍

在多分类问题中，我们需要对每一个类别输出概率，同时要保证这些概率和是 1。这个时候就需要使用 Softmax 函数了。

假设现在的输出是 vi（这是一个向量），那么每一个对应 softmax 之后的输出如下：

在这里对输入进行指数化，这样可以使得两个输入之间的差距可以扩大。

下面我们看一个 softmax 的例子，并使用 Pytorch 中自带的函数进行测试。

下面看一下使用 Pytorch 的测试结果：

x = torch.tensor([2, 1, 0.1])
s = torch.softmax(x, dim=0)
print('Sotfmax的输出:{}'.format(s))
print('Sotfmax的输出总和:{}'.format(s.sum().item()))
"""
Sotfmax的输出:tensor([0.6590, 0.2424, 0.0986])
Sotfmax的输出总和:1.0000001192092896
"""

对于多组数据来说，其实 softmax 做的就是将一个矩阵的值压缩到 0 到 1 之间。例如下面的例子，测试数据有三类：

The output of the softmax describes the probability (or if you may, the confidence) of the neural network that a particular sample belongs to a certain class.

Thus, for the first example above, the neural network assigns a confidence of 0.71 that it is a cat, 0.26 that it is a dog, and 0.04 that it is a horse. The same goes for each of the samples above.

交叉熵损失函数

在介绍交叉熵损失函数之前，我们首先看一个例子。现在有一个三分类的问题，一共有三个测试数据，两个测试的模型，他们的结果分别如下所示：

模型一的结果：

模型二的结果：

对于两个模型的准确率来说，是一样的，准确率都是 2/3；
对于「模型一」来说，他在数据 1 和数据 2 上，对结果的确定性都不是很确定，都是 0.4，只比 0.3 大一点；
对于「模型二」来说，他的预测结果就表现很肯定，对结果的可能性都是 0.7，会远远比其他类别要大。

所以可以看到，虽说上面两个模型在准确率上的表现是一样的，但是实际上，模型二会比模型一要更好一些。于是，我们就需要使用一个 loss 函数，能够反映出上面模型的好坏。这个时候就需要使用交叉熵损失。(关于交叉熵的损失, 可以查看熵, 交叉熵, 和KL散度)

首先关于交叉熵的计算如下所示：

其中:

p(真实的分布)，在实际中也就是 0 和 1，是正确的 label 就是 1，否则就是 0；
q(预测的概率)，模型给出的概率（经过 softmax），都是介于 0-1 之间的数字；

因为 q 是介于 0-1 之间的数字，所以经过 log 之后为负数，然后前面又加了一个负号。如果对正确标签给出的概率越大，那个这个值就会越小（例如 log(0.5)=-0.69，log(0.99)=-0.01）。于是整个的 loss 可以定义为下面的样子：

其中：

M 为总的数据的数量；
y 是实际标签, 为 one-hot 编码；
p 为模型输出的概率；

在实际中，因为 y 只有 0 和 1 两种不同的取值，所以 negative log-likelihood 可以化简为下面的式子：

我们画出上面的 L 关于不同输入的图像，可以看到当概率很小的时候，L 会很大；当概率大的时候，L 会很小。也就是说，当网络给正确的结果一个很低的置信度(confidence)的时候, 此时 L 很大（我们希望 L 越小越好）：

还是上面的例子，在计算完 softmax 之后，我们计算 NLLLoss。下图中红色的表示正确的是哪一类：

于是，我们使用上面的交叉熵来衡量上面的模型一和模型二。需要注意的是, 在 Pytorch 中，有一个函数是 NLLLoss (negative log likelihood loss)，但是他并没有计算 log，这个名字起的很奇怪。关于 NLLLoss 的介绍可以查看连接， PyTorch中交叉熵的计算-CrossEntropyLoss介绍

所以，在 Pytorch，多分类的 loss 我们会使用 nn.CrossEntropyLoss()，这里面包含了 Logsoftmax+NLLLoss，他把 Log 的计算和 sotfmax 和在了一起。

我们在这里就自己手动计算 log，再使用 NLLLoss 来测试一下上面两个模型的好坏。(我们认为是模型二比模型一要好)，注意下面的代码，我们对概率值手动计算了 log：