Python机器学习pytorch交叉熵损失函数的深刻理解

2024-04-02 19:55

短信预约 -IT技能 免费直播动态提醒

1.交叉熵损失函数的推导

我们知道，在二分类问题模型：例如逻辑回归「Logistic Regression」、神经网络「Neural Network」等，真实样本的标签为 [0，1]，分别表示负类和正类。模型的最后通常会经过一个 Sigmoid 函数，输出一个概率值，这个概率值反映了预测为正类的可能性：概率越大，可能性越大。
Sigmoid 函数的表达式和图形如下所示：

其中 s 是模型上一层的输出，Sigmoid 函数有这样的特点：s = 0 时，g(s) = 0.5；s >> 0 时， g ≈ 1，s << 0 时，g ≈ 0。显然，g(s) 将前一级的线性输出映射到 [0，1] 之间的数值概率上。这里的 g(s) 就是交叉熵公式中的模型预测输出。

我们说了，预测输出即 Sigmoid 函数的输出表征了当前样本标签为 1 的概率：

很明显，当前样本标签为 0 的概率就可以表达成：

重点来了，如果我们从极大似然性的角度出发，把上面两种情况整合到一起：

不懂极大似然估计也没关系。我们可以这么来看：

当真实样本标签 y = 0 时，上面式子第一项就为 1，概率等式转化为：

当真实样本标签 y = 1 时，上面式子第二项就为 1，概率等式转化为：

两种情况下概率表达式跟之前的完全一致，只不过我们把两种情况整合在一起了。

重点看一下整合之后的概率表达式，我们希望的是概率 P(y|x) 越大越好。首先，我们对 P(y|x) 引入 log 函数，因为 log 运算并不会影响函数本身的单调性。则有：

我们希望 log P(y|x) 越大越好，反过来，只要 log P(y|x) 的负值 -log P(y|x) 越小就行了。那我们就可以引入损失函数，且令 Loss = -log P(y|x)即可。则得到损失函数为：

非常简单，我们已经推导出了单个样本的损失函数，是如果是计算 N 个样本的总的损失函数，只要将 N 个 Loss 叠加起来就可以了：

这样，我们已经完整地实现了交叉熵损失函数的推导过程。

2. 交叉熵损失函数的直观理解

我已经知道了交叉熵损失函数的推导过程。但是能不能从更直观的角度去理解这个表达式呢？而不是仅仅记住这个公式。好问题！接下来，我们从图形的角度，分析交叉熵函数，加深理解。

首先，还是写出单个样本的交叉熵损失函数：

我们知道，当 y = 1 时

这时候，L 与预测输出的关系如下图所示：

看了 L 的图形，简单明了！横坐标是预测输出，纵坐标是交叉熵损失函数 L。显然，预测输出越接近真实样本标签 1，损失函数 L 越小；预测输出越接近 0，L 越大。因此，函数的变化趋势完全符合实际需要的情况。

当 y = 0 时：

这时候，L 与预测输出的关系如下图所示：

同样，预测输出越接近真实样本标签 0，损失函数 L 越小；预测函数越接近 1，L 越大。函数的变化趋势也完全符合实际需要的情况。

从上面两种图，可以帮助我们对交叉熵损失函数有更直观的理解。无论真实样本标签 y 是 0 还是 1，L 都表征了预测输出与 y 的差距。

另外，重点提一点的是，从图形中我们可以发现：预测输出与 y 差得越多，L 的值越大，也就是说对当前模型的 “ 惩罚 ” 越大，而且是非线性增大，是一种类似指数增长的级别。这是由 log 函数本身的特性所决定的。这样的好处是模型会倾向于让预测输出更接近真实样本标签 y。

3. 交叉熵损失函数的其它形式

什么？交叉熵损失函数还有其它形式？没错！我刚才介绍的是一个典型的形式。接下来我将从另一个角度推导新的交叉熵损失函数。

这种形式下假设真实样本的标签为 +1 和 -1，分别表示正类和负类。有个已知的知识点是Sigmoid 函数具有如下性质：

这个性质我们先放在这，待会有用。

好了，我们之前说了 y = +1 时，下列等式成立：

如果 y = -1 时，并引入 Sigmoid 函数的性质，下列等式成立：

重点来了，因为 y 取值为 +1 或 -1，可以把 y 值带入，将上面两个式子整合到一起：

这个比较好理解，分别令 y = +1 和 y = -1 就能得到上面两个式子。

接下来，同样引入 log 函数，得到：

要让概率最大，反过来，只要其负数最小即可。那么就可以定义相应的损失函数为：

还记得 Sigmoid 函数的表达式吧？将 g(ys) 带入：

好咯，L 就是我要推导的交叉熵损失函数。如果是 N 个样本，其交叉熵损失函数为：

接下来，我们从图形化直观角度来看。当 y = +1 时：

这时候，L 与上一层得分函数 s 的关系如下图所示：

横坐标是 s，纵坐标是 L。显然，s 越接近正无穷，损失函数 L 越小；s 越接近负无穷，L 越大。

另一方面，当 y = -1 时：

这时候，L 与上一层得分函数 s 的关系如下图所示：

同样，s 越接近负无穷，损失函数 L 越小；s 越接近正无穷，L 越大。

4.总结

本文主要介绍了交叉熵损失函数的数学原理和推导过程，也从不同角度介绍了交叉熵损失函数的两种形式。第一种形式在实际应用中更加常见，例如神经网络等复杂模型；第二种多用于简单的逻辑回归模型。

需要注意的是：第一个公式中的变量是sigmoid输出的值，第二个公式中的变量是sigmoid输入的值。

以上就是Python机器学习交叉熵损失函数的深刻理解的详细内容，更多关于pytorch交叉熵损失函数的资料请关注编程网其它相关文章！

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

Python机器学习pytorch交叉熵损失函数的深刻理解

下载Word文档到电脑，方便收藏和打印～

下载Word文档

Python机器学习pytorch交叉熵损失函数的深刻理解

目录

1.交叉熵损失函数的推导

2. 交叉熵损失函数的直观理解

3. 交叉熵损失函数的其它形式

4.总结

Python机器学习pytorch交叉熵损失函数的深刻理解

相关文章

猜你喜欢

Python机器学习pytorch交叉熵损失函数的深刻理解

Python 机器学习算法详解：深入理解机器学习背后的数学原理

热门标签

编程热搜

Python 学习之路 - Python

chatgpt的中文全称是什么

C/C++中extern函数使用详解

C/C++可变参数的使用

css样式文件该放在哪里

php中数组下标必须是连续的吗

Python 3 教程

Python pip包管理

ubuntu如何重新编译内核

改善Java代码之慎用java动态编译

编程资源站

2021年下半年软考高级信息系统项目管理师高频考点精选资料

2021下半年软考高级信息系统技术知识点记忆口诀精选资料

2021下半年软考《信息系统项目管理师》考试真题及答案精选资料

2021下半年软考高级考试备考攻略精选资料

2021年软考高级《信息系统项目管理师》巩固练习题汇总精选资料

2021下半年软考高级信息系统项目管理师30个易考知识点汇总精选资料

2021下半年软考高级知识点这样记，还担心记不住吗精选资料

2021年下半年软考高级考试重点汇总精选资料

2021下半年软考高级信息系统项目管理师计算公式汇总精选资料

2021年下半年软考高级《信息系统项目管理师》模拟试题精选资料

信息系统项目管理师选择题每日一练（2024）历年试题

2023年下半年信息系统项目管理师综合知识真题演练历年试题

目录

Python机器学习pytorch交叉熵损失函数的深刻理解

目录

1.交叉熵损失函数的推导

2. 交叉熵损失函数的直观理解

3. 交叉熵损失函数的其它形式

4.总结

Python机器学习pytorch交叉熵损失函数的深刻理解

相关文章

猜你喜欢

Python机器学习pytorch交叉熵损失函数的深刻理解

Python 机器学习算法详解：深入理解机器学习背后的数学原理

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复