【强基固本】Softmax 函数和它的误解

人工智能前沿讲习 2022-12-12

收录于合集 #强基固本 144个

“强基固本，行稳致远”，科学研究离不开理论基础，人工智能学科更是需要数学、物理、神经科学等基础学科提供有力支撑，为了紧扣时代脉搏，我们推出“强基固本”专栏，讲解AI领域的基础知识，为你的科研学习提供助力，夯实理论基础，提升原始创新能力，敬请关注。

来源：CV技术指南

Softmax 是一个数学函数，用于对 0 和 1 之间的值进行归一化。

在本文中，您将了解：

什么是 Softmax 激活函数及其数学表达式？
它是如何使用 argmax() 函数实现的？
为什么 Softmax 只用在神经网络的最后一层？
对 Softmax 的误解

什么是 Softmax 激活函数及其数学表达式？

在深度学习中，使用 Softmax 作为激活函数，对 0 到 1 之间的向量中每个值的输出和尺度进行归一化。Softmax 用于分类任务。在网络的最后一层，会生成一个 N 维向量，分类任务中的每个类对应一个向量。

网络输出层中的 N 维向量

Softmax 用于对 0 和 1 之间的那些加权和值进行归一化，并且它们的和等于 1，这就是为什么大多数人认为这些值是类的概率，但这是一种误解，我们将在本文中讨论它。

实现 Softmax 函数的公式：

使用这个数学表达式，我们计算每类数据的归一化值。这里 θ(i) 是我们从展平层得到的输入。

计算每个类的归一化值，分子是类的指数值，分母是所有类的指数值之和。使用 Softmax 函数，我们得到 0 到 1 之间的所有值，所有值的总和变为等于 1。因此人们将其视为概率，这是他们的误解。

它如何使用 argmax() 函数？

在对每个类应用上述数学函数后，Softmax 会为每个类计算一个介于 0 和 1 之间的值。

现在我们每个类都有几个值，为了分类输入属于哪个类，Softmax 使用 argmax() 给出了应用 Softmax 后具有最大值的值的索引。

argmax 的可视化解释

为什么 Softmax 只用在神经网络的最后一层？

现在进入重要部分，Softmax 仅用于最后一层以对值进行归一化，而其他激活函数（relu、leaky relu、sigmoid 和其他各种）用于内层。

如果我们看到其他激活函数，如 relu、leaky relu 和 sigmoid，它们都使用唯一的单个值来带来非线性。他们看不到其他值是什么。

但是在 Softmax 函数中，在分母中，它取所有指数值的总和来归一化所有类的值。它考虑了范围内所有类的值，这就是我们在最后一层使用它的原因。要通过分析所有的值来知道Input属于哪个类。

最后一层的 Softmax 激活函数

对 Softmax 的误解

关于 Softmax 的第一个也是最大的误解是，它通过归一化值的输出是每个类的概率值，这完全错误。这种误解是因为这些值的总和为 1，但它们只是归一化值而不是类的概率。

在最后一层并不是单独使用 Sotmax，我们更喜欢使用 Log Softmax，它只是对来自 Softmax 函数的归一化值进行对数。

Log Softmax 在数值稳定性、更便宜的模型训练成本和 Penalizes Large error（误差越大惩罚越大）方面优于 Softmax。

这就是在神经网络中用作激活函数的 Softmax 函数。相信读完本文后你对它已经有了一个清楚的了解。

原文链接：https://medium.com/artificialis/softmax-function-and-misconception-4248917e5a1c

本文目的在于学术交流，并不代表本公众号赞同其观点或对其内容真实性负责，版权归原作者所有，如有侵权请告知删除。

“强基固本”历史文章

请点击文章底部“阅读原文”查看

分享、点赞、在看，给个三连击呗！

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

跟着南通住建局学“朝令夕改”

【强基固本】Softmax 函数和它的误解

什么是 Softmax 激活函数及其数学表达式？

它如何使用 argmax() 函数？

为什么 Softmax 只用在神经网络的最后一层？

对 Softmax 的误解

关于神经网络，一个学术界搞错了很多年的问题

学习=拟合？深度学习和经典统计学是一回事吗？

信号与系统——卷积

机器学习回归模型相关重要知识点总结！

纯工程经验：谈谈目标检测中正负样本的问题

数字图像处理基本知识

关于机器学习这门炼丹术，理论基础到底有多可靠？

数据统计分析的16个基础概念

机器学习理论基础炼丹总结

超全725个机器学习术语表

OpenCV高性能计算基础介绍

迈向可验证的 AI: 形式化方法的五大挑战

深度学习必须掌握的 13 种概率分布

第三代神经网络初探：脉冲神经网络（Spiking Neural Networks）

更多强基固本专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

跟着南通住建局学“朝令夕改”

生成图片，分享到微信朋友圈

【强基固本】Softmax 函数和它的误解

什么是 Softmax 激活函数及其数学表达式？

它如何使用 argmax() 函数？

为什么 Softmax 只用在神经网络的最后一层？

对 Softmax 的误解

更多强基固本专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣