探究Softmax的替代品：exp(x)的偶次泰勒展开式总是正的

原创苏剑林 PaperWeekly 2022-03-17

收录于话题 #机器学习 78个

©PaperWeekly 原创 · 作者｜苏剑林

单位｜追一科技

研究方向｜NLP、神经网络

刚看到一个有意思的结论：

对于任意实数 x 及偶数 n，总有，即的偶次泰勒展开式总是正的。

下面我们来看一下这个结论的证明，以及它在寻找 softmax 替代品中的应用。

证明过程

看上去这是一个很强的结果，证明会不会很复杂？其实证明非常简单，记：

当 n 是偶数时，我们有，即整体是开口向上的，所以我们只需要证明它的最小值大于 0 就行了，又因为它是一个光滑连续的多项式函数，所以最小值点必然是某个极小值点。那么换个角度想，我们只需要证明它所有的极值点（不管是极大还是极小）所对应的函数值都大于 0。

求极值点的方法自然是求导，而的一个美妙之处在于，它的导函数满足：

极值点满足，那也就是满足，此时有：

因此我们就证明了的所有极值点对应的函数值都非负了，所以恒有，并且还可以检验并不是极值点，所以可以改为 >。证毕。

应用场景

事实上，笔者是在 Arxiv 的新文章 Exploring Alternatives to Softmax Function [1] 看到这个结论的。原论文给出了一个基于数学归纳法的比较复杂的证明，上述证明则是笔者自己构思的，相对来说更加简单明了一些。

那么原论文为什么要得到这个结论呢？顾名思义，是为了探究 softmax 的替代品。我们知道，在机器学习中常用的将输出变为概率分布的方法是加上 softmax：

而由于 n 是偶数是，并且在一定范围内还是的近似，所以将换成也可以作为合理的归一化函数：

原论文做了几个实验，表明比常规的 softmax 有一定的提升：

▲ softmax与其泰勒展开近似的效果比较

稍加评述

然而，在笔者看来，这个实验结果很难有什么说服力，毕竟所用的 baseline 效果太低了（都 2020 年了，你好歹跑个 ResNet 吧？）。此外，原论文也没有提供关于这个替代品的一些直观理解，纯粹是做了简单的实验然后说它 work 了，实在是过于粗糙。

不过，尽管原论文有诸多不足之处，笔者认为其提出的倒是真的有可能是有效的。从 softmax 到的过程，实际上是将激活函数从指数函数换成了多项式函数，这两者有什么区别呢？

我们知道 |x| 比较大的时候，会增加/衰减得很快，这直接导致了 softmax 经常给出的置信度过高的现象（概率值非 0 即 1），而相对来说，多项式函数的增长没有那么猛，不容易出现置信度过高问题，从而没那么容易过拟合。

类似的改动也出现在经典的降维方法 t-SNE 中，t-SNE 的前身是 SNE，SNE 就是构造了类似 softmax 的指数形式的概率分布，然后被发现有“Crowding 问题”（参考最小熵原理：“物以类聚”之从图书馆到词向量），最后 t-SNE 将指数换成二次函数就好很多了，感觉跟 t-SNE 的思想有一定的相通之处。

文章小结

本文的主要目的是介绍“ 的偶次泰勒展开式总是正的”这个颇有意思的结论，并且顺带介绍了它在寻找 softmax 替代品中的应用。

参考文献

[1] https://arxiv.org/abs/2011.11538

更多阅读

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

📬 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

半年狂赚63亿了，微众银行董事长，还要卷员工

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

行游天地阅启新章｜Bloomberg Pursuits

探究Softmax的替代品：exp(x)的偶次泰勒展开式总是正的

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

半年狂赚63亿了，微众银行董事长，还要卷员工

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

行游天地 阅启新章｜Bloomberg Pursuits

生成图片，分享到微信朋友圈

探究Softmax的替代品：exp(x)的偶次泰勒展开式总是正的

您可能也对以下帖子感兴趣

行游天地阅启新章｜Bloomberg Pursuits