AI 技术讲座精选：数据科学的缺陷

查看原文

其他

AI 技术讲座精选：数据科学的缺陷

2017-04-07 AI科技大本营

业内人士都知道，数据科学有很多缺陷。

模型是未知的

建立机器学习模型的目的是为了应用，而不是理解。

能解释清楚的也只有那些最简单的模型。线性模型第一眼看起来的确是最佳方案，但是在重视准确性的实际生产中，往往不选用此类模型。

你怎么解释树状模型或集成模型背后的原理呢？任何能采集特征交互的模型都是无法解释的。神经网路是由数百万的系数定义的，但是这些系数却不能用来描述神经网络。特征工程甚至也能隐藏未知角落。

我们能从黑箱中逃脱吗？

我从不喜欢把任何东西称为黑箱。我感觉逻辑回归是 k-nn 分类器，同时也是黑箱。k-nn 分类器仅仅是灵敏度分析不那么直接明了。作为一名数据科学家，我所受的培训使我相信支持向量机（SVM）或随机森林是可知的。这是理所当然的吗？

事实上，建立内部可以理解的模型在我看来是一个错误的方向。如今，通过建模理解【1】已被通过特征工程理解取代。我们可以将这表达为“我们信任交叉验证”【2】。

问题是尽管我可以试着使用我在几何学、数学或常识上的直觉改进我的模型，但我从未真正理解为什么这些模型会作出那样的行为。我必须承认所有模型都是黑箱：

之前的模型未采集而改进后的模型能采集的是什么数据？为什么该模型作出这种决定？它是怎样“看待”这些数据的？我还能得到更好的结果吗？我的调节在哪里作用以及为什么会作用？

在模型上做文章没有前景

近几年来，我们看到更加复杂的模型越来越流行【3】。以前是随机森林。现在流行的则是 Boosted Tree。多数人仅仅在缺省下使用 XGBM，他们是正确的，因为这样做简单易行。许多人开始将模型计算出的特征加入常规特征中。并且混合 tSNE 得出的结果【4】。尽管深度学习已有明显特征，仍要从第一天起开始思考它。

这些结果是否得到很大的改进？不见得：我们在这个过程中提升了几个百分点而已。在读过 Kaggle 竞赛获胜者的评论后，我的印象是他们大部分的优势来源于特征【5】、小心控制过度拟合、集成以及更好的模型。更复杂的模型提供的只是小幅增量的改进。

这并不应该成为意外。数据不合理的有效性超出模型限制，如果不是模型的有用性，只是是它们特有的优势。当下更大的数据集实现了机器学习如今获得的大部分改进。

我们正在错过什么

深度学习在最近几年开始崛起。我们十分幸运，因为通过神经网络提供的简单方法，我们得以了解它们在各层网络学到的内容。通过生成激活上层网络的图像，我们可对实际计算出的结果产生深刻的了解。

神经网络的衍生能力总是能给我们带来惊奇，从“deep dreams”到由字符生成文本。它们能学习特殊的线性嵌入，甚至应用于可视化图像分类模型和显著图。

但是，最近在对抗训练、持续性轻微误差或通用对抗扰动方面的发现表明我们在探究——甚至是基本——模型是如何理解数据方面还有很多未知。

我们需要某些启示来理解模型是如何思考的。

一些研究人员放弃尝试解释模型的“结构”——它们的内部——转而致力于解释它们的“行为”【6】。我在很长一段时间内痴迷于 Ayasdi 的著作：他们利用拓扑数据分析工具解释数据的形状。

我们不久将发表有关模型调试的建议。

模型内部可视化在什么时候成为主流？

我们每年都能有幸获得更好的工具。这看起来熟悉吗？

from sklearn import *

标准化起着很好的推动作用。现在，数据科学家在所有数据平台上都能正常使用所有常见算法。大部分科学家已不再担忧应用的正确性。为了能构建复杂渠道：分散的、实时的……，科学家们正投入大量努力。

但是，用于模型调试的自动工具却并不常见。我们将需要这些工具：

机器学习的力量可没有摩尔定律。

我们将不断获得更多的数据。但是大部分情况下大数据将仍仅仅是未集合数据。“大数据科学”将不会成为灵丹妙药。它甚至可能是一个误导。

我们需要的工具

理解我们模型的失败模式。这仍是最具启发性的调试工具。
便于使用灵敏度分析。
便于使用维数减小可视化。
可以像神经网络那样通过生成（数据、特定类别）样本实现模型内部可视化。
也许使适用于特定算法的可视化工具能轻易获得【7】。

如果您想要了解我们的模型内部可视化项目，请通过：

[1] 历史上，建模通常在获得有实证支持的“发现”上进展缓慢。例如，开普勒（Kepler）曾使用第谷·布拉赫（Tycho Brahe ）的天文数据制定他的定律。他的第三定律可能被看作为一个盲性线性回归的早期成功案例。

[2] 我们的客户和经理认为，我们使用（经常）正式的统计学培训处理统计学上的偶然事件。

[3] 有些技巧可能使你感到惊奇，但是我并不把它们视为复杂技巧。例如，学习如何用梯度下降法完成梯度下降在我的书中几乎是理所当然的。使用深度卷积对抗生成网络(DCGAN)进行对抗训练是个很好的想法，我很乐意为您解释它“复杂”的细节。对我而言，这种方法符合去参数化的方向。

[4] 使用 tSNE 实际上是个想法，查看例如Kaggle的奥托挑战（Otto challenge on Kaggle）。不要错过学习tSNE的内部

[5] 神经网络的前提不是能够学习特征的层次结构吗？那么对我而言，所有的诀窍，如RNN 魔法等，在这方面都不那么相关。查看深度学习不合理的效率。

[6] 使用视觉分析解释预测性机器学习模型 ——JosuaKrause 等人。

[7] AirBnB 在随机森林解释方面大获成功，他们在研究中成功减小变量。

本文作者 Arthur Flam 是一名企业家，数据科学家，是三星的算法工程师。

本文由 AI100 编译，转载需得到本公众号同意。

编译：AI100

原文链接：https://shapescience.xyz/blog/the-shortcomings-of-data-science/

关于AI100

AI100致力于打造人工智能技术和产业社区。为人工智能开发者提供信息和技术交流的平台；为人工智能创业者提供行业数据及智能应用的商业场景；为行业提供人工智能化的技术商业应用。请快快关注我们吧！

点击↙阅读原文↙看更多资讯

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

中央批准朱军同志职务调整

三联，刺痛了多少中国人

戴上这手表，不止优雅，蛇年好运连连来

古琴养身：为什么弹古琴的女人会更有气质？99%的人都不知道！