AI 技术讲座精选:数据科学的缺陷

2017-04-07 AI科技大本营 AI科技大本营

业内人士都知道,数据科学有很多缺陷。


模型是未知的


建立机器学习模型的目的是为了应用,而不是理解。


能解释清楚的也只有那些最简单的模型。线性模型第一眼看起来的确是最佳方案,但是在重视准确性的实际生产中,往往不选用此类模型。


你怎么解释树状模型或集成模型背后的原理呢?任何能采集特征交互的模型都是无法解释的。神经网路是由数百万的系数定义的,但是这些系数却不能用来描述神经网络。特征工程甚至也能隐藏未知角落。


我们能从黑箱中逃脱吗?


我从不喜欢把任何东西称为黑箱。我感觉逻辑回归是 k-nn 分类器,同时也是黑箱。k-nn 分类器仅仅是灵敏度分析不那么直接明了。作为一名数据科学家,我所受的培训使我相信支持向量机(SVM)或随机森林是可知的。这是理所当然的吗?


事实上,建立内部可以理解的模型在我看来是一个错误的方向。如今,通过建模理解【1】已被通过特征工程理解取代。我们可以将这表达为“我们信任交叉验证”【2】。


问题是尽管我可以试着使用我在几何学、数学或常识上的直觉改进我的模型,但我从未真正理解为什么这些模型会作出那样的行为。我必须承认所有模型都是黑箱:


之前的模型未采集而改进后的模型能采集的是什么数据?为什么该模型作出这种决定?它是怎样“看待”这些数据的?我还能得到更好的结果吗?我的调节在哪里作用以及为什么会作用?


在模型上做文章没有前景


近几年来,我们看到更加复杂的模型越来越流行【3】。以前是随机森林。现在流行的则是 Boosted Tree。多数人仅仅在缺省下使用 XGBM,他们是正确的,因为这样做简单易行。许多人开始将模型计算出的特征加入常规特征中。并且混合 tSNE 得出的结果【4】。尽管深度学习已有明显特征,仍要从第一天起开始思考它。


这些结果是否得到很大的改进?不见得:我们在这个过程中提升了几个百分点而已。在读过 Kaggle 竞赛获胜者的评论后,我的印象是他们大部分的优势来源于特征【5】、 小心控制过度拟合、集成以及更好的模型。更复杂的模型提供的只是小幅增量的改进。


这并不应该成为意外。数据不合理的有效性超出模型限制,如果不是模型的有用性,只是是它们特有的优势。当下更大的数据集实现了机器学习如今获得的大部分改进。


我们正在错过什么


深度学习在最近几年开始崛起。我们十分幸运,因为通过神经网络提供的简单方法,我们得以了解它们在各层网络学到的内容。通过生成激活上层网络的图像,我们可对实际计算出的结果产生深刻的了解。


神经网络的衍生能力总是能给我们带来惊奇,从“deep dreams”到 由字符生成文本。它们能学习特殊的线性嵌入, 甚至应用于可视化图像分类模型和显著图。


但是,最近在对抗训练、 持续性轻微误差或通用对抗扰动方面的发现表明我们在探究——甚至是基本——模型是如何理解数据方面还有很多未知。


我们需要某些启示来理解模型是如何思考的。


一些研究人员放弃尝试解释模型的“结构”——它们的内部——转而致力于解释它们的“行为”【6】。我在很长一段时间内痴迷于 Ayasdi 的著作:他们利用拓扑数据分析工具解释数据的形状。


我们不久将发表有关模型调试的建议。


模型内部可视化在什么时候成为主流?


我们每年都能有幸获得更好的工具。这看起来熟悉吗?


from sklearn import *

标准化起着很好的推动作用。现在,数据科学家在所有数据平台上都能正常使用所有常见算法。大部分科学家已不再担忧应用的正确性。为了能构建复杂渠道:分散的、实时的……,科学家们正投入大量努力。


但是,用于模型调试的自动工具却并不常见。我们将需要这些工具:


机器学习的力量可没有摩尔定律。


我们将不断获得更多的数据。但是大部分情况下大数据将仍仅仅是未集合数据。“大数据科学”将不会成为灵丹妙药。它甚至可能是一个误导。


我们需要的工具


  • 理解我们模型的失败模式。这仍是最具启发性的调试工具。

  • 便于使用灵敏度分析。

  • 便于使用维数减小可视化。

  • 可以像神经网络那样通过生成(数据、特定类别)样本实现模型内部可视化。

  • 也许使适用于特定算法的可视化工具能轻易获得【7】。


如果您想要了解我们的模型内部可视化项目,请通过:


[1] 历史上,建模通常在获得有实证支持的“发现”上进展缓慢。例如,开普勒(Kepler)曾使用第谷·布拉赫(Tycho Brahe )的天文数据制定他的定律。他的第三定律可能被看作为 一个盲性线性回归的早期成功案例。

[2] 我们的客户和经理认为,我们使用(经常)正式的统计学培训处理统计学上的偶然事件。

[3] 有些技巧可能使你感到惊奇,但是我并不把它们视为复杂技巧。例如,学习如何 用梯度下降法完成梯度下降在我的书中几乎是理所当然的。使用深度卷积对抗生成网络(DCGAN)进行对抗训练是个很好的想法,我很乐意为您解释它“复杂”的细节。对我而言,这种方法符合去参数化的方向。

[4] 使用 tSNE 实际上是个想法,查看例如Kaggle的奥托挑战(Otto challenge on Kaggle)。不要错过学习tSNE的内部

[5] 神经网络的前提不是能够学习特征的层次结构吗?那么对我而言,所有的诀窍,如RNN 魔法等,在这方面都不那么相关。查看深度学习不合理的效率。

[6] 使用视觉分析解释预测性机器学习模型 ——JosuaKrause 等人。

[7] AirBnB 在随机森林解释方面大获成功,他们在研究中成功减小变量。


 本文作者 Arthur Flam 是一名企业家,数据科学家,是三星的算法工程师。


本文由 AI100 编译,转载需得到本公众号同意。




编译:AI100

原文链接:https://shapescience.xyz/blog/the-shortcomings-of-data-science/




关于AI100


AI100致力于打造人工智能技术和产业社区。为人工智能开发者提供信息和技术交流的平台;为人工智能创业者提供行业数据及智能应用的商业场景;为行业提供人工智能化的技术商业应用。请快快关注我们吧!





点击↙阅读原文↙看更多资讯