数据科学正在进入“无代码”的新时代

查看原文

其他

数据科学正在进入“无代码”的新时代

原创： AI前线小组译 AI前线 2019-04-07

作者 | Bill Vorhies

译者 | 刘嘉洋

编辑 | Natalie

AI 前线导读：我们正在踏入数据科学实践的新阶段，“无代码”时代。就像其他重大的变化一样，这个阶段还没有非常成熟，但是改变的脚步却非常清晰。

更多优质内容请关注微信公众号“AI 前线”（ID：ai-front）

即使仅仅过去了一周，也有一些我们不知道的新的自动化 / 无代码技术推出。有的是新成立的初创公司带来的整合产品。但更多的是现有的分析平台提供商增加的新功能或模块。

从这些自动化机器学习（AML）平台出现以来，我就一直在关注它们。在 2016 年春天，我第一次写文章讨论这些平台，标题为“到 2025 年，自动化技术会让数据科学家失业！”。

当然，这绝对不是我夸大其词，在过去的两年半内，自动化功能在我们行业中的传播速度是惊人的。

无代码数据科学

无代码数据科学，或者叫自动化机器学习，或者像 Gartner 所述的那样，“增强版”数据科学提供了一些便捷的工具。包括：

向导平台：提供详细建模步骤的平台（但仍然需要用户来做这些步骤，比如说 BigML、SAS、Alteryx）。该平台是基于经典的拖放平台理念而设计的。
自动化机器学习（AML）：全自动化机器学习平台（比如 DataRobot）。
会话分析：在最近的版本中，用户只需要用普通英语提出需要解决的问题，平台就会给出最佳答案，选择数据、功能、建模技术甚至最佳数据可视化。

这个列表还很好地阐述了发展时间表。向导平台已经过时了。AML 平台越来越多，越来越成熟。会话分析刚刚起步。

不仅仅是为了深入分析

工具的智能发展不限于预测 / 规范建模，而是扩展到数据混合和准备阶段，甚至是数据可视化领域。这意味着，传统的 BI 业务分析师，当然还有用户业务线经理（也称为公民数据科学家）都可以使用无代码智能功能。

这种发展的市场驱动是众所周知的。在深入分析和 AI 领域，这和短缺、成本和获得熟练的数据科学家有关。在这个领域，这和时间洞察力、效率和一致性有关。简而言之，就是用更少的资源、更快的速度完成更多的事情。

然而，在数据准备、混合、特征识别领域（这对数据科学家也很重要），真正吸引人的是大许多的数据分析师 / BI 从业者领域。在这个领域，传统静态数据的 ETL 仍然是一个巨大的负担，延误了从 IT 专家功能到自助服务的快速转换。

老树发新芽

在我 2001 年开始进入数据科学领域的时候，SAS 和 SPSS 还占据着主导地位，它们已经从专有代码转型为拖放平台模式，这是最早的自动化模式。

七八年后，学术研究领域更倾向于教学生 R 语言，可能是出于经济考虑，尽管 SAS 和 SPSS 可以让学生免费使用，但它们还是会向导师收费，虽然提供巨大的学术研究折扣，而 R 语言却是免费的。

然后我们又回到了之前的时代，直至今天，数据科学家还是需要写代码。这就是现在的数据科学家所接受的教育，好不意外，他们就是这样做的。

有人认为，拖放系统无法提供代码可以提供的细粒度超参优化，这个认识是错误的。如果你使用过 SAS Enterprise Miner 或其竞争产品，那你知道这是错误的观点，事实上要进行调整是更容易的。

在我看来，回到过去只编写代码的时代是非常糟糕的，这可能导致新的从业者忽视基础内容，而仅仅掌握了另外一门编程语言。因此我非常欢迎并期待无代码在从业者之间的快速推进。

模型质量如何

我们通常会把模型准确度的提升视为深入分析的“胜利”。有人会认为，使用自动化无代码解决方案就会降低其中的准确度，这是不正确的。

AutoML 平台，比如 DataRobot、Tazi.ai 和 OneClick.ai，以及其他很多平台不仅能够并行地运行数百种包括超参变体的模型，而且它们还执行转换、特征选择，甚至一些特征工程。所以你不可能在单纯的准确度上击败这些平台。

需要注意，特征工程的领域知识仍然是我们人类的优势。

可能更重要的是，当我们讨论第二或者是第三个数据点的准确度变化的时候，和 AutoML 平台仅仅几天甚至几小时的工作相比，你耗费的几周开发时间真的值得吗？

无代码更广泛的影响

我认为无代码最大的受益者其实是传统的数据分析师和 LOB 经理，他们最关注 BI 静态数据。单独的数据混合和准备平台对他们来说非常有帮助（对于 IT 人员来说，工作量也减轻许多）。

这些无代码准备平台，比如 ClearStory Data、Paxata 和 Trifacta，正在迅速地整合 ML 功能到它们的过程中，帮助用户选择适合混合的数据源，了解这些数据项的真正含义（在没有很好的数据字典查询功能情况下，了解更多信息，获得更需要的数据资源），甚至扩展到了特征工程和特征选择的领域。

现代化的数据准备平台使用嵌入式 ML，比如说智能自动清理或处理异常值。

刚被 Gartner 评选为“最酷的 5 家公司”之一的 Octopai，通过使用机器学习和模式分析确定不同数据元素的关系，创造数据的上下文环境以及数据的早先使用和转换，帮助用户自动快速地找到可信赖的数据。

这些平台还通过设置权限并保护 PID 和其他类似的敏感数据来实现安全的自助服务。

甚至数据可视化领先者 Tableau 也在使用 NLP 和其他 ML 工具开发会话分析功能，帮助用户使用英语提出问题，并返回最佳可视化结果。

这对数据科学家来说到底意味着什么

Gartner 相信，两年之内，到 2020 年，公民数据科学家将在数量和产生的深入分析价值上压倒数据科学家。他们预测，数据科学家会将重心转移到专门的问题上，并将企业级模型嵌入到应用程序中。

我不同意。这似乎把数据科学家归类到 QA 或者是实施人员中。这不是我们的使命。

我认为，由于小部分数据科学家可以处理更多的项目，这将帮助深入分析越来越多、越来越快地渗透到组织中去。

仅仅一两年时间，数据科学家最重要的技能就已经展现了出来，这包括混合和清理数据，给任务选择恰当的预测算法。这正是增强版 / 自动化无代码工具需要负责的领域。

需要创造、监视并管理成百上千个模型的公司是无代码最早的一批使用者，特别是在保险和金融服务领域。

还剩下什么？还有分析翻译的重要角色。这是 McKinsey 最近发现的任何数据科学方案中最重要的角色。简单来说，分析翻译的工作包括：

负责识别深入分析可能产生的不同机会。
推动优先处理这些机会的过程。
经常在项目中担任项目经理的角色。
积极地采纳跨企业解决方案，提高成本效益。

换句话来说，将业务问题转变成数据科学项目，将不同类型的风险和回报量化，帮助制定项目的优先级。

那 AI 呢？

是的，CNN 和 RNN 最近在图像、文字和语音等方面的进展都在快速推进自动化无代码解决方案。但速度并不是很快，因为缺少具备深度学习技能的数据科学家，甚至比全科医师还要少。

Microsoft 和 Google 去年都推出了自动化深度学习平台。一开始是处理迁移学习，而之后朝着完全 AutoDL 发展。感兴趣的读者可以了解下 Microsoft Custom Vision Services 和 Google 类似的入门级服务 Cloud AutoML。

还有一些初创公司整合了 AutoDL 平台。我们在今年早些时候分析了 OneClick.AI。它们包含了完全的 AutoML 和 AutoDL 平台。Gartner 最近评选拥有 AutoDL 平台的 DimensionalMechanics 为“最酷的 5 家公司”之一。

有一段时间，我尝试更新无代码 AutoML 和 AutoDL 的提供商名单以及它们提供的功能。但是这个列表更新得实在太快了。

我希望 Gartner 或其他有价值的团队能进行全面的审核，在 2017 年，Gartner 给出了一篇很长的报告“数据和分析领域在未来的增强分析”。这篇报道很好地概括了一些内容，但有很多我知道的提供商没有被提及。

据我了解，还没有一个完整的列表，列出所有提供完全自动化或相当数量的自动化功能的平台。这包括从 IBM 和 SAS 这样的大企业到一些很小的初创公司。

很多提到的内容都来自下面的文章列表。如果你正在以任何方式使用深入分析，或单纯地想让你的传统业务分析功能变得更好，请查看下面文章中提到的解决方案。

有关自动化机器学习、自动化深度学习和其他无代码解决方案的文章

What’s New in Data Prep(September 2018)

https://www.datasciencecentral.com/profiles/blogs/what-s-new-in-data-prep

Democratizing Deep Learning – The Stanford Dawn Project(September 2018)

https://www.datasciencecentral.com/profiles/blogs/democratizing-deep-learning-the-stanford-dawn-project

Transfer Learning –Deep Learning for Everyone(April 2018)

https://www.datasciencecentral.com/profiles/blogs/transfer-learning-deep-learning-for-everyone

Automated Deep Learning – So Simple Anyone Can Do It(April 2018)

https://www.datasciencecentral.com/profiles/blogs/automated-deep-learning-so-simple-anyone-can-do-it

Next Generation Automated Machine Learning (AML)(April 2018)

https://www.datasciencecentral.com/profiles/blogs/next-generation-automated-machine-learning-aml

More on Fully Automated Machine Learning(August 2017)

https://www.datasciencecentral.com/profiles/blogs/more-on-fully-automated-machine-learning

Automated Machine Learning for Professionals(July 2017)

https://www.datasciencecentral.com/profiles/blogs/automated-machine-learning-for-professionals

Data Scientists Automated and Unemployed by 2025 - Update!(July 2017)

https://www.datasciencecentral.com/profiles/blogs/data-scientists-automated-and-unemployed-by-2025-update

Data Scientists Automated and Unemployed by 2025!(April 2016)

https://www.datasciencecentral.com/profiles/blogs/data-scientists-automated-and-unemployed-by-2025

有关作者

Bill Vorhies 是数据科学中心的主任编辑，从 2001 年开始就在数据科学领域实践。他的邮箱是：Bill@Data-Magnum.com 或 Bill@DataScienceCentral.com

查看英文原文：

https://www.datasciencecentral.com/profiles/blogs/practicing-no-code-data-science

反向激励，在加速这个社会的黑化

俄乌打仗，中国损失惨重，高达数千亿美元，未来损失不可估量

重磅突发！中国银行，中国工商银行、建设银行、中信银行、兴业银行，停止接受来自俄罗斯的人民币付款！

强制购买公墓，湖北随州太随意

聊几句重庆跳江的肥猫事件吧