查看原文
其他

数据科学正在进入“无代码”的新时代

AI前线小组 译 AI前线 2019-04-07
作者 | Bill Vorhies
译者 | 刘嘉洋
编辑 | Natalie
AI 前线导读:我们正在踏入数据科学实践的新阶段,“无代码”时代。就像其他重大的变化一样,这个阶段还没有非常成熟,但是改变的脚步却非常清晰。

更多优质内容请关注微信公众号“AI 前线”(ID:ai-front)

即使仅仅过去了一周,也有一些我们不知道的新的自动化 / 无代码技术推出。有的是新成立的初创公司带来的整合产品。但更多的是现有的分析平台提供商增加的新功能或模块。

从这些自动化机器学习(AML)平台出现以来,我就一直在关注它们。在 2016 年春天,我第一次写文章讨论这些平台,标题为“到 2025 年,自动化技术会让数据科学家失业!”。

当然,这绝对不是我夸大其词,在过去的两年半内,自动化功能在我们行业中的传播速度是惊人的。

无代码数据科学

无代码数据科学,或者叫自动化机器学习,或者像 Gartner 所述的那样,“增强版”数据科学提供了一些便捷的工具。包括:

  • 向导平台:提供详细建模步骤的平台(但仍然需要用户来做这些步骤,比如说 BigML、SAS、Alteryx)。该平台是基于经典的拖放平台理念而设计的。

  • 自动化机器学习(AML):全自动化机器学习平台(比如 DataRobot)。

  • 会话分析:在最近的版本中,用户只需要用普通英语提出需要解决的问题,平台就会给出最佳答案,选择数据、功能、建模技术甚至最佳数据可视化。

这个列表还很好地阐述了发展时间表。向导平台已经过时了。AML 平台越来越多,越来越成熟。会话分析刚刚起步。

不仅仅是为了深入分析

工具的智能发展不限于预测 / 规范建模,而是扩展到数据混合和准备阶段,甚至是数据可视化领域。这意味着,传统的 BI 业务分析师,当然还有用户业务线经理(也称为公民数据科学家)都可以使用无代码智能功能。

这种发展的市场驱动是众所周知的。在深入分析和 AI 领域,这和短缺、成本和获得熟练的数据科学家有关。在这个领域,这和时间洞察力、效率和一致性有关。简而言之,就是用更少的资源、更快的速度完成更多的事情。

然而,在数据准备、混合、特征识别领域(这对数据科学家也很重要),真正吸引人的是大许多的数据分析师 / BI 从业者领域。在这个领域,传统静态数据的 ETL 仍然是一个巨大的负担,延误了从 IT 专家功能到自助服务的快速转换。

老树发新芽

在我 2001 年开始进入数据科学领域的时候,SAS 和 SPSS 还占据着主导地位,它们已经从专有代码转型为拖放平台模式,这是最早的自动化模式。

七八年后,学术研究领域更倾向于教学生 R 语言,可能是出于经济考虑,尽管 SAS 和 SPSS 可以让学生免费使用,但它们还是会向导师收费,虽然提供巨大的学术研究折扣,而 R 语言却是免费的。

然后我们又回到了之前的时代,直至今天,数据科学家还是需要写代码。这就是现在的数据科学家所接受的教育,好不意外,他们就是这样做的。

有人认为,拖放系统无法提供代码可以提供的细粒度超参优化,这个认识是错误的。如果你使用过 SAS Enterprise Miner 或其竞争产品,那你知道这是错误的观点,事实上要进行调整是更容易的。

在我看来,回到过去只编写代码的时代是非常糟糕的,这可能导致新的从业者忽视基础内容,而仅仅掌握了另外一门编程语言。因此我非常欢迎并期待无代码在从业者之间的快速推进。

模型质量如何

我们通常会把模型准确度的提升视为深入分析的“胜利”。有人会认为,使用自动化无代码解决方案就会降低其中的准确度,这是不正确的。

AutoML 平台,比如 DataRobot、Tazi.ai 和 OneClick.ai,以及其他很多平台不仅能够并行地运行数百种包括超参变体的模型,而且它们还执行转换、特征选择,甚至一些特征工程。所以你不可能在单纯的准确度上击败这些平台。

需要注意,特征工程的领域知识仍然是我们人类的优势。

可能更重要的是,当我们讨论第二或者是第三个数据点的准确度变化的时候,和 AutoML 平台仅仅几天甚至几小时的工作相比,你耗费的几周开发时间真的值得吗?

无代码更广泛的影响

我认为无代码最大的受益者其实是传统的数据分析师和 LOB 经理,他们最关注 BI 静态数据。单独的数据混合和准备平台对他们来说非常有帮助(对于 IT 人员来说,工作量也减轻许多)。

这些无代码准备平台,比如 ClearStory Data、Paxata 和 Trifacta,正在迅速地整合 ML 功能到它们的过程中,帮助用户选择适合混合的数据源,了解这些数据项的真正含义(在没有很好的数据字典查询功能情况下,了解更多信息,获得更需要的数据资源),甚至扩展到了特征工程和特征选择的领域。

现代化的数据准备平台使用嵌入式 ML,比如说智能自动清理或处理异常值。

刚被 Gartner 评选为“最酷的 5 家公司”之一的 Octopai,通过使用机器学习和模式分析确定不同数据元素的关系,创造数据的上下文环境以及数据的早先使用和转换,帮助用户自动快速地找到可信赖的数据。

这些平台还通过设置权限并保护 PID 和其他类似的敏感数据来实现安全的自助服务。

甚至数据可视化领先者 Tableau 也在使用 NLP 和其他 ML 工具开发会话分析功能,帮助用户使用英语提出问题,并返回最佳可视化结果。

这对数据科学家来说到底意味着什么

Gartner 相信,两年之内,到 2020 年,公民数据科学家将在数量和产生的深入分析价值上压倒数据科学家。他们预测,数据科学家会将重心转移到专门的问题上,并将企业级模型嵌入到应用程序中。

我不同意。这似乎把数据科学家归类到 QA 或者是实施人员中。这不是我们的使命。

我认为,由于小部分数据科学家可以处理更多的项目,这将帮助深入分析越来越多、越来越快地渗透到组织中去。

仅仅一两年时间,数据科学家最重要的技能就已经展现了出来,这包括混合和清理数据,给任务选择恰当的预测算法。这正是增强版 / 自动化无代码工具需要负责的领域。

需要创造、监视并管理成百上千个模型的公司是无代码最早的一批使用者,特别是在保险和金融服务领域。

还剩下什么?还有分析翻译的重要角色。这是 McKinsey 最近发现的任何数据科学方案中最重要的角色。简单来说,分析翻译的工作包括:

  1. 负责识别深入分析可能产生的不同机会。

  2. 推动优先处理这些机会的过程。

  3. 经常在项目中担任项目经理的角色。

  4. 积极地采纳跨企业解决方案,提高成本效益。

换句话来说,将业务问题转变成数据科学项目,将不同类型的风险和回报量化,帮助制定项目的优先级。

那 AI 呢?

是的,CNN 和 RNN 最近在图像、文字和语音等方面的进展都在快速推进自动化无代码解决方案。但速度并不是很快,因为缺少具备深度学习技能的数据科学家,甚至比全科医师还要少。

Microsoft 和 Google 去年都推出了自动化深度学习平台。一开始是处理迁移学习,而之后朝着完全 AutoDL 发展。感兴趣的读者可以了解下 Microsoft Custom Vision Services 和 Google 类似的入门级服务 Cloud AutoML。

还有一些初创公司整合了 AutoDL 平台。我们在今年早些时候分析了 OneClick.AI。它们包含了完全的 AutoML 和 AutoDL 平台。Gartner 最近评选拥有 AutoDL 平台的 DimensionalMechanics 为“最酷的 5 家公司”之一。

有一段时间,我尝试更新无代码 AutoML 和 AutoDL 的提供商名单以及它们提供的功能。但是这个列表更新得实在太快了。

我希望 Gartner 或其他有价值的团队能进行全面的审核,在 2017 年,Gartner 给出了一篇很长的报告“数据和分析领域在未来的增强分析”。这篇报道很好地概括了一些内容,但有很多我知道的提供商没有被提及。

据我了解,还没有一个完整的列表,列出所有提供完全自动化或相当数量的自动化功能的平台。这包括从 IBM 和 SAS 这样的大企业到一些很小的初创公司。

很多提到的内容都来自下面的文章列表。如果你正在以任何方式使用深入分析,或单纯地想让你的传统业务分析功能变得更好,请查看下面文章中提到的解决方案。

有关自动化机器学习、自动化深度学习和其他无代码解决方案的文章

What’s New in Data Prep(September 2018)

https://www.datasciencecentral.com/profiles/blogs/what-s-new-in-data-prep

Democratizing Deep Learning – The Stanford Dawn Project(September 2018)

https://www.datasciencecentral.com/profiles/blogs/democratizing-deep-learning-the-stanford-dawn-project

Transfer Learning –Deep Learning for Everyone(April 2018)

https://www.datasciencecentral.com/profiles/blogs/transfer-learning-deep-learning-for-everyone

Automated Deep Learning – So Simple Anyone Can Do It(April 2018)

https://www.datasciencecentral.com/profiles/blogs/automated-deep-learning-so-simple-anyone-can-do-it

Next Generation Automated Machine Learning (AML)(April 2018)

https://www.datasciencecentral.com/profiles/blogs/next-generation-automated-machine-learning-aml

More on Fully Automated Machine Learning(August 2017)

https://www.datasciencecentral.com/profiles/blogs/more-on-fully-automated-machine-learning

Automated Machine Learning for Professionals(July 2017)

https://www.datasciencecentral.com/profiles/blogs/automated-machine-learning-for-professionals

Data Scientists Automated and Unemployed by 2025 - Update!(July 2017)

https://www.datasciencecentral.com/profiles/blogs/data-scientists-automated-and-unemployed-by-2025-update

Data Scientists Automated and Unemployed by 2025!(April 2016)

https://www.datasciencecentral.com/profiles/blogs/data-scientists-automated-and-unemployed-by-2025

有关作者

Bill Vorhies 是数据科学中心的主任编辑,从 2001 年开始就在数据科学领域实践。他的邮箱是:Bill@Data-Magnum.com 或 Bill@DataScienceCentral.com

查看英文原文:

https://www.datasciencecentral.com/profiles/blogs/practicing-no-code-data-science

今日荐文

点击下方图片即可阅读

厉害了!AI成功伪装人类贡献GitHub修复补丁


推  荐

RIOT Games(英雄联盟开发商)的在线服务运行环境十分复杂,那么如何利用容器达到高效运维?如何高效高能地利用多种云平台来达到产品更好更快发布?AIOps在游戏运维场景中有哪些应用?如何实现容器的全球同步? 

RIOT Games的资深架构工程师Jack Xie(据说LOL在中国的第一个测试服就是他搭的呢),将在InfoQ主办的全球运维技术大会CNUTCon上分享:《容器时代的全球游戏运维》,为你一一解答上述问题。点击「阅读原文」了解,有任何问题欢迎咨询售票小姐姐Joy,电话:13269078023(微信同号)。


如果你喜欢这篇文章,或希望看到更多类似优质报道,记得给我留言和点赞哦!

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存