查看原文
其他

数据科学与机器学习:2017年主要成果与2018年核心趋势

2017-12-17 2017再见 AI前线

作者 | Kirk D. Borne
译者 | 核子可乐译
编辑 | Emily
AI前线导读:2017年,大数据掀起的热潮开始逐步让位于人工智能——事实上,AI已然成为本轮技术漩涡的核心所在。而围绕 AI而来的不仅有种种正面信息(包括自动驾驶汽车、医疗成像、安全、客户服务、娱乐与金融服务等众多行业开始引入愈发强大的机器学习算法与 AI应用),亦存在大量负面消息(机器或将威胁到我们的工作岗位,甚至接管整个世界)。在这一年中,我们见证了以数据为根基创造价值的各类创新性成果,包括越来越多地利用 API、服务产品、数据科学平台、深度学习方案以及来自各主要供应商的云计算学习服务。与数据、机器学习以及 AI相关的特定应用方向包括机器智能、规范分析、出行科学、行为分析以及物联网等等。

更多干货内容请关注微信公众号“AI前线”,(ID:ai-front)

展望 2018年,我们应该会迎来真正的 AI技术发展动力,而不仅仅是相关炒作。现在是时候验证 AI的实践人地,衡量其投资回报率并真正实现其可行性了。在新的一年中,AI的发展方向与 2017年的重点领域不会有太大差别,仍主要集中在流程自动化、机器智能、客户服务、深度个性化以及劳动力转型层面。另外,物联网技术也将日益成熟,包括带来更理想的安全功能、模块化平台、用于访问传感器数据流的 API以及边缘分析接口。另外,我们还可能看到这对数字化双雄在制造业、公共事业、工程及建筑行业当中变得更加主流。我同样相信,到 2018年,更多从业者将需要肩负起把 AI的积极效益传达给抱有怀疑态度的公众这一责任。


Tom Davenport,巴布森学院信息技术与管理学杰出教授,国际分析学院联合创始人,麻省理工学院数字化经济学倡议研究员,德勤公司高级分析顾问。

2017年的主要进展:

企业 AI走向主流:众多大型企业都已经开始推进自己的人工智能或机器学习计划。一部分企业甚至已经拥有超过 50个采用各类技术的研发项目,但其中大多数属于“粗放性”项目,即发展目标相对有限。2017年出现了一种新的倾向,即越来越多大型供应商开始将其“变革性”产品转向开源,允许参与者以 DIY方式推动项目发展。当然,这也意味着企业用户必须启用或培养出高水平数据科学人才,方可与这样的背景性趋势接轨。

机器学习被应用于数据整合:数据管理与分析领域中这一历史最为悠久的难题正在机器学习的助力下得到解决。原有劳动密集型数据整合与管理方法正在被目前各类数据库所采取的,类似于对数据元素进行“概率匹配”的机制所取代——或者至少加以补充。利用此类工具(通常由外部工作流以及众包技术专家负责支持)有望将数据整合时耗降低至原本的十分之一。

保守企业接受开源: 银行、保险及医疗卫生等行业当中的传统保守企业,如今也开始积极采用开源分析、人工智能与数据管理软件。其中一部分企业主动劝阻员工继续使用专有型工具 ; 也有部分企业允许员工自由作出选择。这种对开源技术的接纳态度,一方面源自成本构成因素的转变,另一方面则源自开源项目出色的实际效果以及高校毕业生们的选择取向。

2018年发展预期:

我们已经进入“后算法”时代: 从历史角度看,分析师与数据科学家们需要掌握大量相关知识,从而判断哪种算法能够达成既定目标。但时至今日,分析与机器学习流程自动化已经能够在处理过程中引入成百上千种不同算法,而且更重要的是考量某一模型或者模型集合的实际表现。尽管目前还没有实际发生,这最终很可能带来“民间数据科学家”的兴起。

独立 AI初创企业的吸引力开始减弱: 在风险投资基金的推动之下,过去几年中已经先后涌现数百家 AI初创企业。这些公司往往仅能够解决相对有限的问题。然而,即使其工作成果富有成效,但大多数企业客户仍然很难将其方案同现有流程及系统整合起来。因此,成熟的企业更倾向于自主开发相对易于整合的 AI“微服务”,或者直接从供应商处采购内嵌有 AI内容的系统方案。


Jill Dyche, @jilldyche,@SASBestPractice公司副总裁。商业畅销书作者。

时至今日,每一家公司都在涉足人工智能或者机器学习领域。纵观 2017年,事实证明是金子总会发光——而各类供应商,包括很多我认为跟 AI根本搭不上边的企业,都希望借此让自己的产品组合更上一层楼。而颇具讽刺意味的是,这些产品确实非常新颖,因此其中不少供应商很可能彻底超越自身原本的业务定位。

2018年的 AI/机器学习用例与商业对话还将继续增长。为什么?理由很简单,大多数企业管理者属于需要解决实际问题的商人,他们并不关心神经网络与稀疏数据要如何接驳在一起。他们对自然语言处理中的词汇推理挑战也不抱任何兴趣。相反,他们只是希望加速自身供应链运作速度,了解客户要做什么 /买什么 /说什么,并由计算机给出答案。这显然属于规范分析的范畴,而有能力以更低门槛交付相关解决方案的供应商将在新一年中占据绝对优势。


Bob E.  Hayes @bobehayes,研究员兼作家,Business on Broadway发行人,拥有工业组织心理学博士学位。

数据科学与机器学习功能正越来越多被各类行业所采用,并渗透至多种应用领域。

2017年,我们见证了 AI功能的巨大进步。尽管目前的现有深度学习模型仍然需要大量数据进行算法教授,但在神经网络与强化学习的双重支持之下,事实证明我们已经能够在无需依赖数据集的前提下构建起高性能算法。DeepMind利用这些技术并创建起 Alpha Go Zero——该算法超越原有成果的优势在于,其只需要自我对弈即可快速提升棋力。

随着人工智能技术在刑事司法、金融、教育以及办公环境下的持续普及,我们将需要建立算法标准以评估由其带来的不准确性与偏见问题。另外,对于 AI可能带来的社会影响的关注亦在持续升温,其中包括建立规则以约束 AI的使用条件(例如避免出现决策‘黑匣子’)以及理解深度学习算法如何作出决策。

即使对于诞生于互联网时代下的企业(例如 imgur与优步等),安全违规问题同样不容忽视。因此,我们将看到技术行业在彻底扭转安全实现方法层面所作出的努力——具体包括提高区块链(虚拟分类账)可见性以作为改善企业保护其管辖范畴内各类数据的可行方法。


Carla Gentry,Analytical Solution公司数据科学家, @dara_nerd。

2017年,每个人都开始讨论机器学习、人工智能与预测分析。遗憾的是,很多企业 /供应商只是将其作为新的“流行语”,或者说将其作为自我标榜的手段——而非真正认真积累专业知识。如果参阅 Twitter上与此相关的“热门话题”,大家肯定会感到困惑,因为又是同一批人与上年一样在媒体上发布大量营销帖子!要在这些领域有所建树,我们真正需要的经验源自时间与人才方面的投入,而不仅仅是“行为呼吁”和炒作……一如既往,经验仍然极为重要!

在我看来,2018年将成为数据科学与预测分析领域的真正起效的一年。这不仅是因为趋势所致,更是因为这些技术将能够切实让我们的业务发生巨大变化。预测性招聘能够帮助企业节约数百万美元的人才流失与周转损失 ; AI与机器学习能够在几秒钟内完成原本需要大量时间投入的工作!然而,虽然技术能够让我们带至新的高度,但我们也要牢记自己身为人类的本分。作为数据科学家或者技术作者,我们应当在人性与道德实践层面以不偏不倚的态度践行开诚布公的指导原则。


Gregory Piatetsky-Shapiro,KDnuggets公司总裁,数据科学家,KDD大会与知识发现与数据挖掘专业组织 SIGKDD联合创始人。

2017年的主要进展:
  • 2017年内,AlphaGo Zero成为 AI领域最重要的研究进展。

  • 数据科学自动化水平持续提升,更多工具的涌现令机器学习平台实现自动化升级。

  • AI炒作与预期的升温速度高于 AI与深度学习的成功速度。

2018年关键性趋势展望:
  • GDPR(欧洲通用数据保护条例)将于 2018年 5月 25日生效,这将对数据科学产生重大影响,其中对于解释权(您的深度学习方法能否解释为何拒绝某人的贷款要求?)以及偏见与歧视预防提出要求。

  • 谷歌 DeepMind团队将继续推进 AlphaGo Zero的发展,旨在使其在另一项几年前被普遍认为无法由人工智能完成的任务当中取得同样惊人的表现。

  • 我们将看到自动驾驶车辆(包括轿车与卡车)的持续发展,包括解决各类紧急问题(例如在拉斯维加斯试运行的自动驾驶车辆不会让路等)。

  • AI泡沫将继续存在,但动荡与巩固的迹象亦已经出现。


Dr. GP (Ganapathi) Pulipaka, @gp_pulipaka,DeepSingularity LLC首席执行官兼首席数据科学家。

2017年年内的机器学习、深度学习与数据科学发展:


  • AlphaGo Zero代表着一种新的强化学习实现形式,其能够自我指导,且无需人工干预或者历史数据集的参与。

  • Python(共拥有 165万次 GitHub推送)、Java(共拥有 232万次 GitHub推送)以及 R(16万 3807次 GitHub推送)已经成为 2017年年内最受欢迎的编程语言。

  • 在 CPU上执行神经网络功能时所需要处理的规模化大数据可能随着时间推移带来极为可观的功耗成本。谷歌公司发布了第二代 TPU,其中采用的精确设计工程成果包括将协处理器接入通用 PCIe决线、利用乘法累加器(简称 MAC)处理流量,从而复用寄存器中的值进行数学计算,最终借此节约价值数十亿美元的能源使用成本。

  • 英伟达公司推出基于 Volta架构的 Tesla GPU,用于以每 GPU高达 120万亿次的峰值计算性能助力深度学习与机器学习负载。

  • 关于量子计算的炒作关注点,已经由 D-Wave转向采用 Python语言的 QISKit量子编程堆栈的 20量子位计算机。

2018年机器学习、深度学习与数据科学发展趋势


  • McAfee实验室发布的 2018年威胁研究报告显示,对抗性机器学习技术将在无服务器环境下为网络入侵检测、欺诈检测、垃圾邮件检测等网络安全领域内的重要事务带来强大的机器处理速度加持。

  • HPE公司将开发点积引擎,同时面向深度神经网络、卷积神经网络以及递归神经网络推出自己的高性能神经网络计算芯片。

  • 量子机器学习的未来命运取决于能够将量子位提升至 10以上,同时在同一量子位内容纳多达 100种维度。未来将会出现大量利用量子位技术制造的微型芯片,而这将最终成就令人叹为观止的量子计算机。

  • 2018年,物联网与边缘计算同机器学习相结合所面临的障碍将得到进一步缓解。地理空间智能方案将在移动手机、RFID传感器、UAV、无人机以及卫星等所承载的突破性算法的支持下得以实现。

  • 自监督学习与自主学习将为机器人提供更为新颖的深度学习技术助力,这意味着机器人将能够与周边地面乃至水下环境进行顺利交互。


Paul Gearan, Heather Allen与 Karl Rexer,领先数据挖掘与高级分析咨询企业 Rexer Analytics公司骨干。

时至今日,我们仍然很难确保不具备研究或者分析专业知识背景的用户群体随时随地有效运用商业智能软件。虽然存在 Tableau、IBM沃森以及微软 Power BI等软件方案,但根据 Rexer Analytics公司于 2017年收集的数据显示,只有略高于半数的受访者表示数据科学团队以外的人员能够使用此类自助服务工具。而在使用此类工具时,约有 60%的受访者表示难度很大,且最常见的问题集中在无法把握分析过程以及无法准确理解分析结果方面。

2018年,实现“数据科学工具民主化”这一承诺对于扩大分析的普及度与积极效用,最终带来有效且有意义的结果而言至关重要。一般来讲(根据我们的经验),我们仍然需要一支具备综合性多学科专业背景的团队,他们将帮助那些不具备分析类培训经验的员工及管理层利用相关工具对其假设结论进行探索与可视化处理。但同样重要的是,该团队还需要开发模型并与数据科学专业人士一同进行结果解释,其中数据科学专家将凭借培训经历以准确判断特定分析技术的适用范围与局限性。


Eric Siegel,预测分析全球大会创始人。

2017年,机器学习迎来了全速推进的三大发展趋势,相信这一点将在 2018年继续保持下去。在这三种趋势中,有两种值得肯定,但有一种则为“必要之恶”:


  • 机器学习在各类领域中开始以商业应用形式快速普及 -- 具体包括市场营销、财务风险管理、欺诈检测、劳动力优化、制造业以及医疗卫生等等。感兴趣的朋友不妨关注将于 2018年 6月于拉斯维加斯召开的预测分析全球大会,借此了解这一广泛性发展趋势以及已经有哪些领先企业借此实现实际价值。

  • 深度学习在流行充与实际价值两个方面大放异彩。 这种相对年轻的先进神经网络方法将机器学习扩展到了新的水平——即在大信号输入类问题方面提供高成效,具体包括图像分类(自动驾驶车辆与医学图像解析)、声音(语音识别与发言人识别)、文本(文档分类)甚至是高维度点击流处理等“标准”业务问题。

  • 遗憾的是,人工智能仍存在过度炒作问题。尽管专业人员有时也会使用 AI这一定义尚不明确的术语指代机器学习,但各类分析服务供应商以及媒体则会刻意沿用这一称谓以暗示某些明显不切实际的能力,甚至误导受众产生远超真实状态的期望。正如 Arthur C. Clarke所指出,“任何足够先进的技术都像是种魔法”,但这并不代表着我们能够想到或者曾经出现在科幻作品中的一切“魔法”都有办法通过技术手段来实现。AI最终将实现自我意识,甚至可能出于武断甚至恶意立场给人类生存构成威胁等结论实际上只是一种鬼故事——众多厂商之所以对此大加宣扬,无非是为了对机器进行拟人化甚至是神化,从而推动产品销售。这里建议大家对“AI”概念抱以更为轻松的心态,而不应偏听偏信一些纯属子虚乌有的胡说八道。


Jeff Ullman,斯坦福大学计算机科学系荣誉教授。他关注方向包括数据库理论、数据库集成、数据挖掘以及基于信息基础设施的教育工作。

我最近在一次会议上与 John Hopcroft以及 Al Aho两位老同事再度聚首。我的发言并没有新鲜之处,但 Al与 John却谈到了不少人们普遍关心的话题。

John (Hopcroft)谈到了深度学习算法的分析机制。他曾经进行了一些实验,希望以不同顺序利用同一组数据进行训练以观察对网络节点活动产生的影响。他最终发现一部分网络节点会在不同训练顺序之下始终保持同样的行为。但在另一些情况下,虽然无法实现节点到节点映射,但单一网络中的某些小型节点集会与另一网络中的另一节点集表现出同样的影响。这项工作尚处于初始阶段,但我大胆就此作出一点推测:

对深度学习网络分析机制的深入探究将帮助人们真正理解深度学习技术,包括其使用方法与潜在陷阱。

接下来,Al Aho则谈到了量子计算。目前以 IBM、微软、谷歌等为代表的众多全球巨头级企业都在投入大量资金构建量子计算机。此类设备拥有多种不同实现方法,但令 Al感到兴奋的是他的一名学生已经在微软公司打造出可观的成果——构建一套编译器与模拟器,用以设计量子算法并完成测试。这意味着即使不存在真正的量子计算机,现在我们也已经能够立足模拟器体验量子计算的强大能力。这不禁令我想起上世纪八十年代的集成电路设计工作。当时我们同样使用编译器——负责将高级语言转化为能够由电路所理解的机器码,而后进行模拟。这样作的好处是大家可以尝试不同的算法,而无需耗费大量时间构建物理电路结构。值得强调的是,在量子计算层面,构建物理结构的问题已经不只是“缓慢而昂贵”,而是“根本不可能”。实际上,我怀疑量子计算在短时间内还无法成为现实,但为其投入资金并设计相关算法仍然很有必要。正如 Al所指出,在过去一年中,效率更高的量子计算线性代数算法取得了令人振奋的进展。如果这一目标最终实现,相信数据科学家们将对量子计算抱有更为坚定的信心。而这也引出了我的下一项预测:

即使真正的量子计算机在短时间内——甚至需要数十年——始终无法实现,量子计算乃至与数据科学相关的算法,仍将在未来几年内得到更多关注。

下面我再加入我个人作出的一项更接地气的预测:


  • 由 Hadoop转向 Spark的趋势将持续下去,并最终令 Hadoop消失在人们的视野当中。



Jen Underwood,Impact Analytix LLC创始人,公认的分析技术专家,在产品管理与设计方面拥有独道见解,且具备 20多年的数据仓库、报告、可视化与高级分析解决方案实践开发经验。

回顾 2017年,我会将其视为智能分析平台全面崛起的一年。从分析机器人到自动化机器学习,数据科学中的各个层面都开始涌现出大量极为复杂的智能自动化功能。数据整合与数据筹备平台如今已经拥有出色的智能化水平,能够以即插即用方式对接数据源,在数据管道发生错误时实现自我修复,甚至可利用从人类交互中学习到的知识自主进行数据质量维护或管理任务。增强型分析产品已经开始初步实现机器学习技术的民主化承诺。最终,能够率先提供预打包最佳实践算法设计蓝图以及一定程度自动化特征工程能力的平台将成为数字化时代下分析工具领域的游戏规则改变者。

面向新的一年,我希望自动化人工智能方案能够以无缝化方式被统一至更多分析与决策流程当中。随着企业对此类方案的采用,我想可能会有越来越多的人对自动化决策模糊的实现方式以及如何确保其以负责任方式对真实世界中的问题提供指导而感到担忧。欧盟通用数据保护条例所规定的最后期限要求我们抓紧时间开放这些分析层面的“黑匣子”,确保其得到正确使用,最终以可靠且尽职的方式对个人数据加以管理。

作者介绍

Kirk D. Borne, @KirkDBorne,博思艾伦公司首席数据科学家,天体物理学博士,顶尖数据科学与大数据意见领袖。

原文链接:

https://www.kdnuggets.com/2017/12/data-science-machine-learning-main-developments-trends.html

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存