从治疗癌症到预测犯罪,细数数据科学在各领域的神奇应用
导读:成功的关键是获取正确的数据并找到正确的属性。
数据科学驱动决策在现代社会几乎随处可见。本文将介绍三个案例研究,用来描述数据科学的影响:消费型公司使用数据科学进行销售和营销;政府使用数据科学改善医疗、刑事判案和城市规划;而已获取专业体育特许经营权的商业机构则使用数据科学招募球员。
作者:约翰·凯莱赫(John D. Kelleher)、布伦丹·蒂尔尼(Brendan Tierney)
译者:张世武、黄元勋 来源:大数据DT(ID:bigdatadt)01 销售和营销中的数据科学
沃尔玛可以通过销售终端系统跟踪沃尔玛网站上的客户行为以及有关沃尔玛及其产品的社交媒体评论,获取关于其客户偏好的大型数据集。
10多年来,沃尔玛一直在利用数据科学来优化商店的库存水平,一个众所周知的例子是,根据对几周前飓风袭击之前的销售数据的分析,2004年,沃尔玛在飓风Francis路径上的商店重新进货草莓派。
最近,沃尔玛在分析社交媒体趋势的基础上推出新产品,分析信用卡活动,向客户推荐产品,优化及个性化客户在沃尔玛网站上的在线体验,利用数据科学推动其零售收入。沃尔玛将在线销售增长的10%至15%都归功于数据科学优化。
在网络世界中,提供类似追加销售和交叉销售功能的是“推荐系统”。如果读者在Netflix上观看过电影或者在Amazon上购买过物品,就会知道这些网站使用收集来的数据为接下来应该观看或购买的内容提供建议。
这些推荐系统可以用不同的方式来引导你:一些引导你走向大片和畅销书,另一些则引导你走向特定的迎合你品味偏好的商品。克里斯·安德森(Chris Anderson)的《长尾》(2008)一书认为,随着生产和分销成本的降低,市场从大量销售热门商品转向集中高收益商品。
推动热销产品还是高收益产品销售之间的权衡是推荐系统的一个基本设计决策,也影响对实现这些系统的数据科学算法的采用。
02 数据科学在政府中的应用
近年来,各国政府意识到数据科学的优势。例如,2015年,美国政府任命D.J.帕蒂尔(D.J.Patil)博士为第一任首席数据科学家。美国政府领导的一些最大规模的数据科学计划已经在健康领域开展。
数据科学是癌症攻坚计划(Cancer Moonshot)和精准医疗计划(Precision Medicine Initiatives)的核心。精准医疗的理念是将人类基因组测序和数据科学结合起来,为单个患者设计药物。该计划的一部分是“全民计划”(All of Us Program),其中计划收集100多万名志愿者的环境、生活方式和生物数据,用以创建世界上最大的精准医学数据集。
数据科学还能用于城市组织方式的改革:它被用来跟踪、分析和控制环境、能源和运输系统,并为长期的城市规划提供数据信息。
美国政府的“警察数据计划”(Police Data Initiative)侧重于利用数据科学帮助警察部门了解其管辖社区的需求。数据科学也被用来预测犯罪热点和哪些人会成为惯犯。
然而,民权组织批评了数据科学在刑事司法中的一些应用。其中一个有趣的因素是,人们对个人隐私和数据科学的看法因领域而异。许多乐于将个人数据用于公共资助的医疗研究中的人在使用个人数据进行治安和刑事司法方面有着不同的看法。
03 数据科学在竞技体育中的应用
由布拉德皮特主演的电影《点球成金》(Moneyball,Bennett Miller,2011),展示了数据科学在现代体育中越来越广泛的应用。这部电影是根据同名小说(Lewis 2004)改编的,书中叙述了Oakland A's的棒球队如何利用数据科学提高球员招募成功率的真实故事。
该团队的管理层认为,与棒球传统上强调的数据(如球员的安打率(batting average))相比,球员的上垒率(on-base percentage)和长打率(slugging percentage)统计数据更能揭示与进攻成功相关的信息。这一远见卓识使Oakland A's能够招募到被低估的球员,减少了球队的薪资预算。
Oakland A's在数据科学方面的成功使棒球发生了革命性的变化,现在大多数棒球队都将类似的数据驱动策略整合到了他们的招聘过程中。
Moneyball的故事是一个显而易见的例子,表明了数据科学如何在竞争激烈的市场中为组织提供竞争优势。然而,从纯数据科学的角度来看,也许最重要的一点是,它强调了有时数据科学的主要价值是识别信息含量高的属性。有一个共识,即数据科学的价值在于通过数据科学过程创建的模型。
然而,一旦我们知道了一个领域的重要属性,就很容易创建数据驱动的模型,而成功的关键是获取正确的数据并找到正确的属性。
在《Freakonomics: A Rogue Economist Explores the Hidden Side of Everything》一书中,史蒂文·D·莱维特(Steven D. Levitt)和史蒂芬·杜伯纳(Stephen Dubner)阐明了这一判断对于解决各种问题有多么重要。正如他们所说,理解现代生活的关键是“知道测量什么以及如何测量”。
利用数据科学,我们可以发现数据集中的重要模式,这些模式可以揭示领域中的重要属性。数据科学可以应用在多个领域,其原因是:如果可以获取正确的数据,并且明确定义问题,那么数据科学就可以提供帮助。
04 为什么是现在
多个因素促成了当今数据科学的发展。正如前面提到的那样,大数据的出现是由组织采集数据的相对容易所导致的。无论是通过销售终端交易记录、在线平台上的点击、社交媒体帖子、智能手机上的应用程序,还是无数其他渠道,公司现在都可以建立更加丰富的用户画像。
另一个因素是数据存储在规模经济时代的商品化,使得存储数据的成本比以往任何时候都要低。计算机能力也有了巨大的提升。图形处理器(GPU)最初是为实现计算机游戏的快速图形渲染而开发的。GPU的特点是能够实现快速矩阵乘法。然而,矩阵乘法不仅对图形绘制有用,对机器学习也很有用。
近年来,GPU已被调整和优化以适用于机器学习,这有助于加快在数据处理和模型训练方面的速度。用户友好的数据科学工具也变得唾手可得,降低了进入数据科学的门槛。综上所述,这些发展意味着采集、存储和处理数据变得前所未有的简单。
在过去的10年中,机器学习也取得了重大进展,特别是深度学习的出现,它已经彻底改变了计算机处理自然语言和图像数据的方式。深度学习(deep learning)一词描述了具有多个神经元层的一系列神经网络模型。
神经网络从20世纪40年代就已经存在了,但它们在拥有大型、复杂的数据集时才能发挥最大作用,并且需要大量的计算资源来进行训练。因此,深度学习的出现与大数据和计算能力的爆发性增长有关。可以毫不夸张地说,深度学习对多个领域产生了非同一般的影响。
DeepMind的AlphaGo程序就是一个很好的例子,它说明了深度学习如何改变了一个研究领域。围棋是起源于3000年前的中国棋类游戏。围棋的规则比国际象棋简单得多:玩家轮流把棋子放在棋盘上,围捕对手的棋子或包围空旷的区域。
然而,规则的简单性和更大的棋盘意味着在围棋中有着相对国际象棋来说更多可能的棋盘布局。事实上,比起宇宙中的原子数量而言,围棋有更多可能的棋盘布局。对于计算机来说,这比国际象棋要困难得多,因为它有更大的搜索空间,并且难以评估这些可能的棋盘布局。
DeepMind团队使用深度学习模型使AlphaGo能够评估棋盘布局并选择下一步要执行的操作。2016年3月,AlphaGo击败获得18次围棋世界冠军的韩国棋手李世石,最终成为第一个击败职业围棋选手的电脑程序。这场比赛在全世界有2亿多人观看。
在2009年,世界上最好的围棋计算机程序的水平还在业余围棋高手之下;而7年后,AlphaGo击败了世界冠军。这一事实足以让我们更好地理解深度学习对围棋的影响。2016年,一篇描述AlphaGo背后的深度学习算法的文章发表在世界最著名的学术科学杂志《nature》上。
深度学习也对一系列高端下游技术产生了巨大影响。
Facebook现在使用深度学习来识别人脸和分析文本,以便根据个人的在线对话直接进行精准的广告投放。
谷歌和百度都在图像识别、字幕抽取和搜索,以及机器翻译方面使用深度学习。
苹果的虚拟助手Siri、亚马逊的Alexa、微软的Cortana和三星的Bixby也都使用基于深度学习的语音识别。
华为目前正在为中国市场开发一个虚拟助手,它也将采用基于深度学习的语音识别技术。
然而,尽管深度学习是一项重要的技术发展,但就数据科学的发展而言,最重要的一点是,人们对数据科学的能力和优点的认识不断提高,而这些能力和优点是由那些备受瞩目的成功案例凸显出来的。
关于作者:约翰· D.凯莱赫,都柏林理工学院计算机科学学院的教授以及信息、通信和娱乐研究所的学术负责人。他的研究得到了ADAPT中心的支持,该中心由爱尔兰科学基金会(Grant 13 / RC / 2106)资助,同时也接受欧洲区域发展基金的资助。
布伦丹·蒂尔尼,都柏林理工学院计算机科学学院的讲师,同时也是Oracle ACE 主任,还著有多本基于Oracle技术的数据挖掘类著作。
本文摘编自《人人可懂的数据科学》,经出版方授权发布。
点击上图了解及购买转载请联系微信:DoctorData