查看原文
其他

智造“神机妙算”——数字化浪潮下的动力核心人工智能

The following article is from 麦肯锡北京数字化能力发展中心 Author DCC Beijing

来源:(麦肯锡北京数字化能力发展中心)

作者:(DCC Beijing)

1956年夏天,麦卡锡、明斯基等科学家在美国达特茅斯学院开会研讨“如何用机器模拟人的智能”,首次提出“人工智能”(Artificial Intelligence,简称AI)这一概念,标志着人工智能学科的诞生。经过半个多世纪的蓬勃发展,人工智能如今已成为继蒸汽技术、电力技术、计算机及信息技术革命之后第四次科技革命的核心驱动力,颠覆性地改变和影响着各行各业的生产结构和生产关系。





作为新一轮产业变革的核心驱动力和引领未来发展的战略技术,人工智能的发展得到国家的高度重视。2017年国务院发布的《新一代人工智能发展规划》对人工智能产业进行了战略部署;2018年3月及2019年3月的政府工作报告均强调指出,要加快新兴产业发展,推动人工智能等研发应用。


在工业企业中,人工智能也带来了价值链的全方位智能化革命:从先进分析驱动生产力和质量双赢的智能化生产,到采购到付款一站式解决的采购过程;从运用高级分析AA推进的创新型数字驱动业务到AI精准投放的个性化智能销售,人工智能在企业工业转型中发挥着显著作用,是企业高效精准输出的必要用例。




1


人工智能的工作原理与人脑类似


人类智能的思考主体是人类大脑;相对应的,人工智能的思考主体则是计算机。因此,如果要让人工智能能够胜任人类智能的工作,那么就需要让计算机能够像人脑一样思考。由此可见,人工智能的工作原理和人脑存在着相似性。

参照人脑的认知学习流程,我们可以把人工智能的工作流程分为接收信息、学习、决策三个部分:



接收信息


机器接收数据、及其未经算法处理所获得的结果(机器不断接收结构化和非结构化的新数据,类似于人类在成长过程中积累经验的方式)

人类通过感官可以感受声、光、温度、味觉等信息,而机器则通过数据感知世界。机器感知到的数据主要分为两类:结构化的数据和非结构化的数据(见图1)。

图1 机器感知的数据类型


其中,结构化数据约占全部数据的10%-20%;非结构化数据占比则高达80-90%,其来源和种类也更为复杂(见图2)。

图2 机器感知的数据类型


 

 学习


机器通过改变算法来处理数据,因为其了解更多其正在处理的内容信息(随着时间的推移,算法的性能会不断提高)。

机器通过训练数据集进行算法训练、从数据中学习模型,并将其用于对新数据的推断。以人工智能技术中较为成熟的神经网络模型为例(见图3):计算机学习过程好比人类教育儿童,如果开始告知儿童有四只脚的动物是猫,那么儿童看到狗也会认为是猫;此时要进行特征样本补充,加入猫独有的特征,使儿童能够进一步辨认出什么动物是猫。因此,要培养对机器于新数据的决断能力,离不开大量数据积累和训练有素的模型。

图3:人工智能学习流程示意图



 决策


机器根据算法输出其预测来执行任务并做出决策。机器识别模式和做出决策的过程与人类面对新事物时作出决策的过程类似,会将其与已知模式进行比较,以便在行动之前加深理解。

在完成接受和学习过程后,机器就形成了类似于人脑的模型。之后收到信息,机器就会使用算法对新接收的信息进行处理,并输出经模型得到的结论,做到像人一样作出决策,从而真正达到人工智能模拟人脑的要求。如果各行各业都对同一人工智能进行训练,就会使其具备应对多个场景的成熟功能(见图4)。

图4:人工智能应用场景




2


三大趋势使人工智能技术触手可及


2011年是人工智能发展的重点节点,大数据、云计算、物联网等技术的发展标志着人工智能进入蓬勃发展期。泛在感知数据、图形处理器等计算平台推动着以深度神经网络为代表的人工智能飞速发展,大幅缩短了理论与应用之间的差距,比如图像分类、语音识别、无人驾驶等代表性的人工智能技术真正从“不能用”、“不好用”变为“可以用”、“挺好用”。人工智能技术及其可用性迎来了爆发式增长的新高潮。

我们对使得人工智能爆发式增长的技术进行了分析,发现这些技术具有三点基础共性及趋势——他们分别是算力、数据、和算法。



 算力:存储处理成本降低,处理能力提高


自1990年代起至今,随着工业技术水平的发展,数据成本极速下降。其中,存储成本从4,400 美元/ GB降至0.02美元 / GB;内存成本从78,400美元 / GB降至4.9 美元/ GB(见图5)。

图5:数据成本降低


与此同时,计算机的性能得到了大幅提升:一次浮点运算的处理成本降低了100倍,而超级计算机的性能提高了1,500倍。



  数据:获取来源增加,复杂数据增多


如今,各行各业都在疯狂产生数据,并致力于获取、挖掘及整合海量数据,使之展现出巨大的商业价值。海量数据把我们推入信息爆炸的时代,在生活中生产和获得数据的来源越来越多,其中包含机器生成和人为生成两种数据类型(见图6):

图6:机器生成和人为生成数据来源


除了数据来源外,所获得数据的类型、结构、复杂程度也各不相同。伴随着信息爆炸,我们获得了爆炸性增长的复杂数据(见图7)。如何合理利用这些数据,也是人类需要思考和研究的问题。

图7:爆炸的数据量



 算法:全新算法日新月异,推动人工智能进步 


现在,人工智能的感知能力已经可以与人类相提并论。深度神经网络和深度学习的出现降低了人工智能的错误率,使计算机在语音和图像识别方面与人类同等的水平,甚至可以在复杂的逻辑游戏中自学成才并击败人类(见图8)。人工智能开始在真正意义上契合其创立时的初衷和目标愿景:胜任某些人工智能复杂工作。

图8:计算机识别错误率逐渐逼近人类




3


人工智能、机器学习与深度学习


在当今的技术社会,我们常常提及的机器学习、深度学习等名词其实存在清晰的关系:机器学习是一种实现人工智能的方法,深度学习是一种实现机器学习的技术。认清专业概念之间的联系,能够帮助我们更好地认识人工智能技术。



  • 人工智能:让机器模仿人类认知行为(包括计算机视觉、机器学习等)的科学技术

  • 机器学习:实现人工智能的主要方法,无需显式编程即可从数据中学习

  • 深度学习:在语音和图像/视频处理中表现出卓越性能的机器学习类型



三者概念存在包含和被包含的关系(见图9),其中深度学习在高级分析中起着关键作用。

图9:三者从属关系




4


主流机器学习方法支持人工智能发展


主流机器学习方法主要包括三种类型:无监督学习、监督学习、强化学习。三种机器学习方法在机器训练和识别方面存在差异性,分别在不同的应用场景中支持人工智能发展。



 无监督学习


无监督学习是针对因缺乏足够的先验知识导致数据标注成本过高这一难题的解决方案。计算机在没有明确的结果变量的情况下进行探索性数据分析和模式识别,从而减少或代替人工工作量。

示例:运用无监督学习中的K均值算法确定大型调查客户需要开设多少卫星办公室才能满足需求,且最大程度地减少差旅(见图10)。

图10:K均值算法等到的办公室分布



监    监督学习  


监督学习是机器提供其试图预测或解释的结果变量,分析训练数据并产生一个推断的功能,可以用于映射出新的实例。

示例:人工智能的价值来自于替人完成从A到B映射的过程,其中映射公式格外重要,代表着AI的判断标准(见图11)。我们给机器学习算法大量的标记化示例,让其找出映射,在习得映射算法后,计算机便可用算法独立处理其他案例。

图11: 映射学习过程



  强化学习


强化学习是指智能主体在与环境的交互过程中,用于描述和解决智能主体在与环境的交互过程中,通过学习策略从而达成回报最大化或实现特定目标的问题。与监督学习和非监督学习不同,强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。


图12:AlphaGo对战李世石


2016年3月,AlphaGo击败八届围棋世界冠军李世石(见图12)。2017年10月, AlphaGo Zero学会在没有人类数据或指导的情况下玩围棋,仅仅进行自我博弈就在21天内击败了所有以前的AlphaGo版本。同年12月, AlphaZero在使用强劲计算资源(5000个一代TPU和64个二代TPU)之后,用不到24小时进行强化学习,便接连击败了三个世界冠军级的程序 (国际象棋、将棋、围棋) 。




5


人工智能技术的发展仍存在局限性


现在,AI已经能够在不同领域创造数千亿美元的潜在价值,且从人才招聘到会计环节等对企业的核心流程产生了系统性影响。尽管发展喜人,但不可否认,AI技术的应用本身仍然存在五个方面的局限。这些因素可能会限制技术的进一步发展,但与此同时,也为业界继续推进人工智能指明了方向:



 数据标记的不完全性


为了执行设定的任务,人工智能需要人为的帮助来收集大量数据,标记并输入数据库,使模型得到充分训练,并进一步自我优化和深度学习。执行任务目标的多元化意味着有效信息类型或解释变量的多元化,但并非所有的特征变量都能够被标记、量化,无法被标记和量化的特征变量不会被纳入模型中,因此,数据标记的不完全性必将成为模型的原生缺陷。



  大数据集不易获得


深度学习方法需要用数百万条数据对AI算法进行充分训练,才能够保证其输出结果的准确性。由于数据集不够大、包含的有效信息不够充分,目前存在模型拟合度欠佳的问题,这将使AI无法正确发挥其功能,导致输出结果并非最优解。



  结果可解释性欠佳


为了提高模型和样本数据的拟合度,程序员倾向于建立更为复杂的模型来解释结果变量,这也给最终使用者解读输出结果带来了较大的麻烦。随着模型解释变量和算法的复杂化,想要明确具体是何种行为导致结果的变化愈发困难。机器在不断地自我学习过程中优化算法,使得使用者很难判断AI是如何做出预测和决策的,这不利于最终使用者根据AI的决策结果进行战略部署。



   兼容性欠佳,需反复投入成本


AI模型的兼容性/知识迁移的能力有待提高。现在,大多数AI模型只适用于原始案例,即使是非常相似的任务也不能够共享模型,因此公司必须反复投入资源来训练新模型。数据和模型的不可共享性,大大增加了AI运作的成本,给公司带来了资金负担。



  数据和算法的偏差难以避免


AI的功能性受人类干预程度较高,人为对数据的收集和特征变量的选择在很大程度上决定了AI模型的质量,程序员自主决定数据的特征,很难确保数据的随机性、获取信息的有效性以及样本值是否能够反映母体状况。不可避免的人为偏差决定了人工智能和程序员个人偏好具有很高的关联性,也导致了其是否存在核心偏差的不可预见性。


结语


尽管人工智能在发展中仍存在局限性,但这并不影响其成为新一轮产业变革的核心驱动力和引领未来发展的战略技术。随着科技的进步,当人工智能技术愈发成熟时,人类将能够借助它来解决海量难题,使之真正成为未来数字化浪潮下技术进步的动力核心。


作者


李铁良

数字化能力发展中心经理

智能制造专家,专注于智能工厂及企业数字化转型能力建设等课题的研究


尤晨

数字化能力发展中心高级分析员

专注于工业物联网和企业数字化转型能力建设等课题的研究


奚鑫威

清华大学工程物理系在读硕士

数字化能力发展中心项目助理


END


(欢迎大家加入数据工匠知识星球获取更多资讯。)

联系我们

扫描二维码关注我们


微信:DaasCai

邮箱:ccjiu@163.com

QQ:2286075659

热门文章


大数据、人工智能带来的危机:科技巨头会毁掉我们的生活吗?


小数据治理靠“人工”,大数据治理靠“智能”

人工智能时代数字内容治理的机遇与挑战(附PDF下载)

转型, 先要转的是你自己的知识体系

企业数字化转型的正确认知和路径

我们的使命:发展数据治理行业、普及数据治理知识、改变企业数据管理现状、提高企业数据质量、推动企业走进大数据时代。

我们的愿景:打造数据治理专家、数据治理平台、数据治理生态圈。

我们的价值观:凝聚行业力量、打造数据治理全链条平台、改变数据治理生态圈。

了解更多精彩内容


长按,识别二维码,关注我们吧!

数据工匠俱乐部

微信号:zgsjgjjlb

专注数据治理,推动大数据发展。

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存