查看原文
其他

终极进化,下一场革命:深度起底人工智能,两万字重磅分析

2017-04-05 马也 扑克投资家

点击上图报名,扑克邀你与150+铜产业链高层相约云南


文 | 潮汐社区领域运营团队 马也

转载请联系扑克作者君(ID:puoker)授权




如果说金融领域最近最热的话题是什么,人工智能取代交易员绝对可以入围其中的前三,毕竟大家都很关心自己的饭碗以后会不会让机器人给挤掉。

人工智能交易软件能通过吸取大量数据来了解这个世界,然后对股票、债券、商品和其他金融产品进行预测。人工智能机器可以获取书籍、Twitter消息、新闻报道、金融数据、企业财报、国际货币政策,甚至是综艺节目概况等一切有助于其软件理解全球趋势的信息。人工智能可以持续不间断地观察这些信息,从不知疲倦,一直学习,不断优化预测。



如今,像高盛这样的金融巨头,以及其他大型对冲基金,都正转向由人工智能驱动的系统,以预测市场趋势,从而做出更好的交易决定。2000年,高盛位于纽约的股票现金交易部门有600个交易员。而如今,只剩下两个交易员,剩余的工作全部由机器包办。

这还是在人工智能全面冲击高盛之前的情况。十年后,高盛员工肯定比今天还要少很多。高收入的华尔街交易员将被无情地抛弃,就像即将倒闭的工厂里的工人一样。

高盛向我们展示了自动化是如何给交易员带来毁灭性打击的,而除了高盛,每家主要金融公司的交易大厅也将如此。


全球最大资产管理公司贝莱德集团(Black Rock Inc)在3月29日的时候同样宣布,将对其主动型基金业务进行重组,计划裁去一批主动型基金经理,并用量化投资策略取而代之。


根据Black Rock重组计划,约有40名主动型基金部门员工将被裁员,其中包括7名投资组合经理。

作为全球最大资产管理公司,Black Rock管理资产规模超过5万亿美元,但是去年一年,其主动型基金管理规模缩水了200亿美元。



将来,人类交易员和对冲基金经理不再有机会,很大一部分原因在于我们是人。人类通常带有偏 27 54927 27 15265 0 0 3816 0 0:00:14 0:00:03 0:00:11 3816见,又相对敏感,无论是有意的,还是无意的。依赖于人类直觉和理性,比纯粹依靠数据和统计学更可怕。


而人工智能在交易领域的发展,已经不是单纯地透过数学去量化或者回测,像美国一家叫Sentient的公司,就一直在不断训练其AI系统,从而让机器能够消化巨量的数据,发现市场趋势,并在整个过程中不断进化。对这套系统的训练过程,就如同生物进化。Sentient在世界各地有上千台机器同时运行,并利用计算机算法打造出数以万亿计的虚拟交易员,Sentient将它们称为“基因”。Sentient认为它也有别于一般的AI技术,并将其称为“进化智能”(Evolutionary Intelligence)。


Sentient利用历史数据,让这些“基因”各自进行虚拟交易。那些表现糟糕的“基因”将被剔除,而能够赚钱的“基因”则被留下,并进化到下一代,正如生物进化中的自然选择过程。这个过程的示意图如下:



在美国股市中,Sentient通常持有各类股票,每天的交易频次达上百次,持仓期限一般为几天到几周。


如果上文提到这些趋势已经让你感到焦虑和不安,那么,请跟扑克投资家一起去真正经历一次关于人工智能的深度旅程。


   什么是人工神经网络

人类大脑神经的信息活动与目前的计算机相比有三个不同的特性:

第一,巨量并行和容错特性。人脑约有1000亿个神经元,神经元之间约有上万亿的突触连接,形成了迷宫般的网络连接,大量的神经元信息活动是同时进行的,而非目前计算机按照指令一条条执行。此外人脑的这种巨量并行特性也使得其具有极好的容错特性,坏掉一个晶体管就能毁掉一块微处理器,但是大脑的神经元每时每刻都在死亡。

第二,信息处理和存储单元结合在一起。目前计算机普遍采用冯洛伊曼架构,存储器和处理器分离,通过总线传递数据。随着处理的数据量海量地增长,总线有限的数据传输速率被称为“冯·诺依曼瓶颈”,严重影响计算机的计算效率和功耗,人脑信息处理和存储单元结合在一起,拥有极低的功耗(约20W左右)。

第三,自组织自学习功能。大脑在与外界互动的同时也会进行学习和改变,而不是像现在计算机遵循预设算法的固定路径和分支运行。

基于以上几点不同,人们一直尝试模仿人类大脑神经元的信息活动机制来设计算法:信号通过突触进入神经元细胞,神经细胞利用一种方式把所有从树突上突触进来的信号进行相加,如果全部信号的总和超过某个阀值,就会激发神经元细胞进入兴奋状态,这时就会有一个电信号通过轴突发送出去给其他神经细胞。如果信号总和没有达到阀值,神经细胞就不会兴奋起来,不会传递信号。


生物神经元的结构


人工神经元数学模型


简单的人工神经元数学模型就是让每一个输入到神经元的信号加权求和,相加后如果超过设定的阈值,就输出“1”,没有就输出“0”。这样若干个最简单的神经元输入输出相连接,就构成了复杂的人工神经网络。

单层人工神经网络


多层(深度)人工神经网络


通过训练,人工神经网络能实现基本分类功能。比如输入一张狗的图片信号,假定输出1表明计算机判断这是一只狗。我们首先用标记过的狗的图片输入人工神经网络进行训练,如果输出的结果是0,就调节每个输入信号的权重等参数,使得输出为1,这样大量标记过的狗的图片训练后,人工神经网络就自己掌握了判断狗的特征,并且具备了泛化能力:我们输入一张它从未见过的狗的图片,它也能识别出来这是一只狗,输出1。


深度学习实际上是建立输入和输出数据之间的映射关系

通过人工神经网络的原理探究我们可以总结以下结论:

1、人工神经网络算法能够从输入的大量数据中自发的总结出规律。人工神经网络算法与传统计算机软件不同,并不要人为的提取所需解决问题的特征或者总结规律。它能够从输入的大量数据中自发的总结出规律,自适应调整自身结构从而举一反三,泛化至从未见过的案例中;

2、人工神经网络最基本的单元功能是分类,所以在分类识别是最直接的应用。以百度为例,其深度学习应用包括搜索、用户画像、语音、图像四大方向,本质上都是实现的分类识别的功能。

百度深度学习的四大直接应用本质上都是实现分类识别功能


3、人工神经网络从最基本的单元上模拟了人类大脑的结构和运行机制(虽然目前还是低级的模仿),理论上讲人脑能够实现的智能它应该也都能实现。数学上也证明了用3层以上人工神经网络模型,理论上可逼近任意函数。

   深度学习迅猛发展的历史背景

深度学习名称的由来。人工神经网络算法在60年代曾经遭遇低谷,著名人工智能专家明斯基当时提出了人工神经网络的两个局限性:

1、单层的人工神经网络甚至连最简单的异或运算都无法实现;

2、多层更复杂的人工神经网络当时的计算能力却无法支撑。


20世纪90年代开始,随着处理器计算能力突飞猛进和云计算技术使得大量计算机并行计算成为可能后,限制大规模人工神经网络的计算能力瓶颈开始逐步消除。即便如此,主流机器学习界对于人工神经网络仍然兴趣寡然,一直坚持人工神经网络研究的加拿大多伦多大学教授、机器学习领域的泰斗Geoffrey Hinton后来为了改变大众对于人工神经网络的长期的消极态度,干脆将其改名为深度学习(deep learning),而其多层抽象的数据学习过程一定程度上借鉴了人类的视觉机制。


人类视觉从原始信号摄入开始(瞳孔摄入像素),接着做初步处理(大脑皮层某些细胞发现边缘和方向),然后抽象(大脑判定,眼前的物体的形状),然后进一步抽象(大脑进一步判定该物体是人脸)


   一篇论文引发新的浪潮


2006年,Geoffrey Hinton和他的学生Ruslan Salakhutdinov在国际顶级期刊《科学》上发表了一篇文章,被认为是深度学习取得突破的重要节点。这篇文章实质上一是讲明了深度学习在描述数据本质上广泛的应用前景,二是给出了多层深度神经网络的很好的训练方法,让大众充分认识到深度学习大规模应用的时代开始来临,开启了深度学习在学术界和工业界的浪潮。而Geoffrey Hinton连同他的实验室DNN research很快被谷歌收购。

深度学习在谷歌各项业务中迅速应用效果惊人。在谷歌内部,深度学习从少数的产品组应用起步,一开始就取得了非常大的突破(首次应用到语音识别错误率就降低了30%),更多的团队开始采纳深度学习算法,目前谷歌内部使用深度学习的产品有:安卓、Apps、药品发现、Gmail、图片理解、地图、自然语言、图片、机器人、语音翻译等。全球著名的谷歌大脑其实质上就是一个大规模的人工神经网络,它实现了对谷歌各项业务的智力支撑。


深度学习已经应用到谷歌的各项业务中去


   人工智能发展历程:在两次高潮和低谷之后迎来第三次浪潮

人工智能作为一门学科诞生至今已有60年的历史,期间经历了2次高潮和低谷。而从2010年到现在又迎来人工智能发展的第三次浪潮。人工智能60年的发展,道路虽然起伏曲折,但进展也可谓硕果累累。无论是基础理论创新,关键技术突破,还是规模产业应用,都是精彩纷呈,使我们每一天无不享受着这门学科带来的便利。人工智能因其十分广阔的应用前景和对一个国家的重大战略意义,近年来日益得到政府部门、学术界的高度关注。



(1)1956年达特茅斯会议:人工智能学诞生

1956年夏,达特茅斯学院助教约翰·麦卡锡(John Mc Carthy)、哈佛大学马文·明斯基(Marvin Minsky)、贝尔电话实验室克劳德·香农(Claude Shannon)、IBM公司信息研究中心纳撒尼尔·罗切斯特(Nathaniel Rochester)、卡内基梅隆大学艾伦·纽厄尔(Allen Newell)和赫伯特·西蒙(Herbert Simon)等先驱在美国达特茅斯学院行了以此为其两个月的学术讨论会,从不同学科的角度探讨用机器模拟人类智能等问题,并首次提出了人工智能的概念,达特茅斯会议上AI的名称和任务得以确定,同时出现了最初的成就和最早的一批研究者,因此标志着人工智能学科的诞生。


人工智能发展历程第三次浪潮


(2)1956年至1974年:人工智能的第一次大发展

1956年达特茅斯会议之后的十几年是人工智能的黄金年代。从50年代后期到60年代涌现了大批成功的AI程序和新的研究方向,其中最有影响力的包括搜索式推理、自然语言、微世界等。在这段时间内,计算机被用来解决代数应用题、证明几何定理、学习和使用英语。初期研究取得了显著的成果,这些成果在得到广泛赞赏的同时也让研究者们对开发出完全智能的机器信心倍增。

1963年6月,MIT从新建立的ARPA(即后来的DARPA,国防高等研究计划局)获得了220万美元经费,用于资助MAC工程,其中包括Minsky和McCarthy五年前建立的AI研究组。此后ARPA每年提供三百万美元,直到七十年代为止,在麻省理工、卡内基梅隆大学、斯坦福大学、爱丁堡大学建立的人工智能项目都获得了来自ARPA等政府机构的大笔资金,在接下来的许多年间,这四个研究机构一直是AI学术界的研究(和经费)中心。不过,这些投入却并没有让当时的乐观预言得以实现。

人工智能发展历程:从萌芽到爆发


(3)1974年至1980年:人工智能的第一次低谷

70年代初,人工智能遭遇了瓶颈。由于计算机性能的瓶颈、计算复杂性的指数级增长、数据量缺失等问题,AI研究者们遭遇了无法克服的基础性障碍。例如,在今天已经比较常见的机器视觉功能在当时找不到足够大的数据库来支撑程序学习,机器无法吸收足够的数据量,因此很难实现视觉方面的智能化。

由于缺乏进展,对人工智能提供资助的机构(如英国政府,DARPA和NRC)对无方向的AI研究逐渐停止了资助。到了1974年已经很难再找到对人工智能项目的资助,研究经费被转移到那些目标明确的特定项目上。人工智能遭遇了6年左右的低谷。

1969年Minsky和Papert出版了著作《感知器》,书中暗示感知器具有严重局限,而感知器是神经网络的一种形式,它最终将能够学习,做出决策和翻译语言。这本书的影响是破坏性的,联结主义的研究因此停滞了十年。到1970年代后期,尽管遭遇了公众的误解,人工智能在逻辑编程、常识推理等一些领域还是有所进展。

(4)1980年至1987年:人工智能的第二次大发展

在80年代,一类名为“专家系统”的AI程序开始为全世界的公司所采纳,知识库系统和知识工程成为了80年代AI研究的主要方向。专家系统是一种程序,能够依据一组从专门知识中推演出的逻辑规则在某一特定领域回答或解决问题。专家系统仅限于一个很小的知识领域,从而避免了常识问题;其简单的设计又使它能够较为容易地编程实现或修改,实践证明了这类程序的实用性。

1980年卡内基·梅隆大学为DEC(Digital Equipment Corporation,数字设备公司)设计了一个名为XCON的专家系统,这套系统在1986年之前能为公司每年节省四千万美元。全世界的公司都开始研发和应用专家系统,到1985年它们已在AI上投入十亿美元以上,大部分用于公司内设的AI部门。为之提供支持的产业应运而生,其中包括Symbolics,LispMachines等硬件公司和IntelliCorp,Aion等软件公司。

1981年,日本经济产业省拨款8.5亿美元支持第五代计算机项目,目标是制造出能够与人对话、翻译语言、解释图像,并且能像人一样推理的机器。随后,英国、美国也纷纷响应,开始向AI和信息技术领域的研究提供大量资金。

1986年,人工智能领域著名的BPAlgorithm(ErrorBack Propagation Algorithm,误差反向传播算法)被Rumelhart Mc Celland等大师提出,这使1970年以来一直遭人遗弃的联结主义重获新生。

(5)1987年至1993年:人工智能的第二次低谷

1987年AI硬件市场需求突然下跌。Apple和IBM生产的台式机性能不断提升,到1987年时其性能已经超过了Symbolics和其他厂家生产的昂贵的Lisp机。老产品失去了存在的理由:一夜之间这个价值五亿美元的产业土崩瓦解。XCON等最初大获成功的专家系统维护费用居高不下,暴露出各种问题,专家系统的实用性仅仅局限于某些特定情景。

到80年代晚期,战略计算促进会大幅削减对AI的资助。1991年,人们发现十年前日本人宏伟的“第五代工程”并没有实现。这些事实情况让人们从对“专家系统”的狂热追捧中逐步走向失望。人工智能研究再次遭遇寒冬。

尽管遇到各种批评,这一领域仍在不断前进。来自机器人学这一相关研究领域的RodneyBrooks和HansMoravec提出了一种全新的人工智能方案,号召“自底向上”地创造智能,他们认为感知运动技能对于常识推理等高层次技能是至关重要的。

(6)1993年至2010年:人工智能复苏期

1993年到2010年这一阶段,人工智能处于稳步发展时期,互联网推动人工智能不断创新和实用。

人工智能已被成功地用在技术产业中,取得了一些里程碑式的成果:1997年5月,IBM研发的计算机“深蓝”(Deep Blue)战胜了国际象棋冠军卡斯帕罗夫;2005年,Stanford开发的一台机器人在一条沙漠小径上成功地自动行驶了131英里,赢得了DARPA挑战大赛头奖;2009年,洛桑联邦理工学院发起的蓝脑计划声称已经成功地模拟了部分鼠脑。

2008年11月IBM提出“智慧地球”概念,数字化、网络化和智能化,被公认为是未来社会发展的大趋势,而与“智慧地球”密切相关的物联网、云计算等,更成为科技发达国家制定本国发展战略的重点。自2009年以来,美国、欧盟、日本和韩国等纷纷推出本国的物联网、云计算相关发展战略。


深度学习的效果随着数据量的增大显提升


(7)2010年到现在:人工智能进入爆发式增长期

大数据、云计算支撑人工智能产业爆发,人工智能将成为下一轮技术变革的核心。

人工智能新一轮的爆发包括大数据、云计算和算法三个核心要素。

第一,数据的急剧增长。
得益于互联网、社交媒体、移动设备和廉价的传感器,这个世界产生的数据量指数型增长。大数据是人工智能发展的助推剂,这是因为有些人工智能技术使用统计模型来进行数据的概率推算,比如图像、文本或者语音,有了大量的数据才能为模型的训练提供原材料。

第二,计算能力的进步。云计算和大规模GPU并行计算的发展为深度学习的应用提供了计算基础。当人们把原本用于游戏中处理高质量画面的GPU拿来运行深度学习算法后,计算机可以几百倍地加快模型的训练速度。目前,AlphaGo的计算能力是IBM深蓝的近3万倍。未来随着速度更快的芯片乃至量子计算的发展,运算速度会进一步提高,成本也会大幅降低。

第三,算法的发展,特别是深度学习的应用。算法是解决一个设计程序或完成任务的路径方法。与大部分传统算法相比,深度学习的效果随着数据量的增大有显著的提升,因而更大量的数据可以提高算法的表现。深度学习增加了神经网络的层数,因此网络才有了更强大的特征挖掘能力。机器学习算法目前被开源使用,这种情形将促成更大进步,因为在开源环境下开发人员可以补足和增强彼此的工作。

   人工智能全球热潮上升到国家战略层面

人工智能已经成为国家服务业、工业和军事的核心竞争力,因此世界各国制定了国家级发展战略:

各国纷纷在战略层面布局人工智能


2016年5月美国白宫计划组织四场研讨会讨论人工智能。白宫还成立了人工智能委员会,用于协调全美各界在人工智能领域的行动。美国交通部宣布历时10年投资40亿美元的提案,旨在实现无人驾驶汽车上路。

日本从2016年开始执行的“第五期科学技术基本计划”中,日本政府列入总额约26万亿日元的研发经费,重点研发物联网及人工智能系统,提出要实现领先于世界的“超智能社会”(即Society5.0)。

2016年5月25日我国四部委发布《“互联网+”人工智能三年行动实施方案》,到2018年形成千亿级的人工智能市场应用规模。2016年8月8日发布的《“十三五”国家科技创新规划》多次讲到人工智能。

   人工智能巨头竞争白热化:从开源平台、芯片到应用

(1)开源人工智能基础平台

同时各大科技巨头纷纷开源人工智能技术,以此来获得大量的用户需求和开发人员,建立开放共享、互利共赢的人工智能生态圈,典型的例子有:

谷歌开源了人工智能基础平台Tensor Flow;Facebook开源了人工智能基础平台Torchnet;微软开源了人工智能基础平台DMTK;IBM开源了人工智能基础平台System ML;雅虎开源Caffe On Spark;百度开源AI人工智能Warp-CTC源代码;特斯拉创始人ElonMusk等共同创立非营利开源人工智能公司OpenAI等。

(2)布局人工智能芯片

人工智能芯片定义了AI产业链和生态圈的基础计算架构,核心芯片是人工智能时代的战略制高点。Google、IBM、英伟达、Intel、中科院都在积极布局人工智能芯片。

2016年8月17日,英特尔表示将开发人工智能技术的专用芯片;

IBM正在设计基于大脑结构的芯片TrueNorth;今年5月,谷歌自主研发新型芯片支持人工智能;

英伟达推出人工智能超级芯片特斯拉P100GPU;

中科院研发出全球首个能够“深度学习”的“神经网络”处理器芯片“寒武纪”;

Facebook、微软以及Twitter都在通过设计新的芯片加强人工智能研发。

(3)研发人工智能核心技术

Google、IBM、Microsoft、Facebook、Amazon、百度等企业巨头充分认识到人工智能技术引领新一代信息产业发展的战略意义,纷纷投入重金收购企业、招募人才和研发核心技术,力图掌握人工智能时代的主动权:

Google正在研发自动驾驶汽车、Deepmind人机博弈;IBM投资10亿美元组建Watson人工智能部门,在医疗金融等领域推广应用;

微软推出聊天机器人小冰和人工智能助理小娜;

Facebook专注于人工智能助理、图像视频识别等技术;

百度开发无人驾驶、语音识别、百度度秘等人工智能多领域的应用产品。

各个行业对人工智能投资的顶级公司


   人工智能芯片:从通用到专用,类脑计算的进化

(1)类脑计算的进化

类脑计算可以分为两个方向:一个是从人工神经网络从功能层面模仿大脑的能力;另一个神经拟态计算(neuromorphic computing)则是从结构层面去逼近大脑,其结构也有两个层次,一是神经网络层面,与之相应的是神经拟态架构和处理器,二是神经元层面,与之相应的是元器件。

人工智能芯片分类


人工智能大脑的进化


(2)GPU王者Nvidia,在深度学习上使用Nvidia的组织2年增长了30多倍,为绝大部分的人工智能平台提供计算能力

1. GPU的高并行处理

GPU(GraphicsProcessingUnit),图形处理器,专门为2d和3d的图形、视频、可视计算和显示做出优化。

GPU VS CPU


GPU具有高并行结构(highly paralle lstructure),在处理图形数据和复杂算法方面拥有比CPU更高的效率。对比GPU和CPU在结构上的差异,CPU大部分面积为控制器和寄存器,GPU拥有更多的ALU(Arithmetic Logic Unit,逻辑运算单元)用于数据处理,而非数据高速缓存和流控制,这样的结构适合对密集型数据进行并行处理。CPU执行计算任务时,一个时刻只处理一个数据,不存在真正意义上的并行,而GPU具有多个处理器核,在一个时刻可以并行处理多个数据。


采用GPU加速与只采用CPU训练CNN的性能比较


深度学习在神经网络训练中,需要很高的内在并行度、大量的浮点计算能力以及矩阵运算,而GPU可以提供这些能力,并且在相同的精度下,相对传统CPU的方式,拥有更快的处理速度、更少的服务器投入和更低的功耗。以Image Net竞赛为例,基于GPU加速的深度学习算法,百度、微软和Google的计算机视觉系统在ImageNet图像分类和识别测试中分别达到了5.98%(2015年1月数据)4.94%(2015年2月数据)、4.8%(2015年2月数据)、的错误率,接近或超过了人类识别水平。

2. 现硬件加速和编程


GPU发展历程


GPU的发展经历了三个阶段:

第一代GPU(1999年以前),部分功能从CPU分离,实现硬件加速,以GE(Geometry Engine)为代表,只能起到3D图像处理的加速作用,不具有软件编程特性。

第二代GPU(1999年-2005年),实现进一步的硬件加速和有限的编程性,1999年NVIDIAGeForce256将T&L(Transform and Lighting)等功能从CPU分离出来,实现了快速变换,也是真正意义上的GPU出现的标志;2001年NVIDIA和ATI分别推出的GeForce3和Radeon8500,图形硬件的流水线被定义为流处理器,出现了顶点级可编程性,同时像素级也具有有限的编程性,但GPU的编程性比较有限。

第三代GPU(2006年以后),GPU实现方便的编程环境可以直接编写程序;2006年NVIDIA与ATI分别为推出了CUDA(Computer Unified Device Architecture,统一计算架构)编程环境和CTM(Close To the Metal)编程环境;2008年,苹果公司提出一个通用的并行计算编程平台OpenCL(Open Computing Language,开放运算语言),和CUDA绑定在NV的显卡上不同,OpenCL和具体的计算设备没有关系。

3. GPU的计算标准

随着GPU可编程性不断增强,特别是CUDA等编程环境的出现,使GPU通用计算编程的复杂性大幅度降低。由于可编程性、功能、性能不断提升和完善,GPU已演化为一个新型可编程高性能并行计算资源,全面开启GPU面向通用计算的新时代。GPGPU(GeneralPurposeCPU),通用目的GPU,它的计算原理是我们任何密集的计算所对应代码量可能往往连5%都不到,这部分代码,我们可以把它提取出来,放到GPU上去处理。


GPU实现加速计算的原理


作为计算平台,人们往往将CPU和GPU联合起来,组成一个异构的平台。因为和CPU相比,GPU所能处理的事情还比较单纯,比如I/O、访问磁盘或网络,或者说数据采集和整理,或者一些串行的没法并行的工作,这些操作仍然需要CPU来辅助进行。目前主要的通用计算标准有CUDA(Compute Unified Device Architecture,统一计算设备架构)、OpenCL(Open Computing Language,开放计算语言)、Direct Compute。


CUDA在2006年由NVIDIA提出,是一种将GPU作为数据并行计算设备的软硬件体系;CUDA编程模型将CPU作为主机(Host),GPU作为协处理器(co-processor)或者设备(Device),采用类C语言开发;目前支持Widows、Linux、MacOS三种主流操作系统,但仅支持NIVDIA开发的GPU芯片。

OpenCL在2008年由苹果首先提出,苹果拥有其商标权;随后苹果与AMD,IBM,Intel和NVIDIA技术团队合作初步完善OpenCL标准,2010年OpenCL1.1发布。OpenCL是第一个面向异构系统通用目的并行编程的开放式、免费标准,此异构平台可由CPU、GPU或其他类型的处理器组成;OpenCL提供了基于任务分区和数据分区的并行计算机制,也是基于C的一个程式语言;不同于CUDA仅支持NIVDIA开发的GPU芯片,OpenCL支持一系列硬件,包括GPU、GPP、现场可编程门阵列(FPGA)和数字信号处理器(DSP)多种GPU芯片。


GPU通用计算标准标准名称提出标准的公司标准特征


目前市场上,比如在PC领域的GPU,基本上只能见到Nvidia,Intel,AMD这几家公司的产品。

Nvidia在这几家显卡生产厂商中实力最强,有很多的产品线,GeForce,主要是为桌面游戏准备的;Quadro,它是专门为显示级的工作站准备的;TSELA,它专门为科学计算准备的;TEGRA,它是为移动端、自动驾驶平台等准备的;GRID,它是专门为服务器集成虚拟化使用;NVs,它是对特别大屏幕由多个显示器拼在一起的这种用途而专门定制的。


GPU主流生产厂商


Intel主要是集成显卡,集成在Intel的CPU中,如i5,i7。现在最新的英特尔集成显卡,基本上达到了NV的入门级显卡的水平,满足绝大多数人的日常需求,比如上网、文字处理、看视频以及玩小游戏等。Intel集成显卡最大优点,就是非常省电,同时直接利用这种内存作为显存,也能大大的降低了这种显卡的生产成本。AMD的前身ATI,是专业的显卡生产厂商,后来被AMD收购。AMD的主要产品有面向普通的桌面、移动平台的Radeon系列,为专业工作站平台准备的FirePro系列等。Matrox,目前已经淡出主流市场,在一些专业的2d绘图领域还有用到。

GPU出色的浮点计算性能提高深度神经网络计算的有效性。


nvidia游戏领域收入


nvidia数据中心领域收入


通过改进机器学习算法和升级计算硬件,各行各业都在采用深度学习技术来处理爆炸性增长的数据量,帮助他们找到新方法来利用随手可得的数据财富开发新产品、服务和流程,从而创造巨大的竞争优势,在深度学习上使用英伟达的组织2年增长了30多倍。

在深度学习上使用英伟达的组织2年增长了30多倍

NVIDIA为绝大部分的人工智能平台提供计算能力

   人工智能专用芯片:大幅提升人工智能算法运行效率,推动人工智能产业加速发展

传统的算法在通用芯片(CPU和GPU)上效率不高,功耗比较大,因此从芯片的设计角度来说,通用型往往意味着更高的成本。于是出现了特定的算法加速器,来加速包括卷积神经网络、递归神经网络在内的各种神经网络算法,专用芯片的最大优势在于其成本和功耗降低。专用深度学习芯片将大幅提升人工智能算法运行效率,推动人工智能产业加速发展。

(1)谷歌TPU芯片:匹配Tensor Flow,专为人工智能而制今年5月,谷歌展示了一款专门针对人工智能定制的新型芯片TPU(Tensor Processing Unit);TPU由谷歌与Open Power Foundation合作开发,Open Power Foundation提供芯片设计。

谷歌TPU芯片


谷歌的TPU(Tensor Processing Unit)是一种专用的加速器芯片,跟其深度学习软件TensorFlow匹配。TPU专门针对机器学习进行过裁减,运行单个操作时需要的晶体管更少,其研发目的是为了替代GPU,实现更高效率的深度学习。

(2)Nvidia Tesla P100芯片:专门用于加速深度学习2016年4月6日,英伟达CEO黄仁勋在其公司GPTech峰会上发布了一款支持深度学习的新型芯片TeslaP100。这是英伟达第一次设计一个专门用于该领域的芯片,专门用于加速人工智能,专门用于加速深度学习,并且英伟达决定全力投入人工智能。

NvidiaTeslaP100芯片


TeslaP100芯片安装了150亿个晶体管,是目前市场上许多处理器、图形芯片的3倍;芯片面积为600平方毫米,双精度运算速度5.3万亿次,单精度运算速度10.6万亿次,半精度运算速度21.2万亿次。Nvidia同时发布了一款搭载了八个P100芯片、可用于深度学习的计算机DGX-1。

(3)IBM True North芯片、随机相变神经元芯片:神经拟态计算,像大脑一样工作2014年8月7日,IBM宣布研发出一款可以像大脑一样工作的计算机芯片True North。

IBM集成16块TrueNorth芯片的电路板


True North使用了54亿个晶体管,分成4096个“神经突触内核(neurosynaptic cores)”的结构;每一个“神经突触内核”结构都能使用crossbar(交叉)通讯模式来存储、处理并向其它结构传输数据,这些计算内核产生的效果相当于100万个神经元和2.56亿个突触。TrueNorth芯片只要几厘米的方寸,功耗只有65毫瓦。

True North是IBM参与DARPA的研究项目SyNapse的最新成果;SyNapse全称是Systemsof Neuromorphic Adaptive Plastic Scalable Electronics(自适应可塑可伸缩电子神经系统,而SyNapse正好是突触的意思),其终极目标是开发出打破冯诺依曼体系的硬件。

2016年,IBM苏黎世研究中心宣布,制造出世界首个人造纳米级随机相变神经元,该神经元能用于制造高密度、低功耗的认知学习芯片,可实现人工智能的高速无监督学习。该神经元尺寸最小能到纳米量级,因而信号传输速度极快,同时功耗较低,这就使得随机相变神经元具有生物神经元的特性。


IBM随机相变神经元组成的人工神经元网络


IBM相变神经元的整个架构包括输入端、神经薄膜、信号发生器和输出端,其中输入端类似生物神经元的树突,神经薄膜类似生物神经元的双分子层,信号发生器类似生物神经元的神经细胞主体,输出端类似生物神经元的轴突。而神经薄膜是整个神经元产生作用的关键物质,它类似生物神经细胞中的液态薄膜,当能量吸收到一定程度时就会产生信号并向外发射。这些信号经过输出端(轴突)传导,然后被其他神经元接收,以此循环形成信息处理过程。

目前,IBM已经构建了由500个该神经元组成的阵列,并让该阵列以模拟人类大脑的工作方式进行信号处理。

对于类脑计算现在基本可以看到两个方向,人工神经网络从功能层面模仿大脑的能力,而神经拟态计算(neuro morphiccom puting)则是从结构层面去逼近大脑,其结构也有两个层次,一是神经网络层面,与之相应的是神经拟态架构和处理器,二是神经元层面,与之相应的是元器件。IBM的True North、随机相变神经元都是在神经拟态计算方向寻求突破,其中True North在神经拟态架构层面做出努力,刚宣布不久的人工神经元则是在神经元结构层面做出的努力。

(4)英特尔Knights Mill芯片:专为机器深度学习设计,可独自充当处理器2016年8月17日,英特尔数据中心集团执行副总裁戴安·布莱恩特在开发者大会(IDF)上宣布,将在2017年推出专为机器深度学习设计的芯片,XeonPhi家族新成员,代号KnightsMill。

KnightsMill芯片可以独自充当处理器,不再需要单独的主机处理器和辅助处理器,可以直接接入RAM系统;英伟达的GPU和谷歌的TPU芯片,都是辅助处理器,必须和CPU一起工作。

英特尔XeonPhi家族成员


Xeon Phi是Intel针对高性能计算市场推出的加速卡,主要与NVIDIA的Tesla、AMD的FireProS等产品竞争,不过后两者是基于GPU的,而XeonPhi是X86众核架构的。XeonPhi目前已经发展了三代,第一代KnightsCorner,22nm工艺,最多61个核心,浮点性能1TFLOPS;第二代是KnightsLanding,14nm工艺,最多72核心,浮点性能3+TFLOPS;英特尔于2014年宣布第三代KnightsHill,制程工艺升级到10nm。

(5)中星微电子“星光智能一号”芯片:全球首颗具备深度学习人工智能的嵌入式视频采集压缩编码系统级芯片中星微在今年6月20日,率先推出中国首款嵌入式神经网络处理器芯片,这是全球首颗具备深度学习人工智能的嵌入式视频采集压缩编码系统级芯片,并取名“星光智能一号”。这款基于深度学习的芯片运用在人脸识别上,最高能达到98%的准确率,超过人眼的识别率。该芯片于今年3月6日实现量产,目前出货量为十几万件。


中星微电子“星光智能一号”芯片和主板


NPU采用了“数据驱动”并行计算的架构,单颗NPU(28nm)能耗仅为400mW,极大地提升了计算能力与功耗的比例,可以广泛应用于高清视频监控、智能驾驶辅助、无人机、机器人等嵌入式机器视觉领域。

中星微的“星光智能一号”与IBM人工神经元相比,共同之处是,都是属于受到生物人脑机理的启发而通过半导体电路与器件去实现的,都是采用CMOS半导体工艺来生产的。而不同之处在于,所采用的架构和实现方式不同,前者采用卷积型架构,用数据驱动的并行数字电路来实现,后者采用脉冲型架构,用数模混合电路来实现。

(6)寒武纪“DianNao”芯片:世界上第一款深度学习处理器芯片2016年3月,中国科学院计算技术研究所发布了全球首个能够“深度学习”的“神经网络”处理器芯片,名为“寒武纪”。



陈云霁(左)与陈天石(右)


寒武纪不是用来代替CPU中央处理器的颠覆式革命,更像是一款针对智能认知等应用的专用芯片,优势集中在人脸识别、声音识别等人工智能方面。

目前,寒武纪系列已包含三种原型处理器结构:寒武纪1号(英文名DianNao,面向神经网络的原型处理器结构);寒武纪2号(英文名Da Dian Nao,面向大规模神经网络);寒武纪3号(英文名Pu Dian Nao,面向多种机器学习算法)。


Dian Nao是寒武纪系列的第一个原型处理器结构,包含一个处理器核,主频为0.98GHz,峰值性能达每秒4520亿次神经网络基本运算,65nm工艺下功耗为0.485W,面积3.02mm2。在若干代表性神经网络上的实验结果表明,DianNao的平均性能超过主流CPU核的100倍,但是面积和功耗仅为1/10,效能提升可达三个数量级;DianNao的平均性能与主流GPGPU相当,但面积和功耗仅为主流GPGPU百分之一量级。


Dian Nao结构


要降低处理器功耗,仅仅降低运算功耗是不够的,必须优化片上数据搬运。中科院计算所提出对神经网络进行分块处理,将不同类型的数据块存放在不同的片上RAM中,并建立理论模型来刻画RAM与RAM、RAM与运算部件、RAM与内存之间搬运次数,进而优化神经网络运算所需的数据搬运次数。相对于CPU/GPU上基于cache层次的数据搬运,DianNao可将数据搬运减少10~30倍。

Da Dian Nao在Dian Nao的基础上进一步扩大了处理器的规模,包含16个处理器核和更大的片上存储,并支持多处理器芯片间直接高速互连,避免了高昂的内存访问开销。在28nm工艺下,DaDianNao的主频为606MHz,面积67.7mm2,功耗约16W。单芯片性能超过了主流GPU的21倍,而能耗仅为主流GPU的1/330。64芯片组成的高效能计算系统较主流GPU的性能提升甚至可达450倍,但总能耗仅为1/150。


虽然神经网络已成为模式识别等领域的主流算法,但用户很多时候可能倾向于使用其他一些经典的机器学习算法。例如程序化交易中经常使用线性回归这类可解释性好、复杂度低的算法。在此背景下,寒武纪3号多用途机器学习处理器PuDianNao应运而生,当前已可支持k-最近邻、k-均值、朴素贝叶斯、线性回归、支持向量机、决策树、神经网络等近十种代表性机器学习算法。

Pu Dian Nao的主频为1GHz,峰值性能达每秒10560亿次基本操作,面积3.51mm2,功耗为0.596W(65nm工艺下)。


Pu Dian Nao运行上述机器学习算法时的平均性能与主流GPGPU相当,但面积和功耗仅为主流GPGPU百分之一量级。


Pu Dian Nao结构


芯片是人工智能时代的战略制高点从传统芯片巨头到互联网巨头,以及一些新锐企业,都在大力发展人工智能芯片。因为芯片作为人工智能的上游产业将走在行业发展前沿,未来几乎所有的智能化应用场景,都将离不开人工智能芯片和软件。可以说,核心芯片是人工智能时代的战略制高点。


人工智能芯片对比


   人工智能应用:“人工智能+”时代呼啸而来

人工智能就像一列火车,它临近时你听到了轰隆隆的声音,你在不断期待着它的到来。它终于到了,一闪而过,随后便远远地把你抛在身后。专用人工智能在某种程度上是通用人工智能的基石。无论是多任务学习、迁移学习、在线学习、增强学习,都是专用人工智能向通用人工智能的有益尝试。专用人工智能与通用人工智能之间没有明确的界限,人工智能算法的专用性是相对的。目前深度学习能够解决的任务越来越多,其模型和学习算法越来越趋同,Deepmind的强化学习能够学习多种多样的游戏,都可以认为是专用人工智能模式的通用化尝试。

   制造业:人工智能有望推动半自动化生产到全自动化生产的飞跃

人工智能将催生全自动化智能生产:经过几十年的发展,制造业已经实现了一定程度的自动化生产,但大多还只能归为半自动化生产的程度,无法完全脱离人工的参与。但人工智能技术的进步将为制造业的进一步自动化以及提升生产效率和准确性做出贡献,在未来有望彻底取代人工环节,实现半自动化智能工厂到全自动化智能工厂的质的飞跃。


人工智能将催生全自动化智能生产工厂


西门子安贝格工厂,最接近全自动化的智能工厂:西门子安贝格电子制造工厂是被认为最接近工业4.0概念雏形的工厂。虽然早在1989年便已设立,但通过不断升级改造,截止2015年该工厂的产能较1989年提升了8倍,合格率提高了40倍。


安贝格工厂超过3亿个元器件都有自己的“身份证”,每当一个元件进入烘烤箱时,机器会自动判断并使用相应的烘烤温度、烘烤时长,并判断哪一种元件应该在下一个进入烘箱,实现动态调节生产参数。值得一提的是,安贝格工厂自动化率已达近75%,只有生产过程的开头部分需要人工参与,产品可与生产设备通信,然后通过IT系统集中控制和调节所有生产流程,使产品合格率达到99.9988%。

   金融:关注投资决策辅助、信用风控、与智能支付

人工智能技术在金融领域的应用具有十分巨大的想象空间,并且很多应用还处在起步阶段,无论从技术角度还是普及程度看,都有很大的提升空间。可能的应用包括但不限于:投资决策辅助,实现信息的智能筛选与处理:核心价值在于帮助金融从业人员迅速找到自己想要的信息,以及利用大数据引擎技术、自然语义分析技术等自动准确地分析与预测各市场的行情走向。


典型的案例是美国的Alpha Sense公司,它是一款针对金融从业人员的智能搜索引擎,可以帮他们排除不相关的谷歌搜索结果。AlphaSense搜索数据库涵盖了自有客户的内部数据,同时还有数以千计的外部来源,包括超过1,000家卖方研究机构和超过35,000家上市公司,如券商研究,SEC提交的文件和新闻稿特许财务数据。AlphaSense可以利用自然语言处理和搜索技术,简化寻找和追踪最相关的信息。同时可以帮助用户快速查找和发现关键数据点,跟踪与智能提醒有用的新信息,可以有效提升决策效率。

AlphaSense智能搜索帮助提高投资决策效率


信用风险管控:人工智能也能帮助建立金融风控平台,有助于投资项目的风险分析和决策、个人征信评级、信用卡管理。如LendingClub作为全世界著名的P2P网贷上市公司,在审核借款人信用等级时可以做到自动决策,如果借款人通过了审核,LC会生成给出批贷或者不批贷的借款人,并且自动确定借款人的借款利率,然后借款人可以通过登录网站选择接受或者不接受贷款条件,在信用评级这一块,Lending Club还运用了Facebook来挖掘用户的日常行为信息作为信用评级的考评手段之一。


同时,在出借人端,Lending Club还具有自动投标功能,用户只需提前设定好其希望投资的标的利率,然后平台自动将其资金投资到与用户设定的利率相匹配的“贷款包”中,以分散风险。


Lending Club的智能风控模式


智能支付:利用图像识别或语音识别,实现“刷脸支付”或者“语音支付”。2015年3月,马云在CeBIT开幕式上演示了一项叫做SmiletoPay的扫脸技术,在购物的最后一个阶段扫描人脸即可支付,识别率超过99%,这项技术是由蚂蚁金服与Face++Financial合作研发的。2015年4月,百度钱包在全球移动互联网大会上展示了语音支付功能,在支付环节,手机上会出现一串随机验证码,用户用语音念出这串验证码后即可支付。

   无人驾驶:技术突破、立法加快,人工智能决定可靠性

无人驾驶技术最初的发展从减少、防止机动车事故开始。从1950年至2000年,OEM车厂和Tier1的零部件制造商对车辆发明、生产了许多结构性的改进。最核心的就是四大安全系统:安全带,防抱死制动系统(ABS),安全气囊和电子稳定控制(ESC)。

从2000年至今,汽车行业推出了一系列高级驾驶辅助系统(Advanced Driver Assistant System,ADAS)功能。从2000年的夜视仪、前方碰撞预警(Forward collision warning,FCW),到2002年的后置摄像头、泊车辅助(Parkassist,PA),到2005年的车道偏离预警(Lane departure warning,LDW),到2006年的自适应前照灯系统(Adaptive front lights,AFS)、自动泊车(Automatic parking,AP)、盲点探测系统(Blind spot detection,BSD),到2007年的全景可视系统(Surround view systems,SVS),到2008年的前方碰撞辅助(Forward collision assist,FCA),到2010年的瞌睡警示Drowsinessalert,到2014年的车道保持辅助(Lane departure assist,LKA)。通过一系列的ADAS功能进一步地减少、防止机动车事故。

2016年以后,部分无人驾驶的功能如单车道自动驾驶、交通拥堵环境下的自动驾驶、车道变化自动驾驶、城市自动驾驶等等有望逐步实现。再进一步过多到完全无人驾驶。


无人驾驶技术发展历程的四个阶段


无人驾驶关键技术正在突破:无人驾驶技术是一个涉及传感器、计算机、信息通讯、自动控制、导航定位、机器视觉、人工智能等多诸多前沿学科的综合技术。根据无人驾驶的职能模块,可将无人驾驶的关键技术分为:环境感知技术、定位导航技术、路径规划技术和决策控制技术。

环境感知技术是通过多种传感器对车辆周围的环境信息进行感知。环境信息不仅包括了车辆自身状态信息,如车辆速度、转向度、位置信息、倾角、加速度等,还包括四周环境信息,如道路位置、道路方向、障碍物位置和速度、交通标志等。

定位导航技术主要包括定位技术和导航技术。定位技术可以分为相对定位(如陀螺仪、里程计算)、绝对定位(如GPS)和组合定位。导航技术可以分为基于地图的导航和不基于地图的导航(如惯性导航)。其中高精度地图在无人驾驶的导航中起关键作用。


无人驾驶的关键技术


路径规划技术可以为无人驾驶提供最优的行车路径。无人驾驶车在行驶过程中,行车路线的确定、如何躲避障碍物、路口转向等问题都需要通过路径规划技术完成。据适用范围不同,路径规划技术通常可分为全局路径规划和局部路径规划。

决策控制技术相当于智能车的大脑,它通过综合分析环境感知系统提供的信息,对当前的车辆行为产生决策。决策技术还需要考虑车辆的机械特性、动力特性,出合理的控制策略。常用的决策技术有机器学习、神经网络、贝叶斯网络、模糊逻辑等。根据决策技术的不同,控制系统可分为反射式、反应式和综合式。

随着无人驾驶技术的不断发展演进,对无人驾驶的立法变得十分重要。截至2015年,美国已经有16个州启动无人驾驶立法;截至2014年是12个州,截至2013年是9个州,截至2012年是6个州。


截至2015年,美国已经有16个州启动无人驾驶立法


“无人汽车大脑”人工智能的智能程度决定了无人驾驶的可靠性:由于无人驾驶完全交由汽车的内置程序负责,因此人工智能就是无人汽车的大脑,而测距仪、雷达、传感器、GPS等设备都是人工智能的“眼睛”。人工智能的智能程度直接决定了无人驾驶汽车在不同的路况、不同的天气、甚至一些探测设备出现故障的突发情况下能否及时做出正确的判断并灵活调整行驶策略,最终决定了无人驾驶汽车当前最亟待突破的可靠性。NVIDIA在2016年的CES大会上发布了“DrivePX2”车载计算机,以及一套与之搭配的具有学习功能的自动驾驶系统。


NVIDIA具有学习功能的自动驾驶系统


该系统的亮点在于“自我学习”,通过让车辆自行分析路面状况,而不是在数据库中寻找预先储存的策略实现自动驾驶,系统背后连接着名为NVIDIADIGITS的深度学习训练平台,最终连接到NVIDIADRIVENET神经网络,为车辆的自我学习和完善提供支持。并且由于它是通过判断物体的行进轨迹而不是物体本身去计算路径,因此在驾驶时受天气影响较小。


2016年10月20日,马斯克在电话发布会中宣布,所有特斯拉新车将装配『具有全自动驾驶功能』的硬件系统——Autopilot 2.0。这套系统包括8个摄像机、12个超声波传感器以及一个前向探测雷达。摄像机将提供360度的视角,最大识别距离250米!


汽车的『眼睛』和『大脑』正在快速进化,眼观六路、耳听八方,计算能力更是实现了1 Terraflop(相当于80个处理器内核)的计算能力,远超普通的电脑。




  • 3个前置摄像头(不同视角,广角、长焦、中等)


  • 2个侧边摄像头(一左一右)


  • 3个后置摄像头


  • 12个超声波传感器(传感距离增加一倍)


  • 1个前置雷达(增强版)


  • 1个后置倒车摄像头


  • 处理芯片:NVIDIA PX2(40倍于Autopilot 1.0处理速度)


人们驾驶的技能,将会像男耕女织、操作缝纫机、做木工手艺活一样,逐步离开大众,成为一些专业技能和个人爱好。 


假以时日,人工智能将会像一场无可阻挡的风暴,席卷你我的生活。而最佳的选择,不是去抗拒,而是,与风暴共舞!


参考资料:

招商证券:人工智能专题:“人工智能”时代呼啸而来"

安信证券:计算机深度学习-人工智能的“神奇魔杖”

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存