商汤科技CEO徐立:让AI产业化落地,还要靠这双轮驱动?
内容来源:2018年1月19-21日,极客公园创新大会在京召开,商汤科技联合创始人、CEO 徐立博士分享《科技创业与产业融合》。笔记侠作为合作方,经主办方及讲者审阅授权发布。
图片 | Holly 责编 | kay
第 1988篇深度好文:5300 字 | 7 分钟阅读
点此听精华版音频 ↑ 更多精彩内容,还需阅读全文哦~
精选首发·人工智能
本文新鲜度:★★★★★ 口感:科技
笔记君邀您,先思考:
在中世纪,为什么只有贵族才能做科学研究?
科学和产业的交汇点即将出现?
终极的AI是什么?
大家好,我与大家分享科技创业与产业之间的思考。
目前,人工智能浪潮的兴起与很多科学家创业有很大关系,从某种意义上,这是一种科学产业。但这只是最近几年才发生的。
在我读书的时候,有一个段子:我们要去读博士,很多海外名校教授说,其实读博士不是一个致富的路径,一般是有钱了再去读博士、做科学家,与做科学家是为了有钱,这两个逻辑是反的。
还有一个事实是,在中世纪,基本上只有贵族才能做真正的科学研究,因为科学和产业之间的矛盾和冲突非常大,它们是两个截然不同的点。
我们定义了科学家:认真做科学研究,专注于技术、基础理论的突破。
从100 年前到现在,很多时候,很多理论得到了创新和发展,但是真正意义上能够和产业结合的很少,我们大家耳熟能详各种各样的科学家,但科学真正意义上的成功,都与最后的产业落地相距较远,产业关注什么事情?
关注真正的盈利能力、标准化、快速变现、解决方案……真正的产业,实际上来自于市场的需求。
所以,科学和产业还是背道而驰的,完全不一样的概念。但现在这个阶段,这两条线似乎走到了交叉路口。那么,到底什么事情使得科学和产业能够交汇在一起?
我觉得很关键的一点是,科学和产业的交汇点是双轮驱动的。
一、双轮驱动科学与产业交汇
什么是双轮驱动?
第一,技术突破是增量性的。
通常情况下,技术核心突破来得快一点,而科学发展会有几年是平稳的,也就是说,理论研究非常重要,但是未必能够真正被应用到我们认为的、认知的商业上去。
而科技有时是跳跃式发展的,它不是直线性、增量性的。
比如说,人工智能的这一轮突破,从某种意义上,就是把传统的人工指导的智能,转化成纯数据驱动的智能,包括我们现在耳熟能详的深度学习、基于深度学习的纯数据驱动方法在内,都是颠覆式的变化,而不是一个增量式的变化。
也只有在这种状态下,才能够带来完全不同的新生产力。
第二,产业需要具备怎样的条件?
刚才我举例说,目前的人工智能是颠覆式的科技发展,其实这样颠覆性的发展在历史上也发生过,比如一些新材料、新能源的发现,但是它们在真正意义上未必等价于能进行产业变现与变化。
例如钨丝,发现很久了,但真正被用到灯泡里作为一个灯,需要从现实的场景倒推到材料的突破和材料的革命,这是一个非常重要的点。(笔记书堂推荐《我们如何走到今天·重塑世界的6项创新》,书中集中讲述了科技发明史中成功变化为产业的6项发明。文末有售。)
那么,从产业界角度,到底什么是重要的呢?
二、科技的产业现状与发展
从产业的角度,在于产业的需求是否在真正意义上到达了爆发的临界点,也就是大众是否已经被足够好的教育过了,这个科学技术是否已经可以普罗大众。
因为,科技进步能够带来的是颠覆式的劳动力、生产力;同时,如果市场被教育了,能够带来的是被大家认知的需求。
有了这两样要素,我们就觉得科学技术的推进与产业的变化能够合在一起了,可以引领人类进步、改变人类生活。
商汤科技关注的是计算机视觉、人工智能眼睛的部分。我们希望能够帮人看清、看懂这个世界,从这个角度来讲,科学家到底在做什么?
未来,科学家的延展方向很大程度上在于感知层面。
我们能否知道、看清核心与本质,在于是否有更好的感知能力,而感知的能力不仅可以从硬件的角度突破,算法、理论,以及背后的支撑都可以带来突破感知能力核心的机会。
从之前到现在,大部分的感受器处理的都是可见光,这一两年,感受器在视觉领域已经从可见光转到了不可见光,我们可以有 UV 摄像头,可以有远红外、近红外摄像头,甚至还有各种热敏摄像头,打开了一个完全不一样的应用范畴。
举个例子:
iPhone X 支持人脸解锁或支付,就是感知能力从可见光转到近红外的体现。
在近红外的情况下,我们可以做到更好地识别真人、更好地验证,所以给真正的支付,也就是打通线上线下场景起到了保驾护航作用。
我们还可以看到,现在路面上的摄像头也很多,很多人认为到了晚上摄像头就看不到了,实际上摄像头的感知能力已经达到了星光级,甚至是极光级了,也就是在非常黑的情况下都可以有非常完美的成像。
地上的摄像头如此,天上的摄像头也是如此(此处指遥感相关设备)。
商汤科技一直认为,目前来看,行业发展空间最大的是地面摄像头的应用,但是未来,天上的摄像头越来越多的情况下,大家都会面临同样的处理数据问题,所以遥感成像很早就用了超能力的超感知。
遥感影像可以有各种不同光谱,可以检测云、雪,区分地块,可以对不同的区域进行不同的处理,把不同景别的数据进行连接和拼接。
所以,这是在可见光范畴之内的延伸,科技进步令我们在基础的感知能力上有了核心的提升。
另外,人感知场景是 3D 立体的,而图片永远是 2D 的,在这方面,从 2D 到 2.5D 到 3D 的延伸给我们的应用带来了非常不一样的变化。
我们一直认为这样对场景进行感知带来的是新的交互能力,而交互能力的改变一直是互联网革命的开始。
大家是否记得 iPhone 手机刚出滑动式交互的时候有一款非常火爆的游戏叫《愤怒的小鸟》?它火爆是因为它设计的理念非常吻合手机的人机交互的模式。
所以当我们的感知系统可以更好地感知 3D,可以把 3D 场景中的物体更好地呈现出来的时候,下一个新交互模式就有可能产生了,就是基于新的 3D 感知以及 AR/VR/MR 等技术的。
试想一下,如果未来利用单个摄像头的手机,就能给大家带来不一样的 3D 体验,那么2018 、2019 年一定会产生越来越多的基于与现实更完整融合的游戏场景、社交场景。所以,科学家做的是感知能力提升的概念。
三、科学家做大数据的先天不足
从理论基础来说,我们发现科学家做大数据驱动人工智能的时候有很多先天性不足,目前来看,缺少可解的事情。
如果说以前是由人指导的智能,就是我们用大数据做统计学习,会在统计学习的过程中加很多先验知识。
例如,我们认为在座的人的年龄分布是均匀分布的,或者是正态分布,这个分布情况是人为加的先验。在某种意义上,先验对于预测是有很大的指导作用的。
但是,当数据越来越大,人不对这个数据做先验假设了,所有的规律都要智能从数据中自己学出来,这种情况会带来一个问题,产生一个很大的缺陷:缺少可解释性。
所以,在大数据角度,我们真正意义上要解决的问题之一是,我们可能需要对数据、机器认知的内容给出更多的标注,也就是一些正确答案,但并不是所有的事物都有正确答案,所以我们还缺少用于监督的信息。
举例:
A 正向学习
在一些特定的场景下,如我们遇到过一个医疗场景的需要,一个医院研究所有两个国家级的老专家,能够通过片子看出早期疾病,老专家希望把知识传授给电脑,他们问我们能不能做这样的事。
机器目前能做的是做一些定义非常清晰的概念,这是不是早期的某种病患事情本身是定义非常清晰的,可惜的是样本数太少。
要做这样的训练通常需要一百万的数据。香港医生一天阅片不能超过 8 张(超过 8 张称之为疲劳阅片,是要上报的)。如果按照老专家一天读 10 张的进度,要 300 年-500 年的诊断才能够提供足够的数据,这件事情在各种意义上难度非凡。
在这种缺乏样本的学习方面,目前的科学家正在顺着理论基础往上查,把原来的问题转化成新的研究问题,譬如说多模态、多任务的学习,弱监督、无监督的学习,甚至是做在没有样本的情况下迁移样本、生成样本的学习。
B 逆向打通
我可以通过增强学习来帮助我们打通。例如我们现在已经可以用一句描述形成一张照片:小鸟有白色的胸部、浅灰色的头部和黑色的翅膀和尾巴。机器生成了一张照片,也就是说世界上不存在这只鸟。
这就说明,我们已经可以逆向打通这个环节:从文本描述生成样本数据、样本案例。
继续推演,如果能够用文本生成图片,是不是也可以用文本生成视频?导演可能就不用干活了,因为写一个剧本就能生成视频。科学就是把一些原本觉得不可能的事情渐渐变为可能。
大家看到这样的技术后,说不定可以不要轻信朋友圈转发的内容了,因为万事都有可能。
但是,这些科学技术的突破,从感知能力、理论基础的提升角度来说,还与真正的产业有很长的距离。
四、产业界在做哪些事情?
产业的 AI 突破,首先就是“云+端”模式打通:云端就是服务器、计算能力的提升,而端就是从各种设备端,有越来越强的计算能力。
为了迎接 AI 技术的突破,其实有越来越多的设备已经准备好了智能,或者被智能化,目前就看有没有合适的算法放到我的车里、机器人里、手机里……甚至其他各种各样的手持设备上,这个是产业正在发生的有趣的变化。
从我们现在来看,AI 技术应用趋势是多场景、多维联动,全栈式的创新能力,从底层的算法到中间各式各样的技术模块,再到上面提过的核心的应用。
这部分核心应用,在真正意义上,与产业的真实需求,仍然不一样。
我们跟很多企业打过交道,企业说,“我们需要被 AI 化”。
企业还说,为了这个命题,我们找到了一堆问题,我们的人都做不好,是不是可以用 AI 的方法来调整?
我想说,不可能,很难做到。
五、产业界在做哪些事情?
刚才我讲,当一个问题的定义、输入、输出都清晰,并且有人来打通这个流程的时候,用 AI 来替换这些能力,是会比较自然的。
所以 AI 做的事情只是在应用场景当中去提升生产效率。这个事情是能做的,但是如果在人都不知道这件事情该怎么做的情况下,要让 AI 帮助你梳理、归纳、演绎,是非常艰难的。
所以我们需要能够把真实的需求梳理清楚,带到这个行业来。
要做到产业、科学的融合,我觉得有两大块外部要素:
要素一:外部的温度环境。
要素二:工业化角度的“三化”。
首先,外部管理会起非常好的加速、催化作用。
从全球范围看,中国是有史以来第一个从国家层面推动 AI 发展的国家,欧洲、美国大部分国家只是建议去做,但中国是全国推进的。
政策加温、一些白皮书的制订往往会从全民、全国的意义上帮助产业落地。
第二,资本增压。我们看到,在现阶段,资本对于人工智能、技术的拥抱使得这个产业从原始技术核心突破,到工业落地的整个链条都缩短了很多。
第三点,也是很关键的一点,就是资源齐备。
目前来看,计算能力已经达到了一定程度;计算的资源,以及基于的平台、对一些操作系统的研究等,都已经达到了一个点。综上所述,中国的外部环境已经可以让科学向产业进行很好的转化。
从产业本身角度,要做到产业、科学的融合,还需要三个“化”:
第一,技术产品化。
没有AI 企业会真正通过卖技术来变现,这非常难。一个核心技术的突破,就像无中生有一样,所以对它进行商业变现的时候一定要有相应的产品来做载体,这个就是现在大部分企业正在逐步完成的技术产品化进程。
第二,落地规模化。
如果我们要令一个技术形成足够大的、真正意义上影响力,就需要它有规模化能力。
在一个城市、两个城市覆盖没有什么用,我们需要的是快速增长的能力,或者说,如果这些技术能够被标准化地嵌入到某种产品中,那么它的推广就会变得非常成功。
现在,大家使用的很多设备已经搭载了非常多的 AI,比如,现在一些普通的手机摄像头就能够实现单反相机的虚实变化,其实就是 AI 技术落地到手机产品中的集中体现。
第三,场景多元化。
目前,AI 在哪个行业上最能形成行业的急剧变化,并不是很清晰,所以,场景多元化是可以把各个技术端融合,形成好的新技术的方式。
目前的情况有点像第一次工业革命的时候,技术突破了、有很好的蒸汽机,但是如果没有多元化的场景应用,技术距离变现、推进产业革命还是有很长的距离。
当时的应用是:
可以做大规模的工业制造
可以做农业的收割、灌溉
可以做铁路、交通
当时世界上市值大的企业都是做铁路做运输的。
我们目前在公共服务、个人应用,到整个社会管理方面都会有变化。所以从这个角度来看,技术的场景多元化将是这波 AI 落地的核心要素之一。
首先,AI 和个人应用会给大家带来非常多的娱乐化过程。譬如说个人手机相册管理,现在大家拍的照片,已经可以根据人来进行管理,可以将自己的照片、我的朋友、我的小孩,我的家人分成不同的组。
未来,机器将可以根据年龄、亲密程度等更多维度和标签进行切分和梳理。
第二,AI 还可以具有更多的创造元素,例如可以在视频中模拟各种各样的艺术效果,甚至学习梵高、莫奈。
前段时间看到有人模仿齐白石画的虾,我觉得不用模仿了,你可以拍一张真的虾,通过一个算法让照片立刻变成齐白石的风格。
第三,AI 与社会治理还可以深度结合。
现在的极端,整个社会治理方面还没有全盘使用技术,但如果我们从衣、食、住、行的各个方面,甚至从地面到天空的每个角度,都用算法来进行演练和演化的话,就可以做出一个整体化的规划。
比如在出行领域,一方面,车内的 AI 可以帮助无人驾驶、避障、更好地提供导航的服务;另一方面;利用天上的 AI,实时感知地面的情况,可以对道路进行很好的规划,使天和地的连接达到更好的协同作用。
所以,技术突破和场景完全可以有一个很大程度的连接。在不远的未来,很多事情都可能有更好的变化。
六、终极的 AI 是什么?
不是产品,而是公共服务,因为 AI 能到千人千面。AI在未来会做到根据每个人的不同状态给出真正意义上的定制化服务。
最后,我想说,AI 真的可以把每个人的生活变得更好,但科学和产业中间会有很长的路来连接, AI 的落地是一场耐力赛。目前来看,我们处在一个非常好的时代,因为环境正催化连接加速。谢谢大家!
笔记侠爆款好文推荐:
笔记书堂推荐好书:
笔记侠实力好课程:
↓↓一堂用得上的商业课,没有一滴鸡汤 ↓↓↓