查看原文
其他

120位博士,每天签下1单,这是商汤做「AI生意」的底气

2017-09-30 王艺 机器之能

成立 3 年、B 轮融资 4.1 亿美元(全球人工智能领域单轮融资最高纪录)、拥有 120 位博士、平均每天签下 1 单,专注于计算机视觉(CV)领域深度学习技术的商汤科技是如何炼成的?


撰文 | 王艺


今年 8 月底,苏宁在南京开出全国首家真实投入运营的无人店——苏宁体育 Biu。在这家面积约 40 平米的体育服饰和产品商店里,陈列了 90-100 种商品。当消费者在苏宁金融 APP 绑定人脸信息 ,进店时只需要抬头刷脸,挑选好心仪的商品后,在付款闸门前停留一下即可离开,在这几秒钟时间,系统会自动识别顾客信息及商品信息并扣费。

对苏宁而言,这套系统可以让线下门店也像电商平台那样获得数据实现精准化营销。配套安装在店内的两个摄像头能把顾客挑选商品的行为捕捉记录下来,比如顾客是男是女、年龄范围、行走路径、在哪里停留、挑选了什么商品等信息,由此可以辅助判断某位顾客的消费偏好。

这背后需要大量 CV 技术的支撑,还包括商品信息识别融合使用 RFID(射频识别)技术,并部分辅以 CV 技术。这家无人店不仅仅是苏宁智慧零售的第一个尝试,同样也是背后技术提供方商汤科技(下简称「商汤」)探索 AI 技术链接零售行业的第一步。


商汤科技联合创始人、CEO徐立博士


成立于 2014 年的商汤,是今年 7 月人工智能领域天价融资的主角 (获投 4.1 亿美元 B 轮融资)。

仅用了 3 年,商汤团队就从 30 人扩张到 700 人,其中有120 位拥有博士头衔。另外值得一提的是,商汤也是国内高质量专利最多、专业学术论文发表数量最多的人工智能企业。特别是在 2015~2017 年,商汤在 CVPR、ICCV 和 ECCV 全球三大计算机视觉顶级会议上与香港中大-商汤科技联合实验室共同发表的论文共超过 70 篇。

从商业角度来看,商汤把自己的业务模式称作 1+1+X:

两个 1 分别表示学术研发及产业结合,X 则代表技术赋能。正如公式所表述的,商汤希望通过与各垂直场景下的产业结合,将 CV 技术下沉到人们的日常生活。

然而,技术向商业场景的转化并不如说的那么容易。

直到 2015 年 9 月,商汤才迎来公司成立后的第一波机会——开始与一些银行以及 P2P 公司接洽,并逐步签下几个千万级别的合同。实际上,在没接到单子之前,商汤一直在不停地拿需求、做产品,然后发现产品根本无法满足需求,就继续对产品进行更新迭代……以此循环往复。

三年后的今天,商汤发展客户的速度,已经变成每个工作日签下一单。基于 CV 技术的 产品数量也从单一品类扩展为10 余款从不同垂直场景切入的产品:

从一开始做的为智能手机提供人脸识别、人脸解锁、美颜功能等技术支持,再到为安防及监控领域提供人车识别、安防布控、身份核验等技术方案,亦或者是为人脸识别闸机、身份验证一体机、以及智能广告机等智能终端设备提供成套解决方案,商汤的技术商用道路已经拓展到了一定的宽度。

徐立将商汤的技术方案比做乐高积木,它们既可以任意累加,又可以单独使用,也允许别人继续在上面搭其他积木。而现在,商汤想做的事情是进一步下沉到各个传统行业中去,针对他们的业务需求提供不同的解决方案,让他们将商汤的底层模块运用到极致。

CV 落地新零售,「你是谁」才是要解决的问题

目前,市面上的无人店主要有几类:自助化售货模式、进店及结账等消费环节智能化模式、消费和购买行为全面智能化追踪的模式。

虽然这些模式智能化的程度不同,但它们在店面大小、客容量、可售买的商品类别方面都受到限制。实际上,无人店的终极形态应该是这样一番场景:顾客通过语音及姿势与商店及货物进行无障碍交互,且整个店面的大小与客流数将不再受限。

而开头提到的苏宁无人体育商店 Biu,其运用的 CV 技术就来自商汤的 SenseGo 智慧商业解决方案。

据商汤科技联合创始人、副总裁杨帆介绍,应用在无人商店垂直场景中的人脸识别技术,必须做到「快」、「准」、「稳」。而在商汤的这套解决方案中,从消费者入店识别到走入闸门,通过扫描人脸完成身份确认的时间不超过 0.5 秒。与此同时,这套系统也能完全应对无人商店内部的复杂结构与个人行为差异。

另外,对零售商来说,技术改造的门槛低才具备可复制性的条件。商汤告诉机器之能,在与苏宁的合作中,苏宁体育 Biu 的系统研发耗时不到 8 个月,门店搭建及装饰在一天之内即可完成。因此,苏宁还计划在北京、上海、成都等地陆续「苏宁超市 Biu 」、「苏宁极物 Biu 」等其他主题无人店。

事实上,除了苏宁体育 Biu 场景中所涉及到的 CV 应用外,商汤还把技术用在了实体店内的导购环节。举个例子,通过智能显示屏,门店可以对来回走动的客户进行因人而异的商品推荐,实现精准下单。

总而言之,依靠技术,传统零售也能像互联网电商平台一样与顾客进行个性化交互,并同时获得宝贵的优质数据资源,譬如消费者群体分布、活动轨迹、到访记录、消费行为及喜好等诸多详细信息。商汤认为,在客单价较高但服务成本同样很高的销售场景中,如售楼处、汽车 4S 店等地,对进店顾客行为进行「跟踪」能够促成更多商业价值的转化。

商汤科技 SenseGo智慧商业解决方案


譬如,进出售楼处两次以上的客人,很有可能抱着相对更大的购房意愿。因此,智能化门店可以通过数据分析将其设为 VIP,提供更精准的服务,比如为他们开启短信提醒服务,进行更精准的定向推送。这在某种程度上,对销售提高业务量有很大的帮助。

「现在很多商店都有各种各样的问题,譬如东西应该怎么摆,才能更有效,才能更好吸引客流。」徐立说出了传统实体商店的困惑,「实际上,店家的很多数据都没用上。这些数据都可以经过精确计算给他们一个好的答案,从而制定出更精准的营销策略。」

从合作方苏宁的角度来看,作为国内零售行业巨头,他拥有线下丰富的销售入口,有能力为商汤的 CV 技术提供了落地场景。徐立很确定,这种应用就是其一直强调的 1+1+X 业务模式。其中,第二个 1 所代表的,就是与苏宁这类传统零售产业的结构化融合。

不过,徐立也毫不避讳揭开 CV 技术的落地难点:

「手机支付以及银行信息核对等场景是 1:1 的比对,需要解决的问题是『你是你』,是简单的对比分析,相对容易。与之相比,在新零售领域需要解决的问题是『你是谁』。这个问题更为复杂,因为其决定性因素在于商家的信息池有多大。

譬如,一家美容院有一千位顾客,那么当一位顾客进店时,系统需要在一千份人脸信息中进行查找。假设这样一种极端情况——如果该商家的客户池是全世界的人口,由于池中信息太多,以现在的技术水平来看,准确率还不能尽如人意。」

让 CV 技术紧贴各行各业

除了新零售,商汤其他涉及到 CV 应用的解决方案也找到了属于自己的「落脚点」,其每一款产品都非常有针对性地对应一个功能。

譬如,在 CV 最初的应用场景——安防领域,这项技术可以有效地在火车站、机场等人流密集地带,对监控探头拍摄到的画面进行实时分析,也能通过人群流动情况来有效预警踩踏事件。

当然,商汤在安防领域取得的成绩很有效地证明这一应用:曾在 40 天内,为重庆某个区识别出 69 名嫌犯。此外,仅在 2017年上半年,商汤就为广州省当地公安机关成功破获了 200 多起案件。

除了对人进行识别外,汽车与非机动车的图像识别也是商汤的业务重点。

徐立称,在商汤的这类 CV 产品中,汽车有 4000 多种车型标记,而道路上的行人也被标注了 40 种属性。原因就在于,对这些特征进行识别、描述、结构化梳理,能够降低监控视频的存储空间。

「在未来,监控视频的存储方式为一个个结构化条目,这些条目能够很好地被恢复成人、车、非机动车的轨迹,通过自然语言进行管理。」


商汤科技SenseVideo视频结构化服务器


此外,城市服务也被徐立视为长期的商业场景落地目标。

「商汤用了 2 年时间,帮中国移动的用户完成了三亿用户的实名认证。」他说,「目前,业内对智慧城市的认知还处在较为模糊的状态,但从工业城市到智慧城市的发展是必然趋势,这其中的关键在于城市服务水平的提升,而 CV 技术能够起到很大的作用。」

人们日常生活中最离不开的手机也同样是 CV 技术最为直接的应用。

近几年来,许多自拍 APP,以及新浪微博、抖音等社交平台纷纷为自己的拍照功能及短视频添加各种夸张特效,以此吸引到了大批用户。其中,最有代表性也是首批推出人脸特效的 Faceu(脸萌), 便采用了商汤 CV 技术。


商汤科技SenseAR增强现实绘制平台


此外,CV 技术也能让手机用户更轻松地查找照片,通过人脸识别、物体识别对图像进行索引,能够触发很多附加价值。例如,在手机中的照片被重新培训标注后,新生儿妈妈们就能在手机上设置「每天自动更换宝宝照片作为屏保」。另外,双摄像头手机优秀的拍照效果也得益于 CV 技术,通过图像处理,手机拍照能够与单反相机一样具备景深及背景虚化功能。

当然,苹果本月推出的具备「刷脸功能」 的 iPhone X ,也将 CV 技术推向风口浪尖。而国内手机厂商,如华为、小米等等,此前也纷纷加入了刷脸大军。而徐立分析,在全屏时代到来,指纹识别模块无处安放的情况下,刷脸解锁将成为未来一段时间内的主流。根据他的透露,目前商汤正在与多家主流手机厂商合作,为他们提供刷脸解锁与支付相关的 CV 技术。

那么,安全问题如何解决?

徐立认为,由于人脸的特征维度颇为丰富,因此相较于指纹解锁,其解锁准确率更高。实际上,人脸解锁技术在一年前就已经达到能够商用的程度,而且当时的解决方案中就已经包含活体检测技术。

「经过一年多的测试与打磨,刷脸技术其实能够达到相应的安全性需求。此外,个人手机与无处不在的摄像头不仅不会威胁到个人隐私,反而会对其加以保护。人脸识别技术能够将你的人脸信息转化成一串不可逆的代码,不再被以影像的形式存储。」

当然,新技术的出现总是会受到质疑。徐立提到一个现象——商汤在早期做互联网金融领域的解锁应用时,每天 100 万次的调用中,有 20 万次是「攻击行为」。即使是苹果推出刷脸解锁功能后,受到的攻击也比传统密码时代高 60 倍。

「这是历史发展的必然,指纹支付出现时也遭到了这样的攻击,但刷脸技术一定会经得起时间的考验。」

CV 技术为带来的商业与社会变革还不止于此。徐立认为,视频方面 CV 技术的突破将对整个搜索及电商营销模式带来彻底的变革。如果视频识别与理解技术最终达标,那么其不仅可以连接电商、社交游戏,还能够改变搜索业,成为新的交互入口。

徐立预计:「五年之后,手机中的 APP,要么转型,要么被颠覆。」

目前,商汤称自己掌握着短视频和直播行业的标杆性解决方案,为直播平台提供智能化的特效、脸部关键点定位等技术。特别是在关键点定位方面,学术界曾经使用眼睛、鼻子、嘴角等 5 点定位技术,并逐渐发展为至 21 个点。而早在两年前,商汤就率先提出 106 点的定位,并成为业内通用标准。

今年 8 月,商汤进一步提出了 240 点定位,解决了以往技术方案中诸多不能很好完成的问题,譬如「撇嘴」、「睁一只眼闭一只眼」等丰富复杂的人脸表情都可以被精准地识别,同时也能够满足这项应用在主流手机上实时运行的需求。

技术的底气

徐立认为,这一波人工智能的兴起,对于普罗大众而言,虽然像是一夜之间火起来,但实际上,真正的驱动力是核心的引擎和算法,深度学习颠覆传统算法模式之后,才带来了这一波能力的突破。

「在这个过程中,你要真正掌握核心能力,需要有 5-7 年的积累。」

在徐立看来,核心能力的积累过程中,最重要一环是招揽足够优秀的人才。人才代表了企业的核心实力,高质量的团队能够帮助公司在一定程度上垄断市场。徐立以当初谷歌豪掷 4 亿英镑收购 DeepMind 为例,认为谷歌收购的其实是 DeepMind 背后的 12 位博士,这些人成就了 AlphaGo。

徐立认为,一名 AI 人才的成熟也需要 5-7 年的积累 。他希望公司能够尽可能多地「收集」市场上已经成熟的 AI 人才。他还提到,公司将大约一半的资金投入到人才招聘方面,已经有了一支 120 人组成的博士队伍。

「我们当时融资只融了 2 千万美金,最后发现人工智能这本账其实是人才的账。你把真的能做『大脑』设计、底层算法研究的人才市场垄断了,那么行业再培养一批人就还需要 5 年时间。在这段时间里,你就有足够的时间窗口做到行业领先。」徐立说。

但技术人才的储备与管理也有明显的挑战。由于目前 AI 行业技术人才大多从学术界引入,与业界需要面对复杂的用户需求不同,学术界擅长把问题限定在某个明确条件下去解决。因此,学术与应用层之间的「鸿沟」是需要被弥补的。

为了弥补这一断层,商汤建立起了自己的人才造血机制,以优秀的员工为导师,从零开始培养人才。徐立谈到,商汤有很多刚毕业的学生,放弃读博直接来到商汤做研究,因为他们认为做实际应用的产品远比在学校中的研究更有趣。

另一个商汤招揽足够多人才的目的,是要打造自主研发的底层深度学习技术平台。虽然在当下的创业大环境中,花大力气去研发底层平台是大多数创业公司所避之不及的。但徐立认为,中国的科技公司不能像当年做操作系统的时候一样,有 Linux 就直接在 Linux 基础上打造产品,导致国内这么多年也没有可以媲美 Linux 的操作系统诞生。

同样,在 AI 领域,虽然使用谷歌、Facebook、亚马逊的开源技术是站在巨人肩膀上,可以做到事半功倍。但长远来看,有自己的底层技术才能具备占领市场的底气。

商汤想要让技术取得进步,累积足够多的数据,推动 AI 产业应用落地,最终形成正向的反馈闭环,相互促进。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存