离开亚马逊加入阿里巴巴 iDST 之后,任小枫和我们聊了聊| 独家
6 月 28 日,任小枫从西雅图飞回中国,第一站落地北京在优酷参加入职阿里巴巴之后的第一次国内会议。会后,他接受了机器之心的独家专访,从这篇访谈中可以看到这位务实的科学家,如何看待即将展开的新事业、过往学习与工作对自己的影响以及计算机视觉技术的变迁。
撰文 | 刘燕
「最让我动心的,还是阿里是有丰富的业务场景和巨大的用户基数可以帮助技术更快落地,同时阿里人给我的感觉非常棒。」任小枫接受机器之心采访时说。6 月 26 日,任小枫在其个人页面上宣布入职阿里巴巴集团创新机构 iDST ( Institute of Data Science&Technologies ) 任副院长和首席科学家,该机构覆盖了机器学习、大数据挖掘、自然语言处理、移动搜索、多媒体识别等领域,分布在杭州、北京、西雅图、硅谷等地,是阿里巴巴负责人工智能技术研发的核心团队、阿里巴巴 NASA 计划的人工智能大脑。
任小枫先后获浙江大学本科、斯坦福硕士及加州大学伯克利分校博士学位,目前在华盛顿大学计算机科学与工程系任客座教授,值得一提的是,他的博士导师为计算机视觉大师 Jitendra Malik。在担任亚马逊资深主任科学家期间,任小枫领导计算机视觉算法团队,还曾担任过 CVPR、ICCV(顶级计算机视觉会议)领域主席,他的相关论文被引用超过 9000 次。
去年年底,金榕和任小枫第一次接触。在这之前,现任 iDST 院长金榕一直对亚马逊在技术与业务融合方面有很高评价。他在此前接受《李翔商业内参》采访时曾提到,亚马逊跟谷歌不同,亚马逊技术人没那么多,但可以把产品做出影响力,说明他的技术与业务融合非常好。「对于阿里巴巴而言,做一件产品并不是简简单单的技术,产品关系到用户体验,不是简单地做到搜索的高准确度就好。而技术要产生大的影响力,这两个永远都绕不开,怎样在一个商业的环境下怎样影响用户全方位的体验。」
42 岁的任小枫是亚马逊最年轻的资深主任科学家之一,也是 Amazon Go 的项目负责人,更难得的是,他在计算机视觉领域的研究与兴趣广泛,对图像分类,物体识别、跟踪、检测,事件检测有全面且深入的理解。无论是从技术研究及转化还是统领项目方面的能力,他都是一位不可多得的挖角对象。另一个角度看,任小枫在采访中多次谈到自己希望扩展技术应用的范围,也赞同以产品和业务来推动基础技术的研究,这些都与阿里巴巴技术研发理念颇为匹配。而在金榕眼里,阿里巴巴有较好的做事氛围,个人有一定自主空间能够自下而上地驱动一些事情,并且在阿里做一款产品很容易看到每天上百万用户被技术所影响,这些都能拿来说服一些顶级人才。
懂技术且深入理解业务,成为 iDST 过去两年努力的方向,从 2014 年至今,这个团队深入公司业务层面完成了技术与产品思维的粘合。金榕将深入业务团队戏称为「上山下乡」,「一方面我们这些人下乡以后,的确知道劳动人民是干嘛的,我觉得还是很重要的。另外一方面,科技的影响力已经到了关键性的时刻。」
金榕也曾提及,他从 2015 年到现在对整个商业模型有了比较深刻的理解,也就是说,开始从一个技术维度去判断产品好坏,转变到理解技术与用户体验、构建生态的关系。亚马逊推出了 Alexa、Amazon Go,它从一家电商公司变成技术公司,从技术人员匹配数量来讲,远不如谷歌,亚马逊真正做视觉技术的只有 40 人左右,谷歌内部这方面的人有 200 个,由此也可以看到,科技是可以推动根本性改变的,不仅仅让商业做的更好,而且有拓展商业边界的能力。
这支隶属于阿里巴巴集团、通过阿里云向外部输送技术的独立团队,其规模仍在壮大,在基础技术研究上的突破也不容小觑。据了解,目前直接向金榕汇报的负责人有 14 个左右,他们各自都拥有一支研发团队。像语音团队的人数,差不多有百人的规模。每一个研发团队,都由一位份量极重的科学家领导。比如,鲜少公开露面的朱胜火,主要研究机器学习与优化算法,关注的应用方向包括机器视觉、搜索推荐、自然语言处理、分布系统、物流。金榕称,「没有什么算法能难倒他」。
2014 年加入阿里巴巴的司罗,是 Natural ArtificialIntelligence 团队负责人,专注在自然语言处理、机器学习、深度学习等人工智能基础技术的研究。他在卡内基梅隆大学获得博士学位后,其研究重点包括分布式信息检索、机器学习、多媒体数据处理与挖掘等,主导的 20 余个项目得到美国政府、工业界资助,曾获得美国国家科学基金会成就奖、雅虎,谷歌研究奖等,也是美国普渡大学计算机系终身教授。有资料显示,在 2015 年双十一期间,其团队个性化推荐技术促进业务提升而获得阿里巴巴最高奖「 CEO 奖」,这在当时被视为阿里巴巴技术创新驱动模式的开启。2016 年 11 月,凭借深度学习、机器学习的集成学习等人工智能方法,该团队在 CIKM Cup 国际数据挖掘竞赛中获冠军。相比主办方提供的搜索排序基准指标,阿里团队提升了 21.28%。
还在阿里不同部门熟悉公司业务的任小枫,对未来的研究事业同样野心勃勃。他说:「我希望能在阿里找到并实现一项尚未有人做成功的事情。」为此,他打算经常回国,寻找机会更多地与国内团队合作,快速了解公司业务及理念,找到自己在公司发挥才能的有效路径。
6 月 28 日,任小枫接受机器之心独家采访,以下经过编辑的访谈内容:
入职阿里
你跟阿里是从什么时候开始接触的?在选择公司时,作为科学家会考虑哪些因素?
去年年底,我跟金榕老师接触。最让我心动的,还是阿里是有丰富的业务场景和巨大的用户基数可以帮助技术更快落地,同时阿里人给我的感觉非常棒。
会有很多考虑,不过这些并不是科学家独有的,很多人在选择公司时可能都会有同样的想法。对于一个像我这样做计算机视觉研究的人来说,公司方向是否一致,能多大程度用到自己的专长是非常重要的衡量依据。另外,基于未来发展的需要,还要考虑公司对我所在研究方向的重视程度。
做这个决定,考虑了多长时间?好像你从来没有加入过一家中国公司。
有一段时间,但也不是太长。要考虑很多因素,比如家人。这一次能够有机会加入阿里,能够为中国企业做事,很开心。
阿里巴巴和亚马逊,从产品类型或者业务方向上看比较趋同,你怎么看两家公司的异同?
我觉得阿里特别吸引我,不是因为他跟亚马逊类似,而是阿里有很多我感兴趣的业务方向。
你没有考虑过零售之外的领域吗?
对,可能跟我的背景有一些关系。之前只是稍微了解了一些医疗方面的情况,但是关心的不是太多。我对零售比较感兴趣,不光是零售,许多生活方面的应用也感兴趣。其实,我也愿意多了解一些其他应用情况,看看怎么才能提高技术。
你正在西雅图组建一个团队,方便透露一下,这个团队未来的定位是怎样的?
美国有很多人才,作为阿里国际化的一部分,我希望能够在美国招揽到一些一流人才,但目前这个团队还没有建起来,想法也还比较粗浅。更具体的工作,我会跟金老师和其他同事一起商量,看看怎么样才是最好的协作模式。未来,跟国内团队会有很多合作,和华老师也会有分工,但还没有具体决定。
在职能或者说使命上,西雅图跟国内的团队会有区隔吗?
我希望是区分不要太大,西雅图团队最好能和国内团队保持同一个节奏和步伐,比如能经常一起开会讨论。
你工作的这几年,计算机视觉技术最突出的变化有哪些?
最大感受就是技术慢慢变得实用,开始能够用了。刚开始做研究时,感觉还比较理论化,很多时候,很多人都是在几张图上跑一下,用算法跑一下结果,也不知道什么时候真的可以支撑起业务。从毕业到现在这段时间,这十几年,我觉得发展非常快,现在可以实用到某个具体地方。
有没有一些比较突出的事件,对你的工作或者研究方向的选择产生过一些影响?
微软做 Kinect(Kinect 是微软在 2010 年 6 月 14 日对 XBOX 360 体感周边外设正式发布的名字。——编辑注),我觉得是影响面比较大的事件。从那时候开始,大家觉得真的能够看到比较实用的场景,从某种程度上,这影响了我做研究的方向。当时研究深度相机,也是受这个事情的部分影响。
怎么看技术研究跟应用落地之间的关系?
我觉得应用落地非常重要,这可能也是行业当下还比较欠缺的地方,但是,从另外一个角度来说,也不能忽略基础研究。
技术研究,包括应用场景的尝试方面,有自己的新的打算吗?你看好哪些方向?
我觉得阿里是一个非常大的平台,也有很多应用。因为刚加入,希望能够尽快了解公司,了解公司各个方面的想法,然后尽快能够找到一个结合点。我还是更愿意从技术跟应用结合的角度考虑。从技术上来说,我的兴趣方向在于怎么样能够更高效、更高精度的处理图像和视频数据。同时,在实际生活场景中,这些技术的创新可以帮助每个人提高他们的体验。但在现实环境中所需要的实时系统,对技术要求很高,也是现在的一个前沿研究方向,可能不止是通过传感器的多种创新融合来解决。
加入阿里巴巴之前,你有关注过哪些中国公司吗?最近一两年,中国公司一直都在美国挖人,怎么看待这种类似于军备竞赛一样的 AI 热度?
我关注的不是特别多。但是,作为行业从业者,我非常高兴。现在有那么多公司和人都能够关注人工智能,都在花功夫让 AI 变得实用。我也的确感受到,现在中国跟中国公司对 AI 技术或是对技术落地与应用都有更多讨论和重视。
无人零售商店
无人零售店引起了业界的很多关注,在这个项目里对计算机视觉技术的应用占比有多大?其中最大的技术挑战是什么?
确实占了很大比例,但具体是怎样的,我不太方便透露。一个比较大的挑战就是精度要求非常高。算法需要解决很多问题,需要很多方面的数据,多元化的数据来源也是个难题。
整个购物过程如果都要用到计算机视觉技术,它的成本会高吗?
其实从长期来看,相机硬件成本跟计算成本降得非常快。但是具体情况,也确实不好说。
在零售行业,计算机视觉技术的应用有没有明显特点?继续往前发展,有可能会遇到什么瓶颈?
我觉得基础和应用方面应该都会有比较大的区别。零售场景下,商品会非常重要,另外,人也会非常重要。自动驾驶场景下,这两个方面可能并不那么关键,或者说,对于零售场景来说,捕捉和了解人的各种行为可能会更重要一些。至于瓶颈,找到合适的应用肯定很重要,大家都在思考和探索。另外,技术上也会遇到很多困难,因为人会有各种各样的行为,产品会面临各种各样的调整。
你看好计算机视觉在哪些领域的应用?
我非常希望计算机视觉能够在我们实际生活当中得到更加广泛的应用,比如零售,办公环境或者家庭。其实,有很多公司在做办公领域方面的应用,如果真的有一个可以与之交互的智能环境,即使是电话会议也会延伸出很多业务方向。
智能交互在家居场景的入口会是音箱吗?
我觉得智能音箱可能只是智能家庭的一部分,现在计算机视觉技术可以感知到家庭成员的行为,也有很多可以应用到人的行为交互上。因此,我觉得家庭场景中肯定会有一个平台级入口,不过,这个平台级入口出现的具体时间,会是什么产品,也不太好说。
研究与研发
你在计算机视觉领域的研究范围非常广泛,还会从心理学视角去关注理解技术,很好奇你个人的研究理念是怎样的,如何建构个人的认识框架?
我觉得是几个方面的事情。一方面,我受博士生导师影响非常大,我的导师 Jitendra Malik 教授本身就是一位视角非常广泛的人。一些人专注于解决计算机视觉本身的问题,而我一直觉得解决实际问题需要各个方面技术,视角本身是一个非常复杂的现象。所以,我自己对各个方面的技术都会比较关心。
另一方面,我在 Intel lab 的时候,它当时的研究范围也很广泛,不止关心视觉,也做很多其他方向的研究,比如机器人,HD 等,当时受这个环境影响,我也开始关心其他方面的研究。对科学家来说,一家公司业务越多元,可能接收到的研究方向上的思想就会更丰富一点。我觉得,特别是在工作环境当中,我可以接触到一些不同视角,对拓宽自己的事业有很大好处。
对科学家来说,做研究或者选择研究方向和领域,会有边界感吗?
确实会有,也经常会有。我的兴趣相对比较广泛,对很多东西都比较感兴趣,但是一个人不可能了解很多东西,也不可能精通很多方面,因此,确实一直会有边界感,有意识的控制一下,把自己的精力集中在某些方面。然后,了解一些相关领域的东西也挺好,但没法投入太多。
你在具体的兴趣或研究方向的选择上,会跟技术本身的变迁之间存在潜在联系吗?
会对一些特别新和热门的方向比较敏感,比如现在深度学习非常流行,其实我以前做深度相机也是大家都比较关注的,也是一个比较实用的方向。不过,我倒是希望大家能够把眼光放得宽一点,不一定是非得去跟最热门的方向,至少对其他方向能够多一些了解。
深度学习这几年非常热,有人在怀疑它的价值,提到它的瓶颈,你之前很多项目也都是用深度学习结合传统的计算机视觉技术,你认为在计算机视觉领域,深度学习的走势会是怎样的?
我觉得深度学习是一个革命性的技术,这是毋庸置疑的,它从各个方向将我们的能力提高了一大截。但是,有很多人可能像我一样,在这个领域待的时间比较长,可能会有自己的研究发展思路,会觉得只是这样还不够,真正要解决实际问题仅通过深度学习的方法可能还不够,可能会需要下一步突破,甚至去探索下一个突破点。
真正解决问题还不够,是因为硬件跟不上吗?
我觉得可能不光是硬件限制,很多人都会觉得它所释放出来的能力可能还不足以维持一项技术持续处在发展高点上。
可以理解为,它解决问题的能力在某些特定场景才会比较突出吗?
对,在特定场景下比较容易,如果想要完全解决一个问题,可能需要新的方法。因为我一直都是比较现实的看问题,尝试多种方法,而不会过多执着于考虑某一类技术发展的好坏。
在大公司做研发是什么状态?日常工作模式是怎样的?当然,跟在学校完全不一样。
对,有很多需要考虑的东西,需要有很多交流与协同,同时也需要把自己的基础研究做好,做好研究可能跟学校没有更大的区别,都需要解决很难的问题。
在你过往的工作经验中,更多是以基础课题驱动一项研究?还是以产品或者应用方向来驱动?
这个可能跟公司、团队,甚至跟某个业务的推进阶段都有关系。一般说来,我更希望由产品来推动,但是同时也希望研发团队能有一定自己的空间,做一些其它的东西。
你认为,需要平衡基础研究与业务推动的研发之间的关系吗?
需要平衡。我觉得,海外公司的模式也都会有区别,并不是都一样。就我个人在亚马逊的经验来说,其实也并不是采取前沿性基础研发或是业务驱动中的某一种,也是在不停摸索,不断变化。
你之前有很多带项目的经验,从技术研发角度看,提供需求和满足需求有时会有些对立,你是否遇到过这方面的挑战?
对我来说,这确实是一个学习的过程,从学校到公司其实都有很多学习的过程,在亚马逊的时候确实也学习了如何与各个方面的人沟通。其实,我觉得这不是一个对立关系,大家的目标其实一样,就是要解决问题,把东西做好。很多时候,只是因为大家看法不一样。多数时候,如果能充分交流,你会发现对方也有道理,只不过他的视角不同。