跨越鸿沟:计算机视觉-学术界与工业界的GAP有多大?
各位学者、大咖针对工业界与学术界在计算机视觉领域的研究生培养、人才吸引力法则与跨界合作研究的优劣势等热点话题展开激烈讨论,他们还对目前工业界与学术界对计算机视觉领域学术前沿探索与产品应用落地间存在的鸿沟,以及相互间人才流动的现实状况进行了深入的分析与交流,最后对未来计算机视觉的研究热点和热门行业也做出了积极的预测。
精选观点-----在学术界的研究生需要有一种哲学的思辨能力。
对于做研究的人来讲,写作这个事情可能对你一生来讲都是非常有帮助的。
学生需要有“T型”的知识架构,不仅要在某个领域研究得深,而且还要有知识的广度。
那些真正能做产品的人才,能够从客户的角度,去发现社会和用户需要什么。对待新的研究方向也有很好的敏感性。
工业界跟学术界往往是一个Mix,工业界和学术界的紧密结合是一个双赢的局面。
可能工业界像是“市场经济”,学术界可以说一定程度上是更偏向于“计划经济”。
学术界和工业界之间的GAP就是从基础研究到落地,我们称为“使用鸿沟”。核心就是说,一般我们讲的学术界是从0到1,而工业界是从1到n。那么,怎么把“0到1”和“1到n”衔接到一起,就怎么缩短这样的“使用鸿沟”。
在学术界,你的论文发表了之后,研究就结束了。但在工业界是不一样的,论文发表可能意味这个工作才刚刚开始,后面还有很长的路要走,还要把技术经过一些改进,使它能够成熟到去支持业务的落地。
计算机视觉的发展趋势预测:深度学习与计算机视觉结合的可解释性、安全性、鲁棒性、透明性;小样本训练、自监督学习、知识图谱、模型压缩;数据高效、软硬结合。
计算机视觉应用的行业机会可能存在于以下几个领域:安防、无人驾驶、线下零售。
本次圆桌论坛完整视频观看入口:
https://www.bilibili.com/video/BV17a4y177Mf/
或点击文末“阅读原文”观看完整视频
以下系对Panel讨论环节的文字实录,希望能对大家有所帮助或者启发。
计算机视觉领域的应用型/学术型人才培养方面的现状和问题
田奇:大家知道,我本身是在学术界待了很多年,其实现在跟学术界联系也非常紧密,我做了17年老师,这两年在公司也是从事一些研究到行业落地的工作。从我的角度来回答这个问题,就是说看一看学术界和工业界需要什么样的人才。如果你具备这样的一些素质的话,那你就有一些优势,如果不足的话,可能就要弥补一下。学术界大家讲的比较多了,讲的就是源头研究、基础研究,主要研究的就是技术创新等等。那么从工业界角度来讲的话,我以前也做过一些类似的报告,所以总结了几点:
第一点,从工业界来讲的话,我们可能需要这些学生专精一个领域,并且在这个领域中有一定深度的专业认识、专业技能和创造力。
第二点,其实井东老师也提到了,就是要有沟通合作的能力,同时要有多领域理解的能力,就是我们常说的具备“T型”的知识架构,不仅要在这个领域研究得深,而且还要有知识的广度。
第三点,从我们现在的一些行业应用来讲的话,要有一些真正能做产品的人才,能够从客户的角度,去发现社会和用户需要什么,能从应用场景去思考计算机视觉能够做什么,以此来激发一些更新的研究。
第四点,是希望学生能够对待新的研究方向有很好的敏感性,包括对研究方向的发展、新的场景以及应用。
最后还有一点,我们工业界也是需要一些有崇高理想境界的人才,毕竟AI还是以人为本,那么我们应该为人们的一些基础文化需求去服务,使AI能够更好地帮助这个社会,服务于更多的客户。
这就是现在我站在工业界角度分享的对学生需求的一些理解。
董晶:我觉得田老师其实还表达了一个观点是,我们的学生也是要因材施教、物尽其用,咱们有什么能力都可以发挥出来,其实在工业界、学术界都是能找到“闪光点”的。工业界与学术界对顶刊顶会论文的重视程度
董晶:希望各位老师谈谈目前工业界与学术界对顶会顶刊论文的重视程度,是不是人才引进的判断标准?以及工业界和学术界对科研人才的吸引力法则,是什么原因让科研人才能够在学术界和工业界来去自如?华刚:首先,我不愿意把工业界与学术界之间称为GAP。我希望大家理解一点,其实在研究跟开发以及技术应用到实际的场景中间,有一个大的循环。在一个初创性技术的开始,你希望自己的研究跟开发过程能有一个阶段性的分离,你希望把做这个基础研究的人保护起来,让他有一个干净的环境去做研究。如果把研究跟论文发表联系起来就是说,研究做到一定程度,就一定要把它发表出来。如果说这个研究是自由形式的话,就可以发表到顶会顶刊上去。我要讲的学术界跟工业界的第一个区别就是,在学术界,你的论文发表了之后,研究就结束了。但在工业界是不一样的,论文发表可能意味这个工作才刚刚开始,后面还有很长的路要走,还要把技术经过一些改进,使它能够成熟到去支持业务的落地。我把学术界定义成高校,其实学术共同体是一个很大的范畴,它并不只是包含高校的老师和学生,至于说科研人才在学术界和工业界来去自如,我觉得那是每个人自己职业上的选择,没有特别多可以评论的。很多人可能会有“水土不服”的现象,只是说你在哪个行当你要去做哪个行当的事情,我觉得大家都应该用心去做。至于说工业界对学术领会期刊的重视程度,其实你为论文本身做了什么研究工作,可能在找工作的阶段并不是那么重要,它更多是一个记录,说明你的思维有逻辑性,你对自己的思维能够有一个组织性。而我们在评判面试候选人的时候,如果你有这些论文可以加分,但可能只是在初始“敲门砖”的阶段,你可能更容易吸引到面试官的眼球。实际上,我的每个应聘者我都会自己去聊一下,看他究竟写了几篇论文,里面有多少思想是他自己的,他自己有没有形成一个成熟的逻辑体系。我觉得这是去看人才是不是优秀的几个标准之一。刚才各位老师也提到很多,更看重人才的一些基本技能,我觉得这些都是我们会去考察的各个方面。但是我觉得最重要的是,在工业界需要的人才都要有一些能够解决问题的真正技能。因为在工业界有很多应用场景的问题,其实还是需要你追着问题然后去解决问题,在这个过程中建立你自己的技术(壁垒)。田奇:我觉得工业界和学术界其实核心都是人才,我们都需要理论扎实,工作能力强,善于合作,善于创新的优秀的科研人才。同时也存在一些差异,之前也讨论过,学术界更希望是能够把实践升华到一种理论的人才。工业界来讲的话,其实是“不管黑猫白猫,抓到老鼠是好猫”,更看重解决问题的能力。刚才提到对于顶会顶刊的重视程度,实际上我们现在研究院,还是会更偏重一些顶会,像CVPR、ECCV、ICCV等,这个跟学术界的重视程度都差不多。如果说对人才吸纳来讲的话,那么我们更可能关注以下几点:比如说作者是不是第一作者,是不是原创者,对开源有没有一些贡献;在一些AI的比赛中,是不是能展现很强的研究能力以及工程开发能力;是否参加非常丰富多彩的课外活动,能够对知识面的广度有一个提升。还有一个就是学术界和工业界实际上是“复古”的,现在在华为经常说的有一句话“向上突破天”,其实就是谈你的创新能力要强,另外一句是“向下扎到根”,就是说我们要贴近行业。从这种角度来讲的话,学术界和工业界之间的GAP就是从基础研究到落地,我们称为“使用鸿沟”。核心就是说,一般我们讲的学术界是从0到1,工业界是从1到n。怎么把“0到1”和“1到n”衔接到一起,就怎样缩短这些“使用鸿沟”,其实就是说研究到落地中间的一个沉淀过程。最后说一下,学术界和工业界上是一个循环,就像华刚说的,其实学术界为工业界输送了不少人才,但是也有很多工业界的人才慢慢的回流到学术界了,这样就带来一些新的机会,这样的话就叫互补互益、齐头并进。魏晓林:关于顶刊顶会,我觉得可以从两个方面来说,首先说顶刊顶会是到工业界入门的门槛。其实很有意思,大家多少年了一直在说,我们不应该过于重视论文数量这些事情,我们要去追求事情的本质,技术研发要在纯净的环境里做真正有意义的长期研究。但是这个事情感觉现在来说还是个跳不出来的“死循环”,大家无论是在学术界还是在工业界,其实对待论文就变成了一个新的“高考”,它是一个“开卷考试”,刚才各位老师说的能力,其实在一定程度上都在开卷考试当中有一个很好的体现。所以在入门的时候,我们确实看论文,看你的发表论文的数量、质量,包括到底是不是你自己的想法,这些东西我们都非常看重。但是,另一层面我们同时也会像一个“艺术考试”一样,既有这种试卷考试也有面试,面试在其中也起到非常重要的作用,去真正探究这个同学的素质和能力。第二个方面是说,在公司内部我们是否重视顶刊顶会这个事情,实际上我们是反推的,就是我们还是要从市场来反推到底我们需要什么样的技术,技术在落地的时候可能就会有一些副产品,有一些产出,那我们就顺便就写成论文投稿,至少在美团是这样,因为我们的KPI确实不看顶会顶刊论文的数量。另外,其实当我们在说工业界、学术界的时候,有一个很有意思的现象是“学术界”可能只有几个学术界,比如:国内的学术界和国外的学术界,而“工业界”其实是有n个工业界,每一个公司都是一个工业界,每一个公司它的市场所面对的用户都是不一样的,所以它的“工业界”所代表的背后的含义也是不一样的。熊红凯:我觉得原来传统学术界,上个世纪五六十年代的时候,那个时候的其实并不注重顶会顶刊。我记得他们当时跟我讲说一个前辈哈佛大学毕业,其实没发表任何论文,最后就当上助理教授了。今天我们总喜欢讲学顶会顶刊,我觉得这实际上是一个“偷懒”的想法,因为我们不愿意去评判一个人的学术能力,或者说我们无法快速地评判一个人的学术能力。就是像今天我们孩子的教育一样,就是希望通过一个证书来做评判,而不愿意从他的实质思想和内容上去做评判,或者说也不愿意花很多的时间去培养他、观察他。我觉得其实不管是工业界还是学术界都面临这样一个问题,就是“快餐文化”,总是希望通过一些证书或者其他的证明来短平快地处理一些事情。现在我们带研究生包括招聘老师都是这样,我相信工业界招聘员工可能也会用这样的一种方式。然后现在“推陈出新”了,根据顶会顶刊的论文接收率来确定它到底是怎样一个顶会,怎样一个顶刊,最后来做一个判断。其实这里面也良莠不齐,我觉得很难根据这个来真正客观地做出评判。这就跟高考一样,我们选拔出了一些优秀的人才,但同时也丧失了一些优秀的人才,所以这个很难讲。其实在学术界,很多学者也还是希望能够用传统的方式,最好是能更多地从这个人的思想来做一个判断,是否愿意聘用他或者是给他这样一个发展的周期。当然前面井东老师提到的写作能力、表达能力可能也是一个关键因素。这个方面我其实对工业界确实没有太大的发言权,但是在学术界如果真的希望做一些学术探索,或者是做一些精知识的总结、规律的发现的话,还是需要有更多的具有独立思想,并且愿意做探索的、不是过于快速的去做一些短平快的研究的人才。我觉得这样可能是更长远的一个培养方式。王井东:刚才王亮老师(CSIG视觉大数据专委会主任)说我是学术界的,华刚老师好像不完全同意。其实这个事情是好事情,大家今天对学术界工业界区分的没有那么的清楚,比如说田奇老师从学校到公司,华刚老师也是从学校到公司,都是游刃有余。十年前我们做计算机视觉研究的人,其实很多研究生博士毕业以后发现工作了之后不做这个方向,或者说在这个方向很难找到理想的职位,今天来讲这个事情好像就不存在,这是非常好的一件事情。对于科研人员来讲,因为现在在工业界,其实很多需要研究的地方,不像以前一样毕业之后的情况,这是很好的一件事情,这也是为什么我们能够自由切换。所以说我还是鼓励大家,咱们(工业界)在计算机视觉领域还是要去做研究的,特别是有了深度学习以后,咱们在工业界去做一些项目的时候,如果说你仅仅是说像以前把工业界学术界的定义分的那么清楚,工业界就简单的实现,今天可能抱着这样一个理念去做工业界的工作的时候,你可能也很难做得非常好。
计算机视觉的发展趋势及研究热点预测
董晶:最后一个话题,我们想请各位老师分别讲一下自己对计算机视觉领域发展方向的一些预测或者看法。王井东:我就先讲一讲研究热点。尽管计算机视觉领域里很多研究人员不承认这件事情,现在深度学习还是成为了计算机视觉里面主导的方法。深度学习在计算机视觉里面有很多缺点,比如说不可解释性、安全性等等。所以说,深度学习在计算机视觉领域未来怎么跟推理结合起来,可能成为一个研究的热点,也是很多工业界落地需要去解决的问题,如安全性、透明性、可解释性等。华刚:首先,我觉得计算机视觉最有可能在产业上繁荣的三个领域,第一个是安防大家已经看到了,包括城市互联网、城市大脑这些都可以归于安防的范畴,应用前景特别是在中国的市场也是显而易见的。第二个领域,我还是对计算机视觉在无人驾驶这个领域是相当看好的。第三个其实很多人还没有注意到的,我觉得线下零售会有一个突破,这个行业的突破可能会发生在行业内部,就是说要深入到行业中去。这个在目前的阶段来看还是比较困难的,主要是因为技术还没到那个程度,还需要很多投资去打破这个瓶颈。以上这三个行业我认为是比较有希望的。下一个阶段计算机视觉的研究热点,我觉得有两个趋势,首先大家会越来越看到深度学习和计算机视觉领域一些知识结合得更好,结合起来之后就会产生更好、更可解释、更鲁棒的一些模型。另外,大家如果注意到的,就是目前包括CVPR也好,ECCV也好,投稿论文的主题比例的话,就会发现大家其实也在注意到怎么利用小数据去训练模型,能够达到一个很好计算机视觉的模型,我觉得大家在这一块会持续投入一段时间。当然研究热点总是很难预测的,因为它总是一个量变到一定的阶段,才会有一个质变,就是说某个方法某一个点可能会突然热起来,这是不可预测的。田奇:总的来讲,包括整个AI的发展趋势聊得比较多的就是一些自主自治、资源高效、安全可信。具体一点来说,我认为在计算机视觉领域所有的问题还是总结到数据、模型和知识的提取。从数据层面来讲,我们会聚焦在数据高效,因为深度学习需要大量的数据标注,将来我们怎么把数据的利用率高效做得更好,把数据深层的质量做的更好。从模型来讲,除了性能,我们还要考虑到一些具体的限制和功耗时延,这是设计成本。我们的一个发展趋势是把软硬件的结合,同时因为计算机视觉是一种使用技术,所以硬件厂商和AI算法厂商将来怎么样来进行协同。从单点的技术方向来讲的话,比如说针对这种数据高效的话,将来无监督学习、AutoML、边缘计算、知识蒸馏、模型迁移,这些都是比较好的研究热点。魏晓林:从研究领域来说,很多老师刚才都提到了很多不同的领域。我们在思考未来发展趋势这个事情的时候,背后有个大逻辑,就是我们更加关注新的开发范式和研发范式的变化。深度学习是一个新的、完全颠覆了原来软件系统研发流程的范式,在这个大的范畴下面,其实有一些新的子范式可能会很快出现。比如说,小样本模型虽然还没有应用的非常广,它起到的作用是加快迭代速度、降低计算成本;像自监督学习,减少了人力标注成本和时间,可以利用到更广泛的数据;AutoML可以减少人工研发的人工成本;像多模态学习、视觉跟知识图谱的结合等,长期甚至可能影响到AI部门的组织形式。另外,我们也十分关注更”便宜“的AI,比如说模型压缩、端侧推理带来成本上的节省。从应用层面来讲的话,我们更加关注的就是刚才华老师讲的像新零售,也包括美团在做的无人配送,这些都是可以颠覆行业的落地场景。熊红凯:现在大家经常说人工智能是不是可以完全从数据中来,那么这个也就是说大的范式是从“类脑科学”开始,大家都是从类脑当中去看人是怎么思想的,或者干脆就从研究者的本身看研究者的本身是什么思想。我看到现在“神经计算”开始比较热,这属于研究人的思想,我对这个其实是持保留意见的,因为这个可能会对人本身产生一种负面的效果。此外,我觉得从人本身的才能上来讲,人更多的是一种把意识世界和现实物理世界进行融合的个体,但是计算机世界最后可能就“合二为一”了,也就是大家也不可能区分到底什么是虚拟,什么是真实的。就像美国影片《西部世界》一样,可能最后的一种需求就在于享受一种“虚拟”的生活,这种生活就是说我可以就把我的生活贯穿在这个世界中,最后就开始享受这种生活。我觉得计算机视觉如果从商业最后的发展趋势,或者从资本的角度来讲,可能最后将变成这样,最后跟图形、游戏,跟所有的现实生活融二为一,这可能会是将来。但是,这肯定也存在“两面性”。董晶:再次感谢各位老师的分享。如果对今天这个议题做一个小结的话,我们主要讨论了学术界跟工业界的GAP,其实是一枚硬币的两个方向,就像我们男人跟女人一样,大家各有所长,优势互补,而且还要不断的沟通,才能够将互补的优势发挥出来,这样才能够共造一个非常和谐、非常美好的未来。