查看原文
其他

优博微享|接口智慧,科研人生



为提高浙江大学博士生学位论文质量,激励博士研究生的创新精神,促进研究生教育的内涵发展,浙江大学自2016年起每学年开展一次优秀博士学位论文评选工作,最终由学校学位评定委员会评选出不超过10篇论文作为优博论文。2020年共有9篇博士学位论文被获评浙江大学优秀博士学位论文。

浙江大学研究生教育特推出“优博微享”专题,对优博论文获得者进行专题采访,以期给同学们的科研学习生涯提供经验参考,共同探索追求科学研究的真知。

机缘:于新型领域锐意进取

“其实是阴错阳错让我选择这个专业,我的本科专业是电子信息工程。”当时这位浙大学子本想在研究生阶段继续攻读本专业,但是保研确认导师时出了差错,后经一位本科老师推荐,他才有机会成为肖俊教授的学生。

正是这样的机缘巧合,让他开始转向计算机科学领域的研究。陌生的专业、全新的知识,意味着更多的挑战。他坦言,在博一的时候一下子接受这么多新知识,让他很难找到学习的侧重点。

     即便如此,他仍然笃行不怠、锐意进取,博士期间,以第一作者身份共发表5篇CCF-A类论文,1篇CCF-B类论文,3篇论文获大会口头报告,其中单篇论文谷歌学术引用最高超过1000余次 (截止2022年1月)。曾入选首届AI华人新星百强(2021),获浙江省普通高等学校优秀毕业生(2020)、首届浙江大学博士生学术新星(2018)以及CVPR 2020 Doctoral Consortium等荣誉。

他就是浙江大学计算机科学与技术学院2020届博士毕业生——陈隆。

陈隆与导师肖俊合影

科研之路,挫折避无可避。在陈隆读博期间,刚开始投递出去的两篇论文都很顺利的被主办方接收,但是之后的一些论文陆陆续续皆被拒收。面对挫折,陈隆有正确的态度,“我很感谢这些被拒稿的经历,正是这些被拒收的论文让我开始反思自己的研究问题出在哪里,经过一次次的拒稿、修改、投递,再到最终被接收,在这过程中我成长了很多,也进步了很多。

学术艰难,贵在坚持,这看似枯燥漫长的过程,其实正是一种可贵磨练、一种洗礼升华。


 钻研:于知识深洋奋楫笃行

复杂视觉场景的感知和理解是数字媒体计算与设计实验室(DCD)的一个重要研究方向,具有很大的潜力和研究空间。陈隆经过接触和了解后,越发觉得计算机视觉是人工智能里面一个很有意思的领域,而且很多研究可应用到现实生活中,具有很大的实用价值。

对于该专业的深入钻研,陈隆已有一套较成熟的学习体系。他建议,同学们在进入计算机专业学习的初期,可以选定一个具体的小方向,花时间去精读优秀论文并锻炼提高自身的编程能力,努力从入门到精通,再拓展论文的阅读区间,多读一些大领域里的论文,开阔视野。

陈隆在大会上作汇报

当问及其新颖的学术理论和灵感都来自于哪里时,陈隆表示,主要有两点,一是在阅读其他相关领域的论文时,会思考有没有可以和自己的研究能够互相结合的地方;二是在与老师同学们讨论交流时,会意识到自己可能忽略掉的一些点,也会迸发出一些新的想法。当然,这也离不开导师肖俊教授一直以来的帮助和指导,“肖老师对我研究内容一直提供积极的正面反馈,这对我无疑是极大的鼓励。”

然而,其自身的努力更是不可忽视。唯有踏实研究,才能厚积薄发,这样的科研精神永远值得我们学习。

陈隆目前是哥伦比亚博士后,继续在科研的道路上前行,谈及个人的研究计划,他表示在短期内将继续计算机视觉相关的研究,在未来希望可以做一些真正对社会有意义和有帮助的研究。

生活:于科研之余热情以待

人的一生最重要的就是体验,我希望我可以多体验不同的生活。陈隆平时会积极参加实验室组织的活动,比如去西湖边慢跑、去老和山徒步,喜欢美食,也喜欢看综艺节目、刷短视频等。这就是陈隆对待生活的态度,简单却热爱。

陈隆与导师及实验室同窗在岳庙合影

但陈隆也谈到:“ 我在时间平衡方面做得不是很好,在读博期间,大部分时间都扑在科研上。直到2019年女儿出生,我才开始增加了花在家庭上的时间。”

科研是信仰,却终究不是生活的全部意义,漫漫钻研路总是需要休憩的驿站,让思绪转换和放松。当碰到困难时,陈隆会想想自己的人生目标,告诉自己还有很长的一段路要走;当心情低落时,他会选择和家人倾诉,然后短暂地休息一段时间,再重新进入工作状态。“每个人都像一个‘函数’一样,你只要处理好和其他‘函数’的接口,就能和大家各司其职,和谐共处。

问及对同学们的寄语,陈隆风趣地回答道:“大家再坚持忍耐一下,毕业之后就知道在学校有多幸福了(哈哈哈)。”


博士论文简介

面向复杂场景理解的视觉内容识别、检测

与推理方法研究

复杂视觉场景理解是计算机视觉领域中的一个研究热点问题。同样,计算机视觉研究的终极目标就是构建一个计算机系统,使其能够和人类一样感知和理解复 杂的外界客观世界。为了能够达到人类级别的视觉场景感知和理解,我们希望该计算机系统模型至少应该具备以下三个基本能力:

1. 模型能够检测和识别场景中所有的组成元素,如物体和物体间的视觉关系等;

2. 模型可以对视觉场景内容进行理解和推理,并总结和归纳出知识;

3. 模型可以通过自然语言和人类之间进行交互,传递知识。

对于上述这些能力,本博士论文分别从四个不同的层次对复杂视觉场景进行识别和理解,包括物体级别识别、场景级别识别、场景级别理解和场景级别推理等。具体来说为:

1. 对场景内单个物体进行识别(物体级别识别);

2. 对场景内所有物体以及物体之间的视觉关系进行识别(场景级别识别);

3. 对整个视觉场景的内容进行理解(场景级别理解);

4. 在场景级别理解的基础上进行知识推理(场景级别推理)。

本博士毕业论文针对这四个不同层次的视觉场景感知和理解,逐步地对复杂视觉场景中视觉内容的 识别、检测和推理进行研究。

文字|李笑

图片|陈隆

本文编辑 | 李笑

责任编辑|郭磊艳


推荐阅读

1、郭栋(法学):优博微享 | 明法究理,惟精惟一

2、池哲勖(基础医学):优博微享 | 科研之道,求是创新

3、王雅琴(外国语言文学):优博微享 | 脚踏实地,有味有为


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存