29岁武大教授,30岁海外优青……
2020年12月,叶茫带着计算机视觉领域诸多最新成果回到珞珈山。在复杂受限场景下的多媒体检索领域,叶茫是佼佼者。他以第一/通讯作者发表CCF-A类论文20余篇,包括TPAMI,CVPR,ICCV等,6篇ESI高被引,7篇第一作者文章谷歌学术引用过百,总引用2600余次。突出的学术表现,让叶茫被武汉大学直接聘任为计算机学院正教授、博士生导师,1991年9月出生的他,当时只有29岁。
千里马在广阔的草原才能顺风驰骋,武汉大学迅速为叶茫“安家立业”,在武大工作仅14个月的叶茫表现出惊人的“学术加速度”。他在CCF-A类人工智能顶级期刊TPAMI再次发表论文,主持国家自然科学基金面上项目、湖北省重点研发计划等众多项目,入选中国科协青年人才托举工程。在2021年年底,30岁的他又成功申报了青年海归人才翘首以盼的科研资助——国家自然科学基金优秀青年基金(海外),进一步加速开展创新性研究。
让我们一起来看叶茫的回“珈”记。
01
让计算机和人眼一样“看”世界
能否让计算机也像人眼一样“看”世界,感知物体的大小、明暗、颜色、动静,从图像、视频中挖掘出有意义的信息并且理解和思考?这是叶茫所从事的计算机视觉研究关注的核心问题。虽然计算机视觉技术应用呈现出爆炸性增长,但除了智能视频安防、指纹识别、车牌识别、人脸识别等技术外,真正大规模成熟的应用还屈指可数。究其原因主要是深度学习模型通用能力的局限性,需要“投喂”相当多的样本数据供计算机深度学习。但样本的采集和标注成本高,很多场景的样本也难以获得,进一步局限了通用能力。安全性问题,深度学习带来的“算法黑箱”也是较难逾越的技术障碍。
关山难越从头越,提起这些问题,叶茫眼中不是迷茫而是激动。“每次能够推动一些问题得以解决,我内心都有一种难以言表的学术满足感。真实世界是多样的,单纯利用图像或视频很难解决复杂的任务,我更关注图像、文本、视频、语音的结合分析应用,以此增强对多媒体内容认知和推理的能力,提升人工智能模型在多媒体分析应用中的通用性和安全性。”
▲监控目标检索流程示例
叶茫进一步解释,有时我们需要从监控视频中要找到一个犯罪嫌疑人,虽没有他的图像,但可以根据目击者的文本描述,利用文本和图像跨模态的匹配找到检索目标,提升算法的适用范围;有时找到与目标长得比较类似的图像,可以在这一图像的基础上增加“对比他高一点”等文本修饰,就能进一步提升目标检索的准确性等。在安全性方面,可以通过分布式机器学习方法,强化训练数据和模型隐私泄露的攻防应对等保证人工智能系统的安全性。
02
选择自己所爱,才能持续钻研
事实上,叶茫并非完全意义上的计算机科班出身。
2009年,叶茫考入武大电子信息学院。大四时,叶茫主动放弃了保研机会,考研进入计算机学院国家多媒体软件工程技术研究中心,“选择非常重要,只有真正喜欢的方向才能持续钻研”。
专业基础差是叶茫首先遭遇的难题。刚进实验室,叶茫坦言,“经常问导师很多‘愚蠢’的基础问题,曾经一度以为自己会被‘赶’出项目组”。“拖油瓶”的压力持续了一段时间,叶茫硕士期间投稿的第一篇论文投了多次都没有中。但导师鼓励他,“要想变得出众,就要比别人付出更多的汗水。”在自身的热爱坚持和团队关心支持下,他慢慢赶上。到2016年硕士毕业,叶茫已有4篇论文被多媒体顶级会议、期刊录用,也是当时实验室第一位以硕士身份发表CCF-A类论文的学生。计算机视觉领域的学术初探,让他坚定了开展多媒体检索相关研究的决心,“如果算法变好了,视频检索出来结果就更准确,可以非常直观地感受到效果的变化”。
2016年,叶茫前往香港浸会大学攻读博士学位。厚积薄发,叶茫在继续扎进智能安防应用中视频图像检索领域。每天,他都是第一个到实验室,最后一个离开。虽然辛苦,但目标明确,叶茫也享受这种静下来慢慢做研究的感觉。研究过程中,叶茫意识到,深度学习算法所依赖的大规模训练数据标注耗时费力,提出了新颖的“实例增广判别”的无监督特征学习思路,设计出一种快速的归一化实例增广特征优化学习方法,在大幅提升学习速度的同时,显著提高在细粒度图像检索任务中新测试类别的检索准确率。相关成果发表在人工智能顶级期刊TPAMI,计算机视觉顶级会议CVPR,得到了图灵奖获得者Geoffrey Hinton、Yann Lecun以及计算机视觉领域最有影响力学者何恺明等知名学者的引用和改进。
▲无监督特征学习方法示例
03
武汉大学,是最好的回国选择
博士毕业后,叶茫又远赴阿联酋起源人工智能研究院担任研究科学家,进一步将成果深化和转化。羽翼丰满,该回“珈”创业了。“在武大汲取养分的7年,为我筑牢了学术的根基。浓厚的人文气息,任何一个地方都难以比拟,天人合一的美是武大独有的。”叶茫深深热爱着珞珈山,珞珈山也向他再次张开怀抱。
报名武汉大学国际交叉学科论坛后,他很快收到了邀约。武汉大学唯才是举,鉴于他优秀的学术表现,提前按照海外优青标准给他相应待遇,直接聘任教授四级岗位、授予博导资格,连续4年保证1-2个博士生招收指标,并给他提供了充足的科研经费。在计算机学院、国家多媒体工程技术研究中心、湖北珞珈实验室和人工智能研究院等平台的叠加支持下,他快速开展科研工作、建立科研团队,并取得了多方面的学术收获。
武汉大学坚持高质量推进人才强校战略,书记、校长亲自抓人才工作,同人才交朋友。“引进海外青年人才,不是为了充个数,而是真需要、真重视”,这是校长窦贤康院士的肺腑之言。人才至上、惜才爱才、尊才重才的人才生态业已形成,尊崇一流、尊重学术、尊重学者的文化氛围蔚然成风。除了学术上的支持,叶茫最大的感受是生活上的后顾无忧,不仅有附属三甲医院提供优质医疗,子女幼儿园到高中的教育无忧,而且协助配偶在校内解决工作。
04
将学生培养成“雷军一样的人才”
入职后的9个月,他正式迎来了自己第一批研究生。叶茫认为,“需要根据不同的特点做针对性的调整,因材施教还蛮有挑战的,但是整体而言,他们都非常刻苦努力其实。我有个私心,想在武大培养像雷军一样能够给学校捐楼的人。我现在肯定没有这个能力了,只能靠他们了。”
▲叶茫团队,团队主页:https://marswhu.github.io/
为了将雷军的师弟师妹培养成“和雷军一样的人才”,叶茫不仅仅注重培养学生的学术能力,鼓励学生进行灵活的组会汇报,钻研有深度有新意的课题,为学生提供更好的交流讨论和学习的机会,还非常重视学生的创新能力培养,支持学生参加高质量的国际比赛。在2021年10月落幕的计算机视觉顶级会议ICCV 2021多模态视频理解大赛中,叶茫带领团队学生陈朔怡、李贺和王同鑫在无人机特定目标检索赛道夺得了冠军。“现在做比赛跟我当年完全不一样了,得益于学校充足的启动经费,在硬件条件上有很大的提升,打比赛更加得心应手。”
同时,让学生在产业一线锤炼本领也是叶茫内心的坚持,因为计算机领域的研究成果“绝不能养在深闺”。他带领学生与海信集团合作开展了图像文本相关性技术开发与研究,助力文本图像跨模态理解在智能家居领域的应用;与华为公司合作提升视频图像检索技术在城市安防中的应用;与绿盟科技合作开展了隐私保护的联邦学习研究...…
“今年30岁,我还可以在珞珈山奋斗30年。30年很长,除了在学术上继续努力,我最想做的事就是带好我的学生,特别是让我的每个学生都能热爱武大、奉献武大!”叶茫坚定地说。
新年红包长什么样?
一睹为快
SRPING FESTIVAL
👆点击卡片领取👆
👆扫描上方二维码领取👆
延伸阅读