让计算机“看”懂视频,刚国家二等奖,华为应用,庆幸没换过课题
让计算机像人一样“看”懂视频,这是复旦大学姜育刚教授团队(复旦大学计算机科学技术学院姜育刚教授、吴祖煊副教授、薛向阳教授与大数据学院付彦伟教授等)昨天获得国家自然科学奖二等奖的研究方向。这一方向,用专业的话说叫“多元协同的视觉计算理论与方法”。
也是几日前,在刚落幕的全球人工智能领域顶级会议——2024年IEEE/CVF国际计算机视觉与模式识别会议(CVPR)上,姜育刚的论文集,在谷歌学术全球出版物影响力榜单中,位列第四名。团队在大规模开放词汇目标检测等三个挑战赛中斩获第一名。
在视频内容识别这个领域,姜育刚教授从2007年发表一篇论文开始,已经深耕17年。这不仅是他特别感兴趣的方向,并且他庆幸从未改变过研究方向。
6月24日领取国家自然科学奖二等奖时,单人留影
其贡献:
具有开创性,全球认可,带领复旦进入第一梯队
姜育刚主要从事多媒体信息处理、计算机视觉、可信通用人工智能的理论与应用研究。视觉计算是姜育刚教授的主要研究方向,这是人工智能的核心方向,旨在赋予机器“看”的能力。
2016年在复旦大学校庆报告会上,他曾这样讲述过他的研究领域:
在电影《终结者》当中,好莱坞是这样想象计算机的能力的:通过人脸识别、嘴型比对等技术能够把人找到,能够分析这个人的行为,能够进一步分析这个人是不是犯罪嫌疑人。...我们团队做的研究,基本就是这样的一个东西。
当时,他举了一个例子:大家在视频网站看视频的时候,可能经常看到广告。广告和内容,其实可以产生一些关联,计算机可以自动识别视频内容,比如这是一个关于车辆的视频,那么在播放广告时,就可以插一些车辆广告。
而他的研究,用他最近简而言之的话说,“就是让机器像我们人一样能够准确识别出图像、视频中的物体、场景、动作、交互等等,甚至能在此基础上预测几秒后发生的事件。”
为什么选择视频领域?他认为,“视频图像”是大数据时代最大的大数据。
2014年时,互联网数据总量的67%已经是视频。他曾引用思科公司的一项预测说明他所以选择视频领域。这一预测称,到2019年,互联网数据总量的80%都是视频。
而当下,以图像和视频为主的视觉数据,已经占到互联网流量90%以上。人工智能正是凭借视觉计算技术,才拥有了“看”世界的能力。
在姜育刚看来,视觉计算是智能视频监控、网络内容安全等国家重大应用需求的共性关键技术,也是人工智能领域长期关注的重要研究问题。
他的团队的贡献在于,通过深入探索,揭示了视觉数据在数据层、特征层、语义层不同形式的耦合模式,提出了适应各层特性并逐层解耦的关联建模方法,形成了多元协同的视觉计算理论体系,在多项视觉计算任务上取得了性能突破和开创性的贡献。
元界(ID:Metabod)留意到,同一课题的研究项目,在去年6月已经被教育部授予2022年度高等学校科学研究优秀成果奖(科学技术),属于自然科学奖一等奖。
而团队在领域顶级学术期刊和会议上发表多篇论文,得到众多国际权威学者的正面引用和评价,引发国内外同行大量跟踪研究。项目成果多次服务国家重大需求,在多个任务中发挥了关键作用。
姜育刚团队成果与华为也有较深交集。华为手机应用中的AI拍照“消除功能”,可以将手机拍照时入镜的身后路人,用手指一滑便轻松消除。这一应用技术,源于姜育刚团队的研究。
不仅如此,姜育刚团队与华为在视频检索方向也有重要成果应用。他带领团队与华为业务部门联合研发了融合视觉与语言的多模态检索技术,可以方便用户更好、更快地从海量的相册中找到自己感兴趣的图像、视频,相关成果最近已在华为的旗舰手机中得到应用。
在前几日结束的全球人工智能顶级会议——2024年IEEE/CVF国际计算机视觉与模式识别会议(CVPR)上,其论文集在谷歌学术全球出版物影响力榜单中位列第四名,团队在大规模开放词汇目标检测等三个挑战赛中斩获第一名。
因为他的存在与坚守,复旦团队一直位居国际视频识别领域的第一梯队。
其人:
兴趣驱动,庆幸没换过课题
姜育刚,1981年10月生于辽宁铁岭,现为复旦大学教授、博士生导师,2020年起任复旦大学计算机科学技术学院院长、软件学院院长,2022年1月复旦大学人事处处长,2023年12月复旦大学党委常委、副校长,是一位扮演过科研、行政与管理多重角色的多栖人物。
姜育刚同时为教育部长江学者特聘教授,国家科技创新2030“新一代人工智能”重大项目负责人,上海市智能视觉计算协同创新中心主任。
2009年,他取得香港城市大学博士,导师是马来西亚华人、多媒体信息处理领域颇有影响力的学者杨宗桦教授。他是姜育刚进入视频处理领域的领跑人,当然彼时主要面对电影电视内容。随后在美国哥伦比亚大学读了两年博士后,合作导师是后来成为哥大工学院院长、美国国家工程院院士的张世富。
多年前,他这样描述求学的艰辛:
我在香港住在离学校很近、租金很便宜的一个地方——深水埗,熟悉香港的人可能知道,这是个很破烂的地方,我住在楼的最顶层九楼,我猜测应该是加出来的一层,没有电梯,我在这个地方住了一年多的时间。后来在美国,刚去的时候,学校的宿舍非常紧张,排不上,我就在一个破沙发上面住了半年的时间。
但他同时表示,“我也很幸运。在科研上,从来没有换过研究课题,一直在做视频内容识别。”
姜育刚的研究方向是读博期间确定的。2007年是一个给姜育刚带来美好回忆的一年,这一年他与卡内基梅隆大学的华人学者杨俊合作发表两篇文章,从头至履梳理了NIST视频识别评测的技术体系及方法的优化,总结了很多经验。他开始在圈内崭露头角。
他曾讲述他读博期间所写论文的影响:
我们做了这样一件事,在视频和图像里面,从算法的角度,提取很多很多小的特征,两段视频特征很多,我们需要进行量化,我们把它们放到同一个空间里面,比对相似程度,传统方法的信息损失很多。我们提出一个想法,让信息损失可能会少一点,其实这是一个很简单的思路,一条公式就够了。
后来,我们这个工作被引用了一千多次,很多人都在用,包括美国的教授,也说我们这个方法,展示了一些比较好的性能。包括到现在,虽然过去十年时间了,在计算机领域十年其实很长了,技术层面已经有很大的变革,仍然有很多人在用我们的这个方法。
迄今,姜育刚的研究成果,覆盖视觉特征提取、多模态信息融合、大规模目标识别、视觉内容生成与鉴别等诸多关键问题,引发国内外同行大量跟踪研究,谷歌学术总引用23000余次,H指数74。
在开源数据和工具集方面,其早期开发的VIREO374、CU-VIREO374视觉概念识别工具,被美国国家标准局采纳为TRECVID国际评测的重要参照。
由其牵头复旦大学、中佛罗里达大学、谷歌公司、法国INRIA的研究团队联合组织的THUMOS人体动作识别与定位评测,至今仍是动作识别与定位任务的试金石。
他带领团队与美国哥伦比亚大学、中佛罗里达大学、谷歌公司、Technicolor公司、法国INRIA的研究团队联合构建的多个高质量、大规模视频数据集,如CCV、MediaEval-VSD、THUMOS、FCVID等,涵盖视频识别、视觉匹配、动作定位等多个视觉计算任务,被斯坦福大学、加州大学伯克利分校、微软等千余家机构使用。
因其在大规模视频智能分析领域做出的杰出贡献,姜育刚当选为2022年度国际模式识别协会会士(IAPR Fellow)。2023年11月22日,入选2024年度国际电气与电子工程师协会发布的2024年IEEE Fellow名单,IEEE Fellow是这一协会最高等级会员。
寄语大学生:
按部就班就能做出的任务,不是研究,是家庭作业!
在他看来,从本科生到研究生的转变,是从被动接受知识到创造知识的转变。做研究,一定要勇于探索未知的问题。正如美国博士学位里面有一句拉丁文就是:“恭喜你对人类的知识有所创造,获得新的知识。”
2016年在复旦大学校庆讲话中,他表示,“如果导师给你的任务能够按部就班做出答案,这肯定不是一个好的研究课题,这是家庭作业!”
他表示,要做有挑战的课题,并且他引用图灵奖得主Jimgray的说法,讲述了理想课题的几个特征:
第一,可理解,计算机能不能像人一样识别视频里面的内容。
第二,有挑战,这个问题不能太容易。如果花几天时间就搞定了,这不是值得我们长期研究的一个东西。我们研究的视频内容识别技术,应该不是太容易,团队做了也有几十年的时间,到目前为止也有很多问题没有解决。
第三,有价值,技术可以在很多领域得到应用。
还有一点很重要,可测试,取得的一些进展是可以测试的。你做的技术的好坏,需要有一个科学的评估手段。
最后一点,在研究过程中也很重要,我们不可能一步达到我们终极目标,我们做每一步的时候,是不是可以递增,能够逐步来测试我们这个技术的进展。
他认为,在客观选题要求的背后,其实兴趣也是很重要的一点。能不能把这个事情做好,兴趣是很重要的因素。只有兴趣驱动,我们才会去钻研,才愿意去投入做这样一件事情。
他曾引用邹承鲁院士的一句话,用以表达他对兴趣重要性的认知:
在科学上要有所成就,特别是要有重大成就,需要一个人贡献自己的全部生命,仅靠每周40小时工作而没有废寝忘食地全身心投入的精神是不可能成为一位科学家的。
带队参加2024年IEEE/CVF国际计算机视觉与模式识别会议(CVPR),团队在大规模开放词汇目标检测等三个挑战赛中斩获第一名。
啃硬骨头:
让机器理解复杂动态视频
去年年中,在接受访谈时,提及Sora,姜育刚认为,文本大模型已经得到了广泛的研究和应用,接下来的发展方向将是多模态大模型,即结合语言信息更好地理解以及生成视听觉数据。尽管视觉数据的细粒度理解和生成很难,目前的结果还不尽理想,但这是一个非常重要的发展方向。目前来看,多模态大模型有两个重要方向:
1)如何结合文本模型对视觉数据完成更高精度的内容识别?比如通过对已经发生事件的语义总结并结合视觉信息对未来可能发生的事件做一个预测和推理;
2)如何生成时序连贯、细节清晰的视频?现有的一些工作生成的视频帧不够连贯、也不够清晰,生成具有时序一致性的视频也是目前的研究热点。
尽管最近十几年来视觉计算取得了较大的进展,但姜育刚表示,“复杂动态视觉数据的理解这块硬骨头还没有被完全啃下”。
他拿视频数据举例,“不同于静态图像,因为有了时间这个维度,视频蕴含非常丰富的时序、声音、文本等信息,这些多模态信息交织在一起给动态视频数据的理解带来极大挑战,这也是当前视觉计算领域亟待解决的难题。”
视觉计算要充分挖掘视觉数据中多元信息间的关联,也就是要挖掘不同拍摄视角、不同模态特征、不同视觉语义之间的关系,发现并利用这些关联线索,提升视觉计算性能。
传统方法往往忽略对关联的建模,无法取得理想的结果。AI生成的视频中,沙滩上的椅子会飘在空中,忽视了真实世界的自然、物理规律。
他表示,“我们的想法是首先将多元信息解耦,然后在高维空间中施加约束,从而充分挖掘并利用多元信息间的关联关系,这对于复杂视觉数据的理解特别重要。”
他说,这一想法独立于视觉计算架构本身,无论计算架构如何演进,从过去的统计机器学习方法、到卷积神经网络再到最新的多模态大模型,都可以深入挖掘视觉数据的多元特性并进行关联建模。
他们正在做的就是让机器有进一步的识别与分辨的能力,不畏复杂动态视觉数据之交织莫测,助力破解视觉计算领域的难题。“机器能识别出沙滩、椅子,也能懂得椅子在沙滩上的自然规律,并基于多元信息间的关联关系,进一步施展拳脚、发挥作用。”
接下来,姜育刚团队将进一步开拓视觉计算领域。以视觉内容理解助力海量视觉数据的检索与管理,让机器人更好地感知环境,这是当下火热的“具身智能”的核心技术;在视觉内容生成方面,助力大模型优化升级,通过自动生成高质量图像、视频内容,可以快速实现不同的艺术风格。
元界(ID:Metabod)看到,在人工智能安全领域,姜育刚早已留意到人工智能换脸、虚假新闻、虚拟社交账号等问题。2020年7月,他在世界人工智能大会人工治理论坛上讲话时,曾提及:
在熊猫图片上加入一些非常少量的干扰,人为视觉看上去还是一个熊猫,但是机器模型就会识别错。还有一些枪的图片,如果加入一些对抗干扰,识别结果就会产生错误。比如自动驾驶,如果是限速标牌80码,加入一些干扰后,就会被机器识别成Stop,显然这在交通上会引起很大的安全隐患。
不只是在图片和视频领域,在语音识别领域也存在这种问题,我们在语音上任意加入非常微小的干扰,语音识别系统也可能会把这段语音识别错,这都是可以人为操作的。同样,在文本识别领域,我们改变一个字母就可以使得文本内容被错误分类,现在还有很多这样的例子。
他认为,人工智能并不安全,并带来新的安全隐患,所以围绕人工智能安全领域问题,姜育刚团队也在开展突解研究。
资源来源:第一教育、复旦大学、世界科学、文汇报、三思派
编辑:抱一君 寻求报道/商务:yhxgj360(微信)
推荐阅读
黄仁勋:希望今天不是我的巅峰, AI的下一波浪潮是机器人技术
从估值3亿美元到融资超10亿美元,他仅用8个月|中国未来产业100人
性能超Llama2-13B,华为哈勃、北京国资基金刚投,吴恩达点赞