【典学论坛】第五期|智能视觉分析技术与应用
浙江大学求是特聘教授、浙江大学人工智能研究所所长吴飞老师主持了论坛。吴飞教授隆重介绍了本期的主讲人,杨易教授,浙江大学求是讲席教授,浙江大学计算机科学与技术学院副院长、微软-教育部视觉感知重点实验室主任、人工智能省部共建协同创新中心副主任。入选2021年人工智能全球最具影响力学者榜单AI 2000中经典AI、多媒体、计算机视觉、数据库四个领域全球影响力前一百的最具影响力学者,近四年连续入选Clarivate Analytics全球高被引学者。杨易教授此次报告将围绕人工智能和视觉应用的研究开展。
在主讲报告环节,浙江大学求是讲席教授、浙江大学计算机科学与技术学院副院长杨易教授进行了《智能视觉分析技术与应用》的报告交流。杨易教授的报告中主要介绍智能视觉技术的发展历程和应用背景及所在课题组近年在此方面所做的研究。报告主要内容分为以下三节:一是智能视觉的发展演变,二是数字经济中的智能视觉,三是智能视觉分析技术与应用。
为了促进学术交流,征得杨易教授同意,现将杨易教授报告中关键ppt内容发布,以便共同思考智能视觉下一步理论突破方向、途径和手段。
第一部分
智能视觉的发展演变
杨易教授以时间顺序介绍了智能视觉的发展与演变。铺垫:20世纪50年代——从生物学出发研究视觉产生的本质;起步:20世纪60年代——尝试利用计算机感知三维场景;起步:20世纪70年代——机器视觉的课程与理论体系出现;正式建立:20世纪80年代——计算机视觉学科形成;稳步探索:20世纪90年代——基于特征的对象识别;稳步探索:21世纪初——图像特征工程与数据集稳步发展;快速发展:2010年至今——基于深度学习的智能视觉。
第二部分
人工智能:赋能社会与社会实验
数字经济是继农业经济、工业经济之后的主要经济形态,智能视觉技术已逐渐融入到人们数字经济生活的各个方面。杨易教授通过智能视觉推动传统产业数字化转型,智能视觉的数字产业化,智能视觉与公共服务三方面应用场景展开介绍。
第三部分
智能视觉分析技术及其应用
杨易教授在此部分主要介绍了团队近年来研究进展,该团队的研究内容主要分为三部分:一是视觉计算,包括底层感知,识别与检索,估计、预测和规划,高效视觉感知,视觉内容生成;二是视频理解,包括视频分类、高效视频理解、第一视角视频分析、视频目标分割、视频场景解析;三是多模态分析,包括文本视频训练、文本视频检索、声音视觉时间定位、点云视频时空建模。
1.视觉计算:在底层感知方面,通过把下雨时视线中的雨线和雨滴同时去掉,帮助自动驾驶;通过稳相处理达成视频防抖动。在识别和检索方面,采用数据增强方法,即随机擦除图像的一块作为训练数据;在海量的道路监控视频中找到所需对象。在估计、预测和规划方面,通过6个自由度实现物体姿态估计,方便和物体交互;实现行人轨迹预测。在效率感知方面,采用深度神经网络的剪枝算法。在视觉生成方面,根据人的说话语气和情绪进行生成相应的姿态。
2.视频的理解和感知:在有效视频分类方面,采用多帧率采样,用快速网络去抽取冗余特征来处理视频数据。在第一视角视频分析方面,在动态视频采样时关注动作频率高的区域,并可通过文字描述定位相应动作。在视频对象切割方面,通过考虑背景和前景,使得准确率更高。在视频场景解析方面,做到了大数据量、多类别、细粒度、多场景和高帧率。
3.多模态分析、跨媒体分析:在自电镀学习方面,采用ActBERT算法。在文字-视频跨媒体检索方面,超过了同时期google报道的最好性能。在视频和语音的联合建模和对齐方面,通过全局和局部的对齐进行视频和声音的定位。在点云数据中的时空模型方面,对运动的描述较准确,受到环境的干扰较小。
浙江大学公共管理学院研究员蒋卓人老师在点评中指出,杨易教授的报告翔实且维度多,包含很多基础性的工作和前沿的应用。我本人研究自然语言处理,其中在多模态处理中有两个问题想请教:不同的模态数据有不同的结构和属性,在为每一种模态量身定制模型时,应该向通用性还是向专业性方向展开呢?不同的模型有不一样的交互,如何使得多模态模型有更好的交互呢?
杨易教授回答:目前采用较多也被验证最有效的方法是先用通用模型学习,再根据具体任务微调,在特别专用的问题上,可以设计专用的模型实现任务驱动,针对每一个失败点做功能性改进,模型选择时主要根据任务的特征取舍。
浙江大学公共管理学院教授黄萃老师在点评中指出,杨易教授的讲座信息非常丰富,以10年为切片介绍了智能视觉的发展演变。杨易教授在介绍视觉计算、视频理解、多模态分析时分享了很多实例和相关论文及背景,展示了国际前沿研究。其中我对文本语义挖掘较为熟悉,想请教杨老师一个问题:视觉的数据集转换后有没有更独特的算法突破?
杨易教授回答:视觉内容由于其时空特性,较文本更复杂,需要针对视觉数据做相应的调整。它们的共性基础都是深度学习,但我们对视觉内容也有专门的研究,其中在效率上有更高的要求,尤其在研究大规模视频时有一定限制。不同模态之间相互关联,建模利用关联能促进我们对多模态数据的理解。
2022年8月7日——12月31日
每周日晚8点
典学论坛
与您相约
共同探讨智能社会的未来
念哉典学 思睿观通
2022年8月7日——12月31日
每周日晚8点
典学论坛
与您相约
共同探讨智能社会的未来
第六期
主讲人:
浙江大学 信息技术中心
张紫徽总工程师
9月11日(周日)晚8点腾讯会议ID:651-691-346链接:https://meeting.tencent.com/dw/PFp9UH4TKaRb第七期
主讲人:
浙江大学 教育学院
翟雪松研究员
9月18日(周日)晚8点腾讯会议ID:195-179-014链接:https://meeting.tencent.com/dw/tod9sm439mhG第八期
主讲人:
浙江大学 公共管理学院
高翔教授
9月25日(周日)晚8点腾讯会议ID:535-111-025链接:https://meeting.tencent.com/dw/bFbQ6eVClnMC*注意:为了保护知识产权,论坛会议全程请勿录音、录像、截屏。会议嘉宾对其PPT内容和演讲词具有最终解释权。未经主讲人许可,严禁对外私自传播会议中出现的数据模型、文献引用等演讲内容。