多模态大模型技术进展及应用 | TF116 回顾
8月10日,CCF TF第116期“多模态大模型技术进展及应用”邀请了来自中国科学院自动化研究所、字节跳动、百度的专家,深入探讨了多模态大模型的技术进展及产业应用。
CCF TF活动相关专家报告均收录在CCF数字图书馆【TF专辑】,欢迎长按识别,回看精彩分享。本期活动报告也将于近期收录,欢迎持续关注!
CCF TF第116期“多模态大模型技术进展及应用”由CCF TF算法与AI SIG策划呈现,邀请到中科院自动化所副研究员郭龙腾、字节跳动AI-LAB算法工程师曾妍、百度杰出架构师肖欣延三位资深专家,回顾多模态大模型的历史,介绍其发展现状和丰富的产业应用,探讨所面临的挑战并展望未来发展前景。
本次活动由CCF TF算法与AI SIG主席何中军主持。
《多模态预训模型的技术回顾与展望》
郭龙腾的报告分析了多模态预训练模型的研究背景与必要性,回顾当前多模态预训练模型的研究进展,并介绍多模态大模型的架构设计、学习优化、下游应用,以及最新前沿研究方向如多模态大语言模型、多模态具身智能等。此外,他还介绍了自动化所研发的全模态的认知大模型“紫东太初”,融合了音视频、图片、文本,实现多种模态的融合理解和生成,最后分析多模态预训练模型所面临的在数据、模型、训练等方面的技术挑战。
《多模态技术与应用》
曾妍详细介绍了多模态预训练技术(涵盖图像/视频和文本)方面的近期工作,包括多粒度视觉语言预训练方法X-VLM、多语言多模态预训练CCLM,以及其在字节跳动产品上的应用,如图片描述、视频审核、电商客服等。最后,她介绍了最新研发的多模态大语言模型Lynx,通过多阶段训练使用不同的训练数据来提升模型的综合能力。
《多模态内容生成技术与应用》
肖欣延介绍了百度在多模态内容生成方面的技术和应用,重点介绍从自然语言到视觉内容的生成。他首先回顾了近年来的技术进展,结合场景需求介绍了自研的文生图大模型ERNIE-ViLG,以及基于此技术的文生图产品“文心一格”;然后介绍了基于多模态大模型的视频创作系统TTV(Text-To-Video),通过文案理解与生成、素材分析与处理、素材扩充与编排等可以快速地根据用户需求生成视频;最后介绍了广泛应用,AIGC正在大幅提升内容创作的效率和质量,助力想象力涌现,基于大模型创造出独特的AI作品。
本次活动三位嘉宾的报告内容干货满满、精彩纷呈。提问互动环节,线上参会观众积极参与,提出了“通过文本提示来生成图文并茂的文案,可以怎么来训练模型?”“多模态模型训练的数据量和计算资源开销与耗时情况?”等问题,三位讲者从自己分享的内容角度切入,耐心解答、互动。
大模型技术日新月异,希望本次分享与交流能够给大家带来启发和思考,促进技术的发展。
关于CCF TF
CCF TF技术前线(Tech Frontier)创立于2017年6月,旨在为工程师提供顶级交流平台,更好地服务企业界计算机专业人士,帮助企业界专业技术人士职业发展,通过搭建平台实现常态化合作和发展,促进企业间、学术界与企业间技术交流。目前已组建知识图谱、数据科学、智能制造、架构、安全、智能设备与交互、数字化转型与企业架构、算法与AI、智能前端、工程师文化、研发效能、软件质量工程等十二个SIG(Special Interest Group),提供丰富的技术前线内容分享。2023年全年,CCF TF将在线开展20场活动,会员免费参加。
加入CCF
加入CCF会员享受更多超值活动,为自己的技术成长做一次好投资。
识别或扫码入会
欢迎关注CCFTF及CCF业务总部公众号,精彩陆续开启!
关注CCFTF获取TF活动资讯
关注CCF业务总部优惠预定会议场地
合作单位
CCF推荐
点击“阅读原文”,回顾往期精彩视频!