“天将今夜月,一遍洗寰瀛。暑退九霄净,秋澄万景清。”在刘禹锡的诗作中,无一字提到中秋,却写出了九霄清净,万景澄明的开阔之象。
中华文化博大精深,但很多时候只可意会不可言传,AI能否抓住其中的神韵?
借助书生·筑梦2.0,中国的科研人员将《八月十五日夜玩月》诗中的意境具象化呈现,以人工智能呈现传统文化的魅力内核,推动前沿技术“能变人间世”。
近日,上海人工智能实验室(上海AI实验室)推出升级版的视频生成大模型书生·筑梦2.0(Vchitect 2.0)。为生成更符合中国文化和东方审美的视频,团队从源头对书生·筑梦2.0的预训练数据进行了精细化加工处理,构建了包含37万小时的高质量数据集,并通过算法的增强进一步提升生成视频的内质量和美学水平。集成了视频生成、插帧超分、画面修复等任务的书生·筑梦2.0,搭载轻量化框架后,推理效率提升了60%,可满足更高质量的视频编创需求。上海AI实验室持续推动技术发展与传统文化、应用生产融合。此前书生·筑梦大模型曾参与首部AIGC系列动画片《千秋诗颂》制作,该片自2024年2月于总台央视播出以来,海内外受众达2亿,超10个语种版本登陆全球70余家主流媒体,有力推动了人工智能技术与传统文化的双向奔赴。项目网站:https://vchitect.intern-ai.org.cn开源链接:https://github.com/Vchitect随着AIGC技术受到越来越广泛的应用,当前AI生成视频不够流畅、荒唐画面频出的现象也备受关注,甚至在各大视频网站,大量“人类模仿AI”的视频广为流传。有网友总结出AI生成视频的“特点”:不匀速但丝滑的运动、前后动作不要太有逻辑性……如何让AI生成视频逐渐“去鬼畜化”?科研人员采取了多种策略。通过原创的“超分插帧一体化”技术,通过书生·筑梦2.0单一模型即可完成视频插帧、超分和画面修复等多项任务,一键生成2K分辨率、24FPS的高清流畅画质。
在以上技术的支持下,用户可根据自身需求进行“内容矫正”,对已生成视频进行平滑性、稳定性、防抖性等画质处理,使画面符合高质量创作需求。例如,原始素材为“汽车行驶在山路上”,通过书生·筑梦2.0,将原始画质(720x480, 8FPS)提升至高画质(1440x960, 24FPS)水平,更加丝滑与真实。通过书生·筑梦2.0将“小猫在马路上开车”的视频做进一步处理,在分辨率与帧率不变的情况下,画面主体与环境细节进一步清晰。值得注意的是,书生·筑梦2.0充分考虑了光效对小猫瞳仁变化的影响,在处理后的视频中,将小猫瞳仁整体缩小,更加符合真实情况,体现了优异的真实世界理解能力。书生·筑梦 2.0包含文生视频与图生视频两种生成方式,可为用户提供多样化创作手段。向模型上传一张“海岸”风景照,在图生视频模式中,海浪由静止变奔涌,光效也可随着机位变动而产生差异,显示了书生·筑梦2.0强大的真实世界理解和图像扩散能力。为满足广告设计、社交媒体等不同应用场景需求,适配传统横屏大屏及移动端显示设备,书生·筑梦支持不同时长、分辨率及比例尺寸视频输出。输出类型综合领先于同类开源模型,覆盖4:3、9:16、16:9等常用尺寸,最长可生成20秒时长高清视频。
在硬件资源优化方面,“书生·筑梦 2.0”采用了轻量、高效的训练推理框架。与传统的模型训练推理方法相比,在该框架下,单卡可训练视频长度提升40%、推理效率提升60%。大幅度降低了用户的计算成本,同时显著加快了视频生成速度。推理过程中,该框架能够有效利用GPU显存,支持长达数分钟的视频序列训练。相较于当前主流开源框架,书生·筑梦2.0的轻量化框架可将优化应用于各类视频生成模型,为行业整体效率提升提供了系统层基础。书生·筑梦2.0训练推理框架采用 Activation Offload 与 Sequence Parallel 技术,充分优化显存,显著提升支持的序列长度。书生·筑梦2.0训练推理框架可有效降低扩散(Diffusion)计算冗余,加速推理,降低成本;单卡提速1.6倍,拓展至8卡提速14.8倍,效率提升呈指数级。为提升生成视频的内容质量和美学水平,研究人员从源头对书生·筑梦2.0的预训练数据进行精细化加工处理。数据集包含37万小时高质量视频,涵盖创意生活、风景及高质量影视数据,单条视频平均时长为15.8秒,每条视频平均获得了103个词的标注。研究人员通过光流及其他底层视觉变化与相关美学水平计算理论,对视频的运动信息和美感进行评估,保留具有强动态和美学的数据,将同一事件保存在同一个切片中,辅助模型生成更符合人类审美的视频内容。与此同时,面向视频生成模型研究,书生·筑梦2.0研究团队还提出了首个支持长视频生成模型的评测框架,覆盖28个文本生成视频模型和12个图像生成视频模型,支持各类主流模型接入评测,为厂商及研究机构提供客观的能力指标参考。相关论文《VBench: Comprehensive Benchmark Suite for Video Generative Models》同时入选CVPR 2024 Highlight论文名单。