太炸裂!文字生成1分钟视频!但有人担心……
当地时间2月15日,OpenAI官网发布首个文生视频模型Sora,能根据文字指令创建逼真而富有想象力的场景,生成长达一分钟的视频。
南都记者了解到,OpenAI正与red teamers合作,他们将对模型进行对抗性测试。视觉艺术家、设计师和电影制片人等也被允许访问Sora并提供反馈意见。
在Sora的技术报告中,OpenAI称其为“作为世界模拟器的视频生成模型”。OpenAI称,他们探索了在视频数据上对生成模型进行大规模训练的方法。目前其最大的模型Sora能够生成一分钟的高清视频。“研究结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条可行之路。”
据介绍,Sora能够生成包含多个角色、特定运动类型以及主体和背景准确细节的复杂场景。该模型不仅能理解用户在提示中提出的要求,还能理解这些事物在物理世界中是如何存在的。Sora还能在单个生成的视频中创建多个镜头,准确地体现角色和视觉风格。
在Sora相关介绍页面有48个视频demo,并配有对应的提示词。OpenAI称,该页所有视频均由Sora直接生成,未经修改。
视频demo截图。
OpenAI同时指出,当前的模型还存在弱点。它可能难以准确模拟复杂场景中的物理现象,也可能无法理解具体的因果关系,还可能混淆提示中的空间细节。在精确描述随着时间推移而发生的事件方面,该模型也可能存在困难。
在安全性方面,OpenAI称,他们正与red teamers(错误信息、仇恨内容和偏见等领域的专家)合作,后者将对模型进行对抗性测试。OpenAI还在开发有助于检测误导性内容的工具,例如检测分类器,它可以分辨出视频是否由Sora生成。
南都记者了解到,目前,red teamers可以使用Sora评估关键领域的危害或风险。一些视觉艺术家、设计师和电影制片人也可以访问并反馈意见,OpenAI由此可以了解如何改进模型,使其为创意专业人士提供有利帮助。
OpenAI称,将尽早分享研究进展,以便开始与其他人员合作并获得反馈,同时让公众了解人工智能的发展前景。
Sora的发布引发了业内广泛讨论。有人工智能专家和分析师表示,Sora视频的长度和质量超出了迄今为止所见的水平。伊利诺伊大学厄巴纳-香槟分校信息科学教授Ted Underwood称:“我没想到在接下来的两到三年内还会出现这种持续、连贯的视频生成水平。”
但牛津互联网研究所客座政策研究员Mutale Nkonde担心,这些工具可能会嵌入社会偏见,对人们的生活产生影响,并能将仇恨或令人痛心的现实事件通过文字描述变成逼真的镜头。
南方都市报(nddaily)、N视频报道
南都见习记者 农诗祺
▊ 南都君特选(戳下方标题)
春节福利,戳链接领取 ↓↓
南都红包封面 | 坚果礼盒+阿里会员 | 微信读书年卡+文创 | 700元京东养车券 | 奈雪的茶心意卡 | 探宝觅踪+青桔单车季卡 | 100元美团卡 | 100元高德打车券
南都新知年终回顾 ↓↓
商业大佬,20次访华北方有暖气,南方有“冷气”!广深已启用“阿根廷特朗普”当上总统后……宣布“野外灭绝”后,又孵出幼苗!演唱会上,天王自曝从小患病它要改名?这些国家都改过→