OpenAI Sora发布时间定档,可能允许“裸体”内容出现
编译 | 核子可乐、Tina
OpenAI 公司首席技术官 Mira Murati 最近在接受《华尔街日报》采访时,透露 Sora 将于“今年”推出,“可能需要几个月”。
Murati 于 2018 年加入 OpenAI,担任应用人工智能与合作关系副总裁。彼时,OpenAI 的研究工作正处于快速发展阶段,巨额开支也逐渐超出其承受能力。2019 年,OpenAI 转型为盈利实体,但设置了盈利上限。
Murati 在 OpenAI 晋升迅速,先后担任产品与合作关系高级副总裁,以及首席技术官 (CTO)。在她担任 CTO 期间,OpenAI 发布了 DALL-E 2 和 ChatGPT 等备受瞩目的 AI 产品,引起了公众的广泛关注。
《华尔街日报》的这次采访广泛探讨了相关主题,包括 AI 引擎能够生成哪些内容类型、以及当前正在实施的安全措施。打击错误信息已经成为目前 OpenAI 公司的工作重点。Murati 表示,Sora 将设置多重安全护栏,以确保该项技术不会遭到滥用。她解释称,开发团队不希望发布“可能影响全球选举”的功能。报道指出,Sora 将遵循与 Dall-E 相同的提示词政策,即拒绝生成美国总统等“公众人物形象”。
Sora 的正式版本还将为输出添加水印。画面右下角将显示半透明的 OpenAI 标识,表示内容为 AI 生成产物。Murati 补充道,开发团队还考虑将内容来源作为另一项重要指标,即使用元数据来提供关于数字媒体的来源信息。这些努力当然都很好,但恐怕还远远不够。去年,一组研究人员已经成功打破了“现有图像水印保护”机制,其中也包括 OpenAI 的保护方案。希望这次开发团队能想出更加牢不可破的新办法。
和传闻中生成视频需要数个小时的说法不同,现场展示 Sora 生成一段 20 秒长、720P 分辨率的视频,只用了几分钟。
另外,Sora 的运行成本要比 Dall-E“贵很多”。OpenAI 正在尝试使这个工具在公开发布时的成本与公司的 AI 文本到图片模型 DALL-E“相似”。
在聊起 Sora 的未来发展时,Murati 带来了不少有趣的消息。首先,开发团队计划“最终”为视频添加声音,以使其观感更加真实。编辑工具也在筹备当中,希望为在线创作者提供一种修复 AI 错误的良好方法。
尽管 Sora 已经相当先进,但它同样会经常犯错。采访中最突出的例子就是一段提示词,其要求引擎生成一段视频,内容是机器人从一名女性手中偷走相机。可结果恰恰相反,片段显示女子身体有一部分变成了机械结构。Murati 承认 Sora 仍有改进的空间,并表示 Sora AI“在连续性方面已经相当出色,但还不够完美”。
此外,展示裸体也被提上了议程。Murati 指出,OpenAI 正在与“艺术家们……共同探索”可以展示哪些裸体内容:“就像你可以想象的那样…… 艺术家们可能希望在创作过程中拥有更多的控制权。目前,我们正与来自不同领域的艺术家和创作者合作,共同探索最实用的功能,以及该工具应该提供怎样的灵活性水平。”
开发团队发现“艺术性”的裸体和严禁未经同意的 deepfakes 之间似乎并没有不可调和的矛盾。当然,OpenAI 肯定不希望被再次卷入的舆论讨伐的中心,他们的唯一目标是把自家产品打造成拓展创造力的平台。
在被问及 Sora 使用的训练数据时,Murati 的态度则有些躲闪。OpenAI 最近面临版权侵权诉讼,指控该 AI 公司在未经许可的情况下抓取内容来训练 ChatGPT。
她先是宣称,据她所知除了“公开可用的数据及许可数据”之外,应该没有使用其他数据来训练 AI。但 Murati 也承认,她并不确定有训练期间有没有使用过来自 YouTube、Facebook 或者 Instagram 的视频素材。而且她后来坦言,确实有使用 Shutterstock 的媒体内容进行训练。这里给大家提个醒,Shutterstock 与 OpenAI 之间属于合作伙伴关系,也许这就是 Murati 愿意确认这一素材来源的理由。
有网友评论说:“耐人寻味的是,当被问及他们训练数据来源时,Murati 的回答非常谨慎。她的肢体语言透露了很多信息,很明显他们使用了来自受版权保护来源的训练数据。多少有点「事后求原谅,而非事先请求许可」的意思。”
Sora 项目人员 Tim Brooks 在接受其他媒体采访时,也对“使用什么训练数据的问题”的问题避而不答:“这个不方便说太细,但大体上,包括公开数据及 OpenAI 的被授权数据。”
不过 Tim Brooks 在回答这个问题中,也额外分享了他们的通过海量视频数据进行训练的一个细节:“以前,不论图像还是视频模型,大家通常只在一个固定尺寸上进行训练。而我们使用了不同时长、比例和清晰度的视频,来训练 Sora。至于做法,我们把各种各样的图片和视频,不管是宽屏的、长条的、小片的、高清的还是低清的,我们都把它们分割成了一小块一小块的。接着,我们可以根据输入视频的大小,训练模型认识不同数量的小块。通过这种方式,我们的模型就能够更加灵活地学习各种数据,同时也能生成不同分辨率和尺寸的内容。”
Murati 承诺 Sora“肯定”会在今年年底前推出,但并没有给出确切日期,只表示应该会在未来几个月内发布。目前,开发团队仍在对引擎进行安全测试,希望找到任何“漏洞、偏见以及其他有害结果”。
如果大家想要第一时间体验 Sora,我们建议您首先学会使用编辑软件。毕竟需要牢记一点,Sora 会犯很多错误,哪怕在正式版发布后也不可能彻底避免。总之,让我们共同期待这位新秀的亮相演出!
参考链接:
https://www.wsj.com/tech/personal-tech/openai-cto-sora-generative-video-interview-b66320bb
https://archive.ph/D1pdw#selection-4625.38-4625.44
https://www.techradar.com/computing/artificial-intelligence/openais-sora-will-one-day-add-audio-editing-and-may-allow-nudity-in-content
https://www.reddit.com/r/OpenAI/comments/1bdta0a/mira_murati_says_openai_plans_to_release_sora/
内容推荐
OpenAI 的首个视频生成模型 Sora 发布,效果令人惊叹。作为技术人,除了看热闹,我们还要看门道;咱也不必跟着瞎焦虑,踏实下来研究些干货内容。看看郑建勋老师对 Sora 官方技术报告的深度解读,关注「AI前线」,回复「Sora」免费领取。
想要了解AI技术的最新演进与落地?微软技术专家的分享你不能错过!
3月29日(周五)13:00-17:00,Azure OpenAI Day武汉站即将落地!如果你对于Sora 、GPT-4 Vision、Azure OpenAI最新模型等时下热点感兴趣;如果你期待了解微软对于AI技术的解读与思考;如果你想收获一手AI技术的落地实践!欢迎报名此次活动,席位有限,抓紧扫码抢位!