揭秘炸裂的 Sora 背后 13 名大将 ,谢赛宁紧急辟谣:别带我,这是 OpenAI 呕心之作!
简简单单一句文本:“一个由水制成的行走人物游览了一个美术馆,里面有许多不同风格的美丽艺术品”,就得到了:
说一声:「寄居蟹使用白炽灯泡作为外壳行走在沙滩上」,可以快速生成一个创意视频:
Sora 的发布,再一次让科技圈沸腾:“OpenAI 这拨人难道真的没有研发瓶颈吗?”
更让人敬佩的是,当打开 Sora 的技术报告(https://openai.com/research/video-generation-models-as-world-simulators)时,我们惊讶地发现,和 GPT-4 数百名贡献者、以及 Google Gemini 论文中洋洋洒洒占据十几页篇幅的近千位作者相比,彻底革了视频命的文生视频大模型 Sora 背后,团队只有 13 人,其中由应届博士生带队,不乏有本科生的参与,也包含多位华人,最小年龄仅有 21 岁。
这样一支非常年轻的技术队伍,也为 Sora 未来增添了更多的期待。
应届博士领衔、两大研发负责人坐阵
根据公开资料显示,Sora 项目的两大研发负责人 Tim Brooks 和 Bill Peebles 师出同门,皆是于 2023 年从伯克利人工智能研究中心毕业的博士生,导师是 Alyosha Efros。
Tim Brooks
Tim Brooks,图源 https://www.timothybrooks.com/about/
作为 OpenAI 的研究科学家,Tim Brooks 也是 DALL·E 3 的作者,此次共同领导了视频生成模型 Sora。
2017 年,Tim Brooks 毕业于美国卡内基梅隆大学。2023 年在博士期间,Tim Brooks 发明了图像生成工具 InstructPix2Pix 技术(https://www.timothybrooks.com/instruct-pix2pix),具有高度的自由度、逼真度和简便的操作等特点。
彼时此项目一经发布便受到不少 AI 技术人的关注,截至目前,该项目已在 GitHub 上获得了 5.7k 个 Star。
毕业之后,Tim Brooks 先后在 Facebook、Google、英伟达工作过,曾在 Google 主要负责研究 Pixel 手机摄像头中的 AI 技术,以及在英伟达领导视频生成研究项目。
对于其本人而言,Tim Brooks 一直在致力于研究模拟物理世界的大规模生成模型。
当然,除了日常重心放在前沿 AI 技术研究之外,Tim Brooks 的兴趣也非常广泛,覆盖摄影、表演、唱歌等多维度,正所谓「台前能歌善舞,幕后研发好手」。
他摄影作品曾获得《国家地理杂志》、《大自然最佳摄影》和美国国家野生动物协会颁发的奖项。
部分摄影作品
同时,他曾在纽约百老汇灯塔剧院(Beacon Theatre)表演过,并获得过无伴奏 beatboxing 国际大奖。
Bill Peebles(https://www.wpeebles.com/)
师出同门的 William (Bill) Peebles 要比 Tim Brooks 迟两个月到 OpenAI。
在此之前,他在麻省理工学院读本科,导师是 Antonio Torralba。博士期间,Tim Brooks 的专业是 AI,而 Bill Peebles 还是聚焦在计算机科学方面,也在研究用于密集视觉对齐 (GANgealing) 和解缠结图像处理 (Hessian Penalty) 的 GAN。
学生生涯中,Bill Peebles 曾在 FAIR、Adobe Research 和 NVIDIA 实习,他发表的《GAN-Supervised Dense Visual Alignment》论文还曾入围CVPR 2022 最佳论文候选。
2023 年,他和毕业于上海交通大学的天才少年、硕博士均毕业于加州大学圣迭戈分校、现任纽约大学的助理教授的谢赛宁合作研究了现如今 Sora 项目技术基础之一的 DiT(扩散 Transformer),还发表了《Scalable diffusion models with transformers》论文。
值得一提的是,近日,Meta AI 科学家 Yann LeCun 在 X 平台上透露,「这篇论文曾在 2023 年的计算机视觉会议(CVR2023)上因‘缺少创新性’而遭到拒绝,但在 2023 年国际计算机视觉会议(ICCV2023)上被接受与发表,并且构成了现在 Sora 的基础。」
这么一说,导致后来有人直接误解谢赛宁是 Sora 的作者之一,引得一向非常低调的谢赛宁在社交平台紧急辟谣。
他表示,「Sora 是 bill 他们在 openai 的呕心之作,我虽然不知道细节,但是bill 告诉我他们每天基本不睡觉高强度工作了一年。跟我的关系是什么呢,只能说是一点关系都没有。」
同时谢赛宁也对这款复杂的系统进行了简单的评价,其表示,「人才第一,数据第二,算力第三,其他都没有什么是不可替代的。」
而针对业界很多人讨论 Sora 为何未在中国出现的问题,谢赛宁认为,“可能也得问问假设真的出现了(可能很快),我们有没有准备好?”。
他表示:
如何能保证知识和创意的通畅准确传播,让每个人拥有讲述和传播自己故事的「超能力」,做到某种意义上的信息平权。但是又不被恶意利用,变成某些人某些组织的谋利和操纵工具。oai有一整套的redteaming、safety guardrail的研究部署,欧美有逐渐成熟的监管体系,我们准备好了吗?
这件事跟技术成熟前,生成点小打小闹的漂亮图片不是一个量级,真相捕捉和黑镜里讲的故事,很有可能很快变成现实。
系统负责人—— Connor Holmes
本科期间主攻电气电子工程的 Connor Holmes,后来学业生涯中主要研究高性能计算,同时也在微软做研究实习生。
后来,毕业了就直接加入微软担任研究员。并在 2023 年 12 月,跳槽到 OpenAI 便投身到 Sora 的研发中,此次担任的角色为系统负责人。此前,也参与过 DALL·E 3 的推理优化工作。
在其个人履历上,他写道,「作为一名研究人员,我期待着解决在扩展深度学习推理和训练工作负载时系统效率低下的问题。我在 LLM、BERT 式编码器、RNN 和 UNets 方面拥有丰富的工作经验,并期待着在新兴硬件上启用和开发未来的架构。」
重要贡献者
Will DePue
在 Sora 团队中,年龄最小的可能要属 2003 年出生的 Will DePue。
他在 2021 年从美国密歇根大学本科毕业,也是 OpenAI Sora 项目团队成员中为数不多的本科学历者之一。
在个人网站上,Will DePue 第一句便写道——只是想对世界产生积极的影响。所以虽然他年轻,但是职业经历非常丰富。
在高中时候,Will DePue 就创办了一家公司,开发了一个专为高中生定制的聊天平台,方便老师和学生之间的快速沟通和远程辅导。遗憾的是,在筹集了朋友和家人的资金之后,这个平台于 2021 年 6 月关闭。
初次尝试以失败告终,不过 Will DePue 也没有闲着,又从头开始建立了一家公司,还从全国各地招募一支远程团队,他作为联合创始人兼首席执行官,基于聊天社区研发了一款名为 DeepALTR 的可视化、分析和工具,保存并分析了超过 100,000,000 个社区数据点,后来这个平台被社区管理公司 Commsor, Inc. 收购,此后 Will DePue 也进入了 Commsor 担任软件工程师。
2023 年 7 月,Will DePue 作为驻场技术人员加入 OpenAI,参与应用研究项目。后来在今年 1 月,正式加入 Sora 项目团队。
Li Jing
2014 年从北京大学本科毕业的 Li Jing,2019 年在美国麻省理工学院获得了物理学博士学位。他先后作为联合创始人创办过公司,也在麻省理工担任过研究助理,后在 Meta 公司与 Yann LeCun 合作进行了博士后研究。
2022 年,Li Jing 加入 OpenAI,担任研究员,主攻帮助 AI 理解现实世界并创造新的智能的研究,除了这一次参与到 Sora 项目中,他也是 DALL·E 3 的作者之一。
David Schnurr
相比前几位,David Schnurr 在 OpenAI 的工龄最长,他在 2020 年就加入了 OpenAI。先后参与了 DALL·E、ChatGPT 的研发。
在加入 OpenAI 之前,他和团队创建了 Graphiq 的可视化平台,后来被亚马逊收购,直至现在该平台还在为 Amazon Alexa 设备提供支持。同时,David Schnurr 也曾是 Uber 的高级软件工程师。
Joe Taylor
Joe Taylor 的履历,同样让人惊讶。
严格来说,Joe Taylor 并非是计算机或者 AI 专业的科班出身,他于 2010 年毕业于旧金山艺术大学,主修新媒体、计算机艺术专业,拿的是美术学士(BFA)学位。
不过,Joe Taylor 从毕业以来就一直从事开发相关的工作,早期是网页设计师,后来转为前端开发,一路成为高级、资深软件工程师。
如今在 Sora 团队,他致力于早期研究,帮助加速研究、建立产品直觉和方向、构建 0 -> 1 工程系统。在加入 Sora 团队之前,Joe Taylor 也曾在 ChatGPT 团队工作过。
Ricky Wang
这位华人工程师 Ricky Wang,毕业于 UC 伯克利,曾经在 Meta 工作多年。
直至今年 1 月份,以技术员身份正式加入 OpenAI,负责 Sora 项目的研发。
同样是华人工程师的 Yufei Guo,网络上关于他的公开资料少之又少,不过在 OpenAI 的 GPT-4、DALL-E 3 项目中,都能看到他的身影。
Aditya Ramesh
Aditya Ramesh 也是 OpenAI 的一名元老,主导了 DALL·E、DALL·E 2 和 DALL·E 3 项目,还都是论文的一作。
除了以上几位大将,本次 Sora 项目的主力还有 Troy Luhman、Eric Luhman、Clarence Wing Yin Ng 几位,只不过这几位相对而言都非常低调,并无太多的公开资料。
OpenAI 在线招聘,Sora 急缺大规模视频基础设施经验的人
在这么多技术专家加持下,OpenAI 借助这一项目的热度,也没有浪费这次机会,线上摇人,开启招聘模式。
Sora 项目团队成员之一 David Schnurr 发推表示,“我们正在招聘具有大规模视频基础设施(服务、处理、摄取等)经验的人员。如果你认为自己是合适人选,请与我们联系!”
Sora 的影响
从以上 Sora 项目成员的履历中不难看出,这是一支非常年轻的团队,而且成立时间也未超过一年。短短时间内,带来如此震撼的效果,甚至在 OpenAI 最新公开的示例中,Sora 还能生成涉及一系列事件的故事,尽管它还远不够完美,但已经超乎不少人的想象。
注:在这段视频中,要求一只金毛猎犬和一只萨摩耶犬穿过纽约市,然后一辆出租车应该停下来让狗狗们通过人行横道,接着它们应该走过一个椒盐卷饼和热狗摊,最后它们应该看百老汇的标志。
不过,Sora 的强大也引发不少人的焦虑。在 OpenAI 开发者论坛,一则“Sora 可能会毁掉人们的生活”的帖子吸引了 5.6k 用户的关注,有用户表示表示:
「Sora 将会结束很多人的职业生涯。摄影师、艺术家、动画师、电影制作人,甚至可能还有演员。从事这些行业已经很困难了,现在人们可能不再有工作了。
这项技术很有趣而且非常独特,看到它所取得的进步令人惊讶,但我希望人工智能能够在人们热衷的其他职业领域取得进步。不仅如此,如果人们制作其他人犯下他们没有犯下的罪行的视频会怎样?我们能区分人工智能和现实吗?会有法律出台吗?世界会因此而崩溃吗?
我今年16岁,打算上大学成为一名动画师。成为一名动画师并与人们分享我的艺术作品、进行创作、在我制作的每件作品中表达爱是我一生的梦想。现在,我认为我永远不会拥有那样的未来。我很害怕。」
就目前而言,因为法律法规、道德规范的缺失,以及应用场景不可控等因素的限制,这也是为什么 OpenAI 尚未广泛开放 Sora 权限的重要原因。
而就当下而言,作为科技从业者我们究竟该如何面对 Sora 的浪潮,对此,以一位技术老兵的观点希望与大家分享:
“我今年 68 岁,正处于人生旅程的相反阶段。在你这个年纪,我也有同样的热情成为一名作家。但几年后,当个人电脑问世时,这种热情就变成了成为一名计算机程序员。从那时起我就一直这样做。
我的观点是:
不要失去你的热情。尽你所能学习有关这项新技术的一切,并弄清楚如何使用它来实现你的梦想。
对生活的变化持开放态度。似乎没有什么可以改变你的想法,但没有人知道未来。人在变,世界在变,尽管听起来令人难以置信,但有一天你可能会对其他事情充满热情。
当 Sam Altman 宣布新的 GPT 和 AI 助手时,去年开发 RAG 应用程序的每个人都吓坏了。我没有。作为一名 RAG(有时称为“Wrapper”)开发人员,我认为这是一个独特的机会。到目前为止,我还没有错。
所以,SORA 可能正是你的机会。用它来创作并在你创作的每件作品中表达爱。”
最后,你如何看待 Sora 这项技术的诞生?
参考:
https://openai.com/research/video-generation-models-as-world-simulators
https://community.openai.com/t/sora-could-ruin-peoples-lifes/635220
https://scholar.google.com/citations?user=sonlKXIAAAAJ&hl=en
https://www.linkedin.com/in/timothyebrooks/
https://www.linkedin.com/in/connor-holmes-23a68b73/
https://www.linkedin.com/in/willdepue/
▶魅族宣布:停止传统手机新项目;宝马确认发生数据泄露事件;Sora助推OpenAI估值飙升275% | 极客头条
▶下一代智能版 Windows 要来了?微软推出首个 Windows Agent,命名为 UFO!
▶只修改一个关键参数,就会毁了整个百亿参数大模型?| 新程序员