查看原文
其他

Sora已来,你准备好了吗?

Masir123 科学羊 2024-03-31

大家好,我是科学羊🐑,我们解读一篇关于AI的科普知识,希望能给你带来知识乐趣。


自从去年GPT在人工智能引领市场以来,AI领域极速发展,很多人为了这波红利不光是赚到了钱,同时还学到了新技能,甚至解放双手。


笔者认为,这个AI时代我们必定是要拥抱AI的变化,不是说我们要用它,而是说让它成为我们的助手。



在一个引人入胜的科技前沿探索中,OpenAI最近揭开了其视频创造新品——Sora的神秘面纱,这一创新在2024年2月17日首次对外亮相。



虽然这一技术目前仅向少数研究者开放试用,引发了广泛的好奇与讨论,大多数人只能通过网络上流出的效果图片来一窥究竟,其中一些图申至出自OpenAI的联合创始人阿尔特曼之手,他在社交平台X上亲自操作,响应网友的请求,展示了Sora的魔力。


Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots...


Prompt: The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.


Prompt: A Chinese Lunar New Year celebration video with Chinese Dragon


Prompt: Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.


以上都是由sora生成,来自OpenAI官网


然而,即便是那些令人瞩目的视频片段,也不免存在一些技术瑕疵——人物在被遮挡后突然消失,杯子破碎前水便开始泄露,或是人物的嘴唇动作略显不自然。


这些问题揭示了技术尚待优化的事实,这也是其尚未向大众开放使用的原因之一。


但这正是科技进步的魅力所在,未来的优化之路充满了无限可能。


Sora如何实现其超越竞争对手的独特之处。



核心挑战主要集中在两个方面:


一是,确保单帧画面中所有元素在空间上的逻辑关系合理;

二是,保证连续画面中元素在时间上的合理性,即在合适的时刻出现或消失。



官方简介《视频生成模型是世界模拟器》提供了对Sora原理的概览。


Sora采用了Diffusion和Transformer两种技术的结合,虽然这种结合并非OpenAI的原创,讽刺的是,其核心技术实际上源于谷歌。


事实上,谷歌也在Sora发布前不久宣布了自己的视频生成工具Lumiere,但似乎未能引起同等级别的关注。


OpenAI能够在使用相同技术方法的竞争中取得领先,关键在于产品化的水平。尽管许多大型语言模型早已开源,但产品的成功与否往往取决于实施的细节和执行的质量。


此外,OpenAI对Transformer模型深信不疑,认为通过增强计算力可以大幅提升性能。而谷歌的投资可能并未达到同样的水平。


Sora被称为“世界模拟器”,因为它仅通过分析图像就学会了模拟世界和多种物理规律。


这种学习并不依赖于传统的物理定律编码,而是通过观察和分析二维图像来实现的。


这与传统游戏引擎的做法截然不同,后者通常会直接编码物理定律来模拟现实世界的效果。


特斯拉的视觉自动驾驶系统在理解世界的能力上与Sora有着异曲同工之妙。


通过生成大量的驾驶场景视频,特斯拉极大地提高了其自动驾驶技术的性能,这些视频大多是自动生成的,减少了对真实路况训练的依赖。


尽管Sora目前还存在一些技术瑕疵,但这主要是由于算法参数和训练数据的局限。


随着技术的进步,我们有理由相信,Sora将能够更深入地理解和模拟物理世界,甚至可能揭示人类未曾发现的自然规律和场景。


未来几年,Sora的发展预计将引领信息服务行业迎来翻天覆地的变革,展现出超越人类想象的创造力和可能性。


PS:


对于AI领域不熟或者想未来在AI领域学到技能,甚至想通过AI盈利的朋友,可以私我入群,我可以给大家免费详解关于GPT等工具的使用手册以及Sora相关前沿文档,AI方面的知识库。


扫码进群,仅限对AI感兴趣的朋友加入


参考文献:

[1].《科技参考*3》

[2]. https://www.dedao.cn/course/article?id=Pvz6E94NYDg2JjQgOEVL3rAkWQjnwp

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存