查看原文
其他

Sora能生成全部精准的物理世界?答:不可能!

Masir123 科学羊 2024-03-31


大家好,我是科学羊🐑,这里是AI专辑~


2023年是AI的元年!


2023年标志着人工智能领域的一次重大飞跃,成为一个分水岭,此后的重要科技新闻中,超过一半与AI的革新紧密相连。


今天借鉴卓克的科技参考给大家解读下这方面的知识。


一、重点关注性能飞跃的突破


性能的巨大飞跃是我们首先需要关注的。当前AI领域的迅猛发展,可比拟于1920年代的量子力学、60年代的芯片行业和90年代的显卡行业。


这一时期,创新活力充沛,发展路径多样化。


在这样一个创新丰富的时代,每个细分领域都面临着众多选择,而哪一种选择最终胜出,只能随时间揭晓。


这意味着参与者面临的机会和风险并存。即便是如今的AI巨头OpenAI,也不敢保证自己能够持续领先。


AI领域的龙头企业,需要经过10至20年的市场竞争才能最终确立自己的地位。


在这个阶段,那些在关键性能指标上远超竞争对手的产品,往往代表着在硬件、算法、训练方法或产品化等方面的一种或几种成功的结合。


这些成功的案例很可能成为后来者效仿的蓝本,从而推动整个领域的进步。


例如,Sora在视频生成领域的突破,GPT-4在处理多种语言任务的性能上的优异表现,都是性能大幅领先的典范。


而那些声称“超越”、“比肩”或“接近”某模型性能的新闻,往往只是在某些过度训练的任务上,利用开源模型取得略高的分数,而并非真正意义上的创新。


因此,我们只需要关注那些真正意义上性能大幅提升的突破。


二、警惕跟风效应


当一个性能飞跃的突破问世后,接下来的1至3个月内,市场上往往会涌现出大量类似产品。


这些产品大多是在受到刺激后急忙推出的,可能存在诸多问题。


例如,谷歌的Bard和Gemeni Pro,以及Anthropic在ChatGPT发布后推出的Claude,都是这种情况的例子。这些产品虽然体现了创新能力,但其实并不值得过多的关注。


还有,一定要注意国内假货的行为。


我有一个朋友说是网上购买了GPT4.0的镜像,但是实际用的时候还真正的GPT相差甚远,后来我仔细研究发现他买的是国内某平台的接口。


三、谷歌:AI创新的源泉


在AI领域,如果要指一个最大的创新源头,那无疑是谷歌。


谷歌不仅在算法领域持续领先,如Transformer模型、Diffusion+Transformer模型等,还在多模态大模型、变分自编码器(VAEs)、生成式对抗网络(GANs)等领域做出了开创性的贡献。


谷歌之所以能够成为创新的源泉,一方面是因为其雄厚的财力,另一方面则是因为其独特的人才培养机制,允许贤才专注于学术突破,而不是简单的商业利益。


四、新硬件与新模型的关注点


随着AI领域的发展,新的硬件和模型的出现也值得我们的关注。


例如,英伟达虽然目前在AI训练硬件上占据主导地位,但亚马逊、微软和特斯拉等公司也在努力开发自己的AI训练专用处理器,这可能会为AI领域带来新的变革。


假设在一个充满惊喜的世界里,Sora模型仅由数十亿参数组成,占用的存储空间也不过十几GB。


这个假设为我们描绘了一个颇具启示性的景象:在这个场景下,那些投入巨资研发自主芯片的科技巨头,其实是在进行一场成本高昂的自我牺牲。


与此同时,那些以产品质量高、反应速度快著称的小型企业,则获得了逆袭的黄金机会。


这正好验证了一个观点:在产品开发上,速度和质量是小企业的杀手锏。



然而,故事的反面同样引人注目。如果不久的将来,OpenAI宣布Sora实际上是一个由几万亿参数构成的庞大模型,需要依赖十万张H100 GPU芯片训练达六个月之久,这将标志着一个全新的时代的来临。


这不仅意味着全球的科技巨头们将不得不投身于一场疯狂的资金募集大战,而且也预示着对于那些初创的小企业而言,实现反超变得更加遥不可及,竞争格局也将加速向成熟阶段过渡。


这两种截然不同的情景都强调了新模型特征对新硬件需求的直接影响,从而凸显了紧密关注这两个领域发展的重要性。无论是对于行业巨头,还是处于起步阶段的小企业,理解并适应这一变化,都是未来成功的关键。


五、模型能力上限的探讨



最后,我们应该关注模型能力上限的相关讨论。


对于AI未来的担忧和讨论虽然有其必要性,但我们更应该专注于模型能力的极限和可能达到的高度。


例如,Sora等视频生成模型的潜能,以及未来模型在更大规模训练后的可能性。


近日,一篇利用流形分布定律这一数学理论来分析Sora潜能的文章引起了广泛关注。


文章深入探讨了Transformer模型处理自然语言的能力及其局限性,得出了引人深思的结论。


Transformer模型(直译为“变换器”)是一种采用自注意力机制的深度学习模型,这一机制可以按输入数据各部分重要性的不同而分配不同的权重。该模型主要用于自然语言处理(NLP)与计算机视觉(CV)领域。


Transformer模型基础


文章指出,尽管Transformer模型在某种程度上能够处理和理解自然语言,但是当涉及到精确表达物理定律时,自然语言的表达能力就显得力不从心了。


精确的物理定律表达需要依赖于偏微分方程,这一点揭示了基于概率的世界模型固有的局限性。


总之,在AI领域飞速发展的今天,我们应该着重关注那些真正有创新意义的突破,而不是被市场的喧嚣所迷惑。


通过聚焦性能飞跃的创新、关注领先企业的理论进展、以及对新硬件和模型的探索,我们可以更准确地把握科技发展的脉络。


PS:


对于AI领域不熟或者想未来在AI领域学到技能,甚至想通过AI盈利的朋友,可以私我入群,我可以给大家免费详解关于GPT等工具的使用手册以及Sora相关前沿文档,AI方面的知识库。


扫码进群,仅限对AI感兴趣的朋友加入


参考文献:

[1].《卓克*科技参考*3》

[2]. https://www.dedao.cn/course/article?id=aYB83z6N9dqxVyPz4QK7ZMvy0GQDO5


往期推荐



Sora已来,你准备好了吗?

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存