查看原文
其他

有关Sora的几个焦点问题,蔡恒进、邢杰们这么看

元界君 元界
2024-09-06


面对Sora,为什么连胡锡进都“心神不宁”起来?

周鸿祎:Sora意味着AGI加速实现,孟虹:AGI根本就是伪命题


元界将第一次组织论坛的主题给到了Sora。


昨晚,中国空间物理学家,武汉大学计算机学院教授、博士生导师蔡恒进,优实资本董事长邢杰,“燕园叶话·元宇宙沙龙”主理人叶毓睿,猴子无限创始人尹伯昊,来到元界线上Sora专场直播间。


这次直播以“用何种姿态看Sora、影响及人工智能的未来”为主题,由元界牵头乐生活与爱IT Plus、猴子无限共同落地,这是元界第一次组织论坛。


有技术大佬分析认为,Sora的参数规模仅有30亿。蔡恒进表示,如果如此,那就非常具有革命性。


邢杰认为,Sora总体来讲相当于 GPT3的水平,谈不3.5,虽然其有些工程技术上的重大创新,但对现实世界的理解还处于非常初级阶段,可能是未来世界模型的一个探索方向和一个里程碑,谈不上是全部。而年内,Sora就可能对广告、视频等行业产生突出影响。


有网友留言称,组这种高端局,感觉超级有价值。




谈Sora的进展与时机



仓促发布,事出有因


邢杰认为,这次技术发布有点仓促,显然是被谷歌发布Gemini 1.5所调动而临时发布的,不是准备发布的。当不能立刻把GPT5.0放出来时,就把这么一个不成熟的视频大模型先放了出来。


所以有人称OpenAI奥特曼是营销高手,原因也在于此。“他放出来的时候没有开放测试,没有开放注册,是一个完全没有准备好、纯粹从市场竞争的角度临时放出来的一个产品。”邢杰表示。


不过,他根据以往 OpenAI推进节奏的经验判断,全面开放测施,估计时间不长,还需要半个月到一个月的打磨时间。


足够惊艳,有革命性的地方


之前生成的视频,主要是基于图片和文字,效果相当于定格动画,根本谈不上是视频,很烂。以此,邢杰认为,从OpenAI测试放出来的48个视频从9秒到60秒的效果来看,已经足够惊艳。


蔡恒进20年前就开始研究机器能不能像人一样思考,机器跟人的差异到底在哪里。他的博士论文的主题就是有关计算机模拟,继《元宇宙的本质:人类未来的超级智能系统》之后,他最近刚出版《类人意识与类人智能》一书。


在他看来,在视频中咬面包,可以发现缺口,这是以前做不到。原来吃面条,那个面条还在空中。“这一年,无论视频生成,还是图片生成进展非常人,很让人震撼,但可以理解”


有技术大佬分析认为,Sora的参数规模仅有30亿。蔡恒进表示,如果如此,就非常有革命性。而此前他一直以为Sora进步需要付出巨大的代价,无论是投喂大量的数据,还是算力成本。


没有实现技术突破,还处于小孩阶段


蔡恒进和邢杰均认为Sora技术上尚未取得突破。


虽然前后一致性逻辑一致性动作连续性,现在能处理得比较好,机器有一定的学习能力,但“现在的水平,可能相当于小孩子三看到的世界”。它开始理解,杯子掉到地上会碎呀,或者猫走到椅子后,尾巴显出来那个猫还在,诸如此类。


就像sora团队所公布的,几只狗在嬉戏时就由几只变得更多,“这就说明还有问题。狗的数量不变,这是小孩子到一定时候都知道的。”


蔡恒进进一步认为,目前Sora还没有真正理解背后的逻辑,或者说因果性。

 

邢杰表示,从能力上来讲,Sora应该还不太成熟,只是挑选了生成好的,技术上还没有完全准备好。


虽然跟现在的Pika、Runway差别蛮大,但“Sora应该还没有实现大的技术突破”,刑杰认为。


现在的人工智能技术主要是工程技术上的突破,大模型的算法基于扩散模型transformer。这一次sora主要也是基于transformer,只是说在多帧技术等工程实现方面有很大差别。


在他看来,GPT4.0学习了整个现代语言的语法体系,“如果非要做一个对应的话,Sora更多的可以被看成是类似于GPT3.0的东西,3.5 可能还算不上。”


“AI寒武纪”公众号最近一篇文章也谈及Meta首席科学家、图灵奖得主Yann LeCun首次表明对sora 的看法:


从提示生成大部分看起来真实的视频并不意味着系统真正理解物理世界。生成视频和从世界模型中预测未来是两码事。

 

邢杰直播时截图



谈现实世界到底存不存在


有人说,Sora已经能够仿真世界。邢杰表示,“这个其实是夸大其词。


从目前看,它对真实世界还谈不上理解,跟小朋友模仿大人动作是一样的。小朋友对世界也有理解,但只是模仿,他的理解不是基于各个专业学科的物理知识、化学知识。


国外有几个技术大神说sora调用了UE5,说得言之凿凿,sora的领头人就出来辟谣,说根本没有调用,表示sora主要是基于原来视频的学习,类推和模仿出来的物理特性。


"这一点从本质上来讲,不是基于专业知识,而是基于大量同类视频的模仿,然后基于多帧技术的关联形成的,这样的漏洞非常多。"邢杰表示,只是相当于小朋友们认知世界的方式,在模仿,然后生成,谈不上对真实世界的理解。



谈Sora的路径


邢杰也表示,小孩子的学习方式往往是最高效的,他不需要学一堆化学、物理、数学,也能学得有模有样。有的小朋友也会炒菜,但不是烹饪,他不知道食材,也不知道工艺,但他炒出来了东西,就是有模有样。


所以,他认为,从这个阶段来讲,不要对sora苛求太多,基于这个视频生成的路径和方向,是目前看起来最有希望的一个方向,甚至可以说它是探索真正的AGI过程中的一个里程碑。


不过,要做成Meta AI首席人工智能科学家杨立昆所说的世界模型,现有的几个大模型还不足以走到最后。


他认为,杨立昆一直批评说GPT活不到5年,有点夸张和绝对。目前来看,GPT大语言模型,是相对最有效的,当然它不是终极的世界模型。



谈AGI


蔡恒进一直持有一个观点,AGI的到来是没有任何障碍的,而且它会到来,而且很快会到来。“我几个月前就讲,看得更远一点,朝后看一年两年最多可能需要三年,AGI就能到来。


昨日元界刊发中央美院孟虹主任观点周鸿祎:Sora意味着AGI加速实现,孟虹:AGI根本就是伪命题


邢杰表示,有关孟虹老师所说,AGI 不存在是一个虚相,从某种角度上来讲,对,也不对。


在他看来,对世界可以有不同的解读,化学家可以是一套解读,数学家有一套解读,物理学家也可以有一个解读,然后文学家、艺术家可以有自己的解读。


“说他对,原因在于,目前对AGI的定义本身就不对,目前对人工智能四个字的定义也不对。现在把这套智能叫人工智能,这个名词就不恰当。”他说。


在他看来,大家在说的人工智能和AGI指的实际是硅基智能和人类智能,“但是大家将错就错,就这么用了”。


请问存不存在人类智能?他认为当然存在。只是给人类智能一个精确的定义很难,它是由无数学科构成的一个汇总。人类智能是无数学科,包括无数还没有探索到的未知领域的融合形成的,这个就是我们讲的AGI,把它映射成硅基智能。


但硅基智能能不能独立存在,这是一个单独的话题,就是AGI能不能脱离人类智能独立存在,自我发展,这是一个课题,但目前大家看到的更多一个方向是硅基智能应该是不能够完全脱离人类智能,它脱离不了人力创造的传感器和执行环节,必须跟人类智能融合起来存在。


那AGI 存在不存在,那当然是存在的。对应于人类智能,一定会有硅基智能。两者协同,才能发挥巨大的威力、作用。


但换一个视角来讲,他认为,虚相之说又不对。人类的大脑就相当于一个分布式的智能,把硅基智能作为一个云式存在,相当于分布式智能汇集起来的一个云的系统。它跟人类智能融合之后,形成了不同智能的一个结构形态。


“从这个角度上来讲,讨论AGI当然是有意义,但要谈论到某一个具体场景的时候,一定讲AGI 在这个场景下,应该呈现怎样的专业知识和专业认知,你不能泛泛地谈一个智能。”他说。


他说,好比谈一个人的智商,怎么体现他的智商,一定是在某件具体的场景和某个具体的事情上来看他的智商够不够。通用人工智能是不是智能,也一定要放在某个具体的场景和领域中。这个话题学术上它很难有个很准确的定义,但是肯定有讨论的意义和价值。



谈对视频产业的影响


邢杰表示,当下来讲,用定格动画的AIGC视频,结合sora生成视频的方式,对当前的广告业、短剧、短视频,已经足够产生非常大的压力。


在他看来,原来单一技术肯定是不够的。他举例说,定格动画和现在的Pika和Runway的方式,其实是生成了若干个关键桢,只是桢和桢之间做得很生硬,运动方式和轨迹都很生硬。


“但是这种生硬的关键桢,加上sora目前所呈现出来的一定想象力和推理的智慧涌现,已经能够做到非常不错地创造新的流量的需要了。”他认为。


他认为,Sora对广告业和短视频的影响会比较直接,对短剧的影响可能要到年底才会显现出来,届时可能会冒出来几部有意思的短剧,足够吸引流量。


而什么时间影响到长电影,他研判最起码可能还需要两到三年的时间,但对电影的宣发、传播,现在就可以产生直接影响,接下来影响更大。包括对于电影的融资和初期的制片,也会产生很大的影响。“一个剧本出来之后,迅速利用工具形成几个几分钟的样片,就可能不需要再找演员拍片,花一堆钱。融资也是如此。”


他总结说,新的生产方式,要从整体制作上对短剧、电视剧、电影产生颠覆性的影响,还需要两三年时间。

 


谈创业方向



PK主赛道,找死!结合行业、场景应用,是大部分人的机会



AIGC、Sora等下,就未来两三年视频领域的创业,邢杰表示,大概有两个方向:一个方向是从民用级的方向去做,面向老百姓,相当于AIGC让每一个用户都能UGC,像美图秀秀,这是一个方向。要求没那么高。


还有一个方面,他觉得可以发展出影视行业的专用模型,或者说专用数字底座,就是基于视频生成模型,应该有专业公司出来做行业底座。


这个底座要解决的是什么?他表示,就是把好莱坞的目前的电影工业,拆解成整个工业元素、结构和模块。这样的一个大模型的生成系统,还能应用于各种剧方面去,否则它只是一个普遍的通用能力,无法形成工业化的电影。


“这个底座做下来应该包含角色、服装、道具、场景、情节等诸如此类的重要能力,再加上他的生存能力的结合,才能作为一个我们讲的类似于像好莱坞工业制片一样的产业应用,toB和toP(PGC)。”他说。


他引用奥特曼的话说,大家不要在主赛道上去创业,否则会死得比较惨。在民用方向上,他建议创业者不要去跟大公司PK,干不过的,但是在行业大模型方向,还是有机会的,譬如在广告的专业领域方面,去做一些优化。“这个我觉得对于很多的创业者和做文化创意台的人,应该会有很多的机会。围绕着这个生态做的话,我比较赞同。”


邢杰表示,“每一个比较好的人工智能创业者,都应该去思考创业的方向。你不要试图做类似于Pika的方向,这种方向就很危险。围绕大模型结合各个行业、场景怎么去应用,这是大部分人的机会。”


关注增量井喷的市场机会,焦虑会小很多


谈到Sora影响时,尹伯昊此前曾表示,一段时间MJ、Runway的组合,快要把数字艺术家逼成技术和艺术的双料冠军,但OpenAI在用Sora提醒我们多关注内容,以后主持人KiSA这样的编剧地位提高了。


在昨晚直播中,他侧重强调了一个观点,新技术会系统性刺激和带来新需求,而非大家觉得供给突然指数级的提升,需求没变,大家就失业了。他认为,Sora也是如此,完全有机会系统性地创造真正意义上的新需求,而这种全新需求,因为没有被定价,抓住机会者反而能赚到更多的钱,换句话说,Sora将带来增量的市场机会。


他举了三种场景的例子,第一种场景,过去想给一个人拍电影,或者给一个小众人群拍电影,很多时候不划算,所以很多电影没有拍出来,但是有了新技术,当有一个好内容的时候,成本系统性地降低了。这个时候市场上会有更多没有被满足的长尾需求,被满足。

 

这个时候不是大家都去继续争抢。已经被满足的主流需求,成本被砍到更低,但过去可能大家想做的一个特别小众东西,实在没有人花钱拍,这样的长尾需求有机会被稀统性地满足。

 

第二种场景,很多内容,有文本的、音频的、视频的,但因为各种原因被迫只能用文本的方式来呈现,这些文本内容有没有机会被快速地变成广播剧、变成视频,甚至是高质量的电影?他觉得完全有可能。

 

第三种场景,过去的内容,因为各种原因,只能面向一个市场,一部剧本,在中国是中国人配音,用黄种人的皮肤,要挪到非洲时,是不是可能把皮肤变成非洲人的皮肤,用非洲当地的语言?你会发现这也是一个全新的市场。

 

他说,当新技术出现的时候,过于关注眼下的市场,突然AI来抢饭碗,我们肯定会焦虑。但是发现接触AI之后,怎么去找到更多的新兴市场,发现面向新市场的服务机会,开拓新场景,这个很重要。


他表示,“如果我们相信全新的需求会因此井喷,那么大概率焦虑会小很多。”



结尾


很多人还没有真切地意识到人工智能的持续发酵,将给我们的产业、生产和生活带来并非悄无声息的影响。


昨晚朋友圈流传一央媒内部领导要求研究Sora的指示。如果这一指示属实,这一央媒的行动是相当迅速的。


这一指示以“令人震惊”来形容Sora,并提及所谓“扔进一部小说、出来一部大片”的梦想居然如此快速地开始成真!


领导的第一反应是,“我们怎么办?这是XX每一位同志都要深思的”,并指示“抓紧跟踪,尽快从点上突破!”“决不能一夜之间完败!”


他说,除了新闻节目的真实性这条红线不能碰撞、只要导向关认真把好,各类文艺节目、大型活动和影视剧动画片等的创作与传播、多语种的节目译制和推广,以及面广量大的新媒体制作和传播等等,我们都可以尝试着“拿来”!如不尝试,永远不会成功!


无论如何,这种气魄、认知和迅捷跟进的态度,值得每个深处AI、元宇宙大时代的相关机构、人的高度关注,并付诸行动。


大模型“互掐”,别一番况味


推荐阅读

OpenAI CEO奥特曼年终总结17条:不行动是一种特别隐蔽的风险

AI下半场由什么推动?OpenAI宫斗的本质里藏着一条隐形的线索

院士王怀民:人工智能的终极目标是让机器像人一样

教育部部长:智能化是教育变革的重要引擎,将实施AI赋能行动

突破下一代智能终端,未来产业创新发展实施意见来了

中国要建人工智能产业标准化体系,工信部发文征求意见


修改于
继续滑动看下一个
元界
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存