Sora或是第四次科技革命开端
9轮融资,90后创业干将谈Sora的4秒突破|中国未来产业100人
“中国元宇宙100人”有了姊妹篇,“中国未来产业100人”正式上线。欢迎AI、机器人、智能制造、生命科学、芯片等赛道创业者,入镜。微信:imerit。
继月之暗面(Moonshot AI)杨植麟之后从估值3亿美元到融资超10亿美元,他仅用8个月|中国未来产业100人,又一位实力派创业干将跃入元界“中国未来产业100人”的视野。
又是一家人工智能公司,又是一位90后!与杨植麟是汕头人、在北方创业不同,他来自东北长春,24岁裸辞金融机构,在深圳创业,作为出海先锋,公司总部现设于阿联酋首都阿布扎比,那个马斯克、奥特曼、黄仁勋等都要亲往游说融资或拓展市场的地方。
与杨植麟清华大学和技术出身不同,他在延边大学读书,因可以经常去韩国交流学习,创业人生因此埋下了被点亮的种子。
他也是技术的推崇者。公司拥有平台级产品LAiPIC,专注于动画和数字人视频的智能生成,倡导用AI实现下一代交互方式,主打像做PPT一样做动画、3步实现文本生成数字人视频和打造专属人设的AI助手。
他便是全资持有深圳来画(LAiPIC)的深圳前海手绘科技文化有限公司董事长兼总经理魏博。前者创办于2020年,后者创办于2015年,迄今已收获9轮融资。
官网显示,前海手绘是微软加速器AIGC领域领军企业,也是国家融媒体重点实验室——新华社媒体融合及生产实验室技术研发方,曾荣登《CCTV1 新闻联播》专题报道,时长近3分钟。
不仅如此,其是总书记动画版金句与视频技术支持单位、中国共产党第二十次全国代表大会官方数字人视频制作方、中国改革开放40周年官方动画视频制作方,也是2022年卡塔尔世界杯IP拉伊卜卡通IP形象设计+AI技术提供方。
魏博对新趋势保有敏锐的追踪、观察并有清晰的表达。面对Sora,这位多年前看好短视频崛起、最近两年主要呆在国外的创业者,作何考虑?
来画工具制作出来的动画相框里的魏博
他说Sora带来的震撼,“不仅仅是中国在讨论,全球都在讨论”。
他的首要观点是国外一致认为Sora的出现标志着第四次科技革命的到来,而没有说ChatGPT的到来是第四次科技革命。
为说明这一点,他首先陈述了视频产业在全球经济、视频形态在媒介传播中的重要地位。
他说,视频产业已经构成了一个非常庞大的生态系统。来自OpenAI的数据,全球80亿人口,与视频产业相关的从业者可能已经将近10亿人,占到大约13%到14%。视频产业对全球经济的贡献非常巨大。
另一个数据是,全球有超过60亿人口是视频工具和短视频的用户,而在现有的媒介传输中,视频占据了超过50%的市场份额。
他说,“只有视频产业发生了变革,才能意味着科技革命真正来临。”
其次,他眼中的西方认为,第一次工业革命的到来并不是蒸汽机的发明,而是蒸汽机应用到了火车上之后,经过多轮改进后,蒸汽火车开始运行。当人们看到蒸汽火车运行时,第一次工业革命才真正到来。
视频原本是一个非常专业的领域,只有专业人士才能掌握,对大多数人来说是一个遥不可及的领域。
他说,现在我们看到的情况,就好比是当年蒸汽机装上火车的时刻,让所有人觉得一个原本需要花费数天骑马车才能完成的事情,现在只需要几个小时就可以完成。这种技术的进步点燃了所有人的梦想,让所有人觉得即使是专业人士才能做到的事情,现在也可以实现。
他说,Sora代表着一种技术的飞跃,让人们对未来充满了希望。
关键4秒的突破与飞跃
他说,过去10年,人类文成视频的速度一直在提高,但生成的时长也不过从1秒到4秒。在线工具Runway和Pika也都卡在了4秒,无法突破这个限制,但OpenAI的Sora却直接将这个限制提高到了60秒。
好比在篮球场上遇到了朋友小明,我们一起打篮球,然后和其他人对抗。如果用Pika或者Runway生成这个场景的话,只能生成前面我和小明一起打篮球的部分,推演到了终点,只能推演到4秒,但Sora做得非常厉害,它能够生成整整60秒的视频,还能保持连贯性和一致性,这是它最为出色的地方。
Sora还有一些点不同以往:过往视频生成模型,尺寸基本上是512像素,Sora至少是在1080P(注:1920*1080的全高清视频分辨率,也就是横向像素为1920,纵向像素为1080,是视频图像真实分辨率系统)的尺寸上来进行训练的。它需要的算力远远超出Runway或者Pika所需要的算力,甚至会达到现阶段使用的GPT4.0算力规模。
公司技术总监黄总表示,Sora所呈现出来的视频一致性,包括3D的一致性和多镜头角色的一致性。60秒视频绝对不是单一的镜头,它是多镜头的,Sora生成的视频也确是多镜头的,可以从一个人物切到另外一个人物,从一个物体转到另外一个物体,这些都需要在视频上做完整的3D一致性。
也因此,Sora模型具备在小场景创建元宇宙的能力,具有符合物理规律的世界模拟能力,对XR、VR、AR行业也会产生积极的作用。
在魏博看来,如果不是因为算力不足,Sora可以生成更长的视频。"1-4秒钟的突破,人类用了10年时间;4秒到60秒,积累了近十年的OpenAI用了一年时间。可能算力跟得上的话,60秒到10分钟,可能三个月后你就可以看得到,10秒钟到一个小时,可能年底就能看得。"
他说,Sora解决了人类历史上最困难的问题。一旦视频问题被解决,AGI通用人工智能到来的时间如国内外专家所言将由10年缩短到一两年。“我们很有可能见到通用人工智能AGI的出现。”
当然,他也表示,Sora视频生成的可控性尚未达到完美,基于扩散模型的可控视频生成,是接下来的挑战。
短期与长期的影响和利好
他认为,Sora可能对国内的短视频行业、影视行业甚至监控摄像头行业造成冲击。
未来,如果想要一个关于某企业的宣传视频,它可以根据你的描述,几乎可以做到和你描述的一模一样。这样就能满足企业视频的要求,实现了完整的可控性。
他推测这个过程可能需要大约两年的时间,并认为对于短视频产品影响最为巨大。虽然对特定企业的宣传视频要求,它可能还不够,但特别是对全球的网红、素人达人和短视频运营公司,影响巨大,甚至可能会被取代。
“抖音短视频本来就以娱乐为主,不要求有太多的可控性,主要是娱乐、搞笑、有趣,而这正是Sora所擅长的。”他说。
他认为,从长远来看,这也对影视公司的影响也非常大。未来人们可能更多地倾向于观看由人工智能生成的视频,甚至人工智能生成的视频可能会比许多影视公司拍摄的宣传片更吸引人。
他说,“这对影视公司来说是巨大的利空,因为这意味着每个人都有能力制作电影。”
由此产生一系列连锁反应,包括专门从事实体影城的公司、提供拍摄场地的公司等。明星也会有一定的影响,因为虚拟网红现在已经可以被创建出来。这些虚拟网红可以行走、跳跃、甚至打斗,完全像我们现实生活中的明星一样,而不仅仅是播报演讲或直播。
“这正是Sora所做的意义所在,它可以生成具有逼真效果的人物和动物,就像拍电影一样。因此,它的意义非常了不起。”他说。
从长期来看,现有的影视、短视频、媒体社交网络和影视制造业都会衰落。他特别强调,所说的长期是指未来两年内,这个领域一定会衰落。
Sora再发展下去,对监控摄像头的影响也是存在的。“现实生活中我们所看到的一切可能都会被颠覆。”
Sora能带来哪些利好呢?魏博说,接下来可能会涌现出一大批A股公司,它们会提出如何鉴别视频真伪的解决方案。这些公司很可能会涉及到数据安防等方面,“但这只是短期受益”。
因为他认为,视频生成技术已经无法阻挡,“开年各地政府都在研究Sora”,他相信国家最终会放开对AI监管的限制。
从长期来看,他认为对算力行业是最大利好,永远不变的主题一定是算力。与算力相关的股票,从长远来看,会受益。
结尾
魏博认为,中国人要有自己的AI视频的生成工具。LAiPIC利用过去8年积累的动画数据训练了一个名为Skinsoul的小型模型,该模型具备文本生成视频的能力。LAiPIC的首要目标是赋予全球企业快速生成视频的能力,目前主要服务电商领域能够生成长达3分钟的视频。“我们的技术无需实拍、剪辑或模特,仅需一个产品链接即可自动生成视频。”
资源来源:计算机司令部、前海手绘官网等。观点仅供交流、参考。
推荐阅读
沪有半导体,京有AI:北京发出中国在全球人工智能竞争中的最强音
全文|《上海市推动人工智能大模型创新发展若干措施(2023-2025年)》
广东“数字湾区”三年行动方案:支持广深打造人工智能创新策源地