查看原文
其他

AI + 3D视频,那些赶超Sora的初创公司

硅谷科技评论 SV Technology Review 2024-04-14

魔珐科技具有行业最顶尖3D虚拟人以及3D内容AIGC能力,最新产品有言对3D视频的编辑能力是Sora所达不到的。


爱诗科技将集中人力和资源,在三到六个月内赶超Sora目前水平。”


生数科技今年年内能达到OpenAI的Sora目前版本的效果。”


美国公司OpenAI发布人工智能(AI)文生视频大模型产品Sora不到一个月,中国的AI创业公司发布新的产品,宣布新一轮融资,目标直指赶超Sora。




Sora:人工智能视频生成的飞跃


一直以来,创建能够建模、理解和模拟现实世界内在复杂性的人工智能一直是一项极其艰巨的挑战。与静态图像不同,视频本质上涉及表示随时间的变化、3D 空间、物理交互、对象的连续性等等。过去的视频生成模型一直难以处理不同的视频时长、分辨率和摄像机角度。更重要的是,这些系统缺乏对现实进行高保真模拟所需的物理、因果关系和物体持久性的内在“理解”。


OpenAI 发布的视频展示了一个比我们在这些领域见过的任何模型都表现更好的模型。这些视频看起来很真实。例如,一个人的头部会遮挡一个标牌,然后再经过它,而标牌上的文字将保持原来的状态。Sora 生成的视频表明该模型对三维世界具有非凡的理解。正如技术报告中所述,Sora 展示了新兴的模拟功能,这些功能的出现对 3D 对象和环境没有任何明确的归纳偏差。



Sora的AI视频背后的技术原理


在OpenAI公布的技术报告中,解释了Sora的技术原理,两种模型架构是其中关键:一是广泛用于大语言模型的Transformer;另一个是Diffusion,广泛用于图片生成模型,例如OpenAI自研的图片生成模型DALL-E和业界广泛采用的开源模型Stable Diffusion,都是Diffusion模型。Sora结合了这两大模型,自称为Diffusion Transformer模型。


在Sora之前,Pika和Runway等初创公司已经基于Diffusion的模型架构来生成视频。不过,Pika仅支持生成一段3秒的视频,Runway公测版本视频时长也仅为4秒,网页版最长则支持18秒视频生成,而Sora生成视频可达60秒。OpenAI指出,Diffusion可以帮助复现视频的内容,但有许多限制——能接受的数据素材类别少,生成的视频时长短、视频的大小也固定,比如只能是256x256分辨率的4秒视频。



Sora也使用了Diffusion模型,但在实现逻辑上,没有用之前常见的U-Net架构,而选择了Transformer,因为后者兼容并蓄,能消化各类不同格式的视频素材,大大增加了生成内容的时长和细节。


AI文生视频的局限性


在当前的AI技术发展阶段,Sora虽然取得了显著进步,但在视频内容创作领域仍面临着一系列挑战和难点。这些挑战主要集中在以下几个方面:


1. 时空一致性问题:即使最先进的模型,如Sora,在单一场景或镜头的理解上有所提升,但当涉及多场景或跨时间轴的内容生成时,保持人物、镜头和场景的时空一致性仍然是一个难题。这意味着AI难以完整理解和应用现实世界的物理和时间规律,从而影响内容的连贯性和真实感。


2. 内容的可控性和可编辑性:对于内容创作者来说,能够精确控制内容的各个方面(如场景细节、灯光、人物形象、对白等)是基本需求。当前,虽然AI可以辅助生成创意内容,但在以下方面仍存在限制:


  • 可控性:例如,在制作产品发布会视频时,无法精确控制诸如PPT内容、发言人台词、场景灯光等细节,这可能导致生成的内容无法满足具体需求。

  • 可编辑性:类似于无法编辑ChatGPT生成的文本,如果生成的视频内容不能按需编辑,将大大限制其实用性。

  • 确定性:内容创作者期望生成的内容具有一定的可预测性。如果AI生成的视频内容多次不符合预期,且无法进行调整,这将导致创作过程中的挫败感。

3. 视频时长的限制:虽然技术进步使得生成的视频长度从几秒延长到了一分钟,但要生成完整且具有实用价值的视频内容,时长仍然是一个挑战。长视频需要复杂的结构和内容安排,这超出了当前AI技术的能力范围。


4. 产品完整性:从创作者的角度看,理想的AI工具应该提供一站式服务,覆盖从内容创作到后期制作的全过程,包括编辑镜头、调整动作、后期包装等。当前,创作者往往需要在多个工具之间切换以完成整个创作过程,这不仅增加了工作量,也影响了创作效率。


AI视频的未来:AIGC 3D


解决当前AI视频的局限性的方案之一就是AIGC 3D视频,将生产的视频和现实世界的视频制作流程对应起来,模拟现实世界中真实物理环境。


3D 模型是物理对象或场景的数字表示,具有三个维度:高度、宽度和深度。它们可以使用 Blender、Maya 或 SketchUp 等软件手动创建,也可以使用摄影测量等技术自动创建,其中包括从不同角度拍摄一个物体的多张照片并将它们拼接在一起。3D 模型可以渲染成 2D 图像或视频,或者使用 VR 耳机或全息图等特殊设备在 3D 环境中显示。


将生成式 AI 应用于 3D 工作流程,零售、娱乐、建筑、汽车和医疗保健等行业正在开启一个充满可能性的新世界。 


  • 在电商零售领域,3D虚拟人直播开始走向台前。根据魔珐科技创始人介绍,3D虚拟人直播间凌晨闲时时段年化GMV达到数千万。投流了以后,ROI 依然表现不错,比正常真人还要高。

  • 在设计领域,AI 快速分析数据并生成具有逼真纹理和材质的复杂 3D 模型,使工程师和设计师能够在数字环境中制作原型并测试概念,从而减少对物理原型的需求并加快开发过程。

  • 在医疗领域,3D 模型带来了个性化治疗提高了患者护理和手术精度。


根据硅谷科技评论(svtr.ai)数据库,在AI+3D视频领域,有7家公司值得关注,其中海外4家,国内3家。

Meshcapade


2018年成立于德国图宾腾,提供用于建模、分析和合成动态3D数字人物的人工智能解决方案。获得600万美元的种子轮融资,投资方为Matrix、Nate Mitchell(Oculus联合创始人)、Matthew Ball(《元宇宙》作者)、William O’Farrell(BodyLabs联合创始人)、Andrew Hamel(亚马逊前副总裁,机器学习)、Gary Bradski(OpenCV首席科学家)以及CLO. Diana Kimball Berlin(Matrix)。


创始人Naureen Mahmood,是智能系统马普学会感知系统组的最早成员之一。她是多篇SIGGRAPH论文的重要作者,并深入参与开发多项开创性的3D人体建模和动作捕捉技术。


Tavus


2020年成立于美国旧金山,利用人工智能创建虚拟人,包括个人的语音和面部数字“复制品”。完成1800万美元的A轮融资,投资方为Scale Venture Partners、之前的投资方Sequoia Capital、Y Combinator和HubSpot。Tavus 已通过 SaaS 应用程序提供服务,客户可以通过该应用程序创建自己的 AI 视频模板。基于称为神经辐射场(NeRF)的深度学习方法,可以在短短几分钟内从 2D 图像生成一个人的 3D 结构。


Hassaan Raza,联合创始人兼首席执行官。曾在Simublade担任首席负责人,专注于AI/ML产品开发;在谷歌担任技术产品经理/工程师;在苹果担任工程项目经理/软件工程师,并且是Accantus的联合创始人。在德克萨斯大学奥斯汀分校获得了计算机科学学士学位,并在麦康姆商学院获得了商业学分。


Luma


2021年成立于美国旧金山,构建一种能够快速创建详细3D物体的生成式3D模型。完成4300万美元融资,投资方为Andreessen Horowitz,估值在2亿至3亿美元之间。2023 年 3 月,Luma 完成由 Amplify Partners 领投,Nvidia(NVentures) 和 General Catalyst 等跟投的 2,000 万美元的 A 轮融资。老股东包括 Matrix Partners、South Park Commons 等。


Alex Yu 和 Amit Jain 共同创立公司,Yu 是加州大学伯克利分校的人工智能研究员,而 Jain 是苹果公司的员工,负责构建 Vision Pro 的多媒体体验。


Polycam


2021年成立于美国加利福尼亚州阿尔塔迪纳市,其应用程序允许用户使用移动设备、数码单反相机或无人机捕捉周围的世界,并将其呈现为3D图像。完成了1800万美元的A轮融资,投资方为Left Lane Capital、Adjacent、Adobe Ventures、YouTube联合创始人Chad Hurley。Polycam 拥有近 100,000 名付费客户,其 iPhone 和 Android 应用程序的下载量已超过 1000 万次。


Chris Heinrich,联合创始人兼首席执行官。Chris在Ubiquity6 Inc.担任计算机视觉工程师和研究员,专注于3D重建和3D深度学习,以支持来自智能手机数据的高分辨率、语义感知的众包3D映射。曾是Triple.io的联合创始人,该公司开发软件以利用增强现实和机器学习为iOS平台提供沉浸式电子商务体验。曾在芝加哥大学获得理论物理博士学位,并在印第安纳大学布卢明顿分校学习物理和数学。


Kaedim


2020年成立于美国旧金山,将2D图像转换为3D模型的AI平台,加速游戏资产的创作。完成1500万美元A轮融资,投资方为Andreessen Horowitz、Pioneer Fund。公司年收入已超过千万美元,拥有超过 250 家大型客户,包括 Voodoo、Voldex、Zerospace 和 Upland。此外,其用户群持续增长,每月增加 20,000 名新创作者,其中包括电子游戏、商业、建筑、产品设计和动画等行业的财富 100 强公司的爱好者和开发团队。


Konstantina Psoma,创始人兼首席执行官,被列入Forbes 30u30科技类。曾参与NVIDIA的Inception Programme for AI Startups,并是Creative Destruction Lab AI Stream的校友,还获得了Epic Games的Megagrant支持。她在布里斯托尔大学获得了计算机科学与创新专业的工程硕士学位,并在雅典国立技术大学获得了应用数学和物理科学学院的硕士学位。


爱诗科技


2023年成立于中国北京,文生视频AI公司。完成亿级人民币A1轮融资,投资方为达晨财智。海外版产品PixVerse于2024年1月正式上线,支持文生视频功能,生成视频长度约数秒。据数据统计网站Similarweb,PixVerse在2月的访问量突破百万。PixVerse的中国版——爱诗视频大模型也于近日完成备案,于3月11日上线内测。


王长虎,爱诗创始人兼CEO。曾担任过微软亚洲研究院主管研究员,曾在新加坡国立大学担任研究工程师。于2017年加入字节跳动人工智能实验室,任科学家、技术总监。曾任字节跳动的视觉技术负责人,参与了抖音和TikTok等产品从0到1的建设和发展,搭建了字节跳动视觉算法平台和业务中台,主导了字节跳动视觉大模型从0到1的建设。分别获得中国科学技术大学学士和博士学位。


生数科技


2023年成立于中国北京,由瑞莱智慧RealAI、蚂蚁和百度风投联合孵化多模态大模型公司。完成数亿元融资,投资方为启明创投、达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲。本轮融资将主要用于多模态基础大模型的迭代研发、应用产品创新及市场拓展。2023年6月,完成近亿元天使轮融资,蚂蚁集团领投,BV百度风投、卓源亚洲跟投。2023年8月,获得由锦秋基金独家投资的数千万元天使+轮融资。


唐家渝,CEO。前瑞莱智慧副总裁,本硕就读于清华大学计算机系,团队来自清华大学人工智能研究院,清华人工智能研究院副院长朱军担任首席科学家,此外团队还来自北京大学和阿里巴巴、腾讯、字节跳动等科技公司。


魔珐科技


2017年成立于中国上海,元宇宙基础设施研发商,以计算机图形学和AI技术为核心,打造3D AI虚拟人平台。历史融资过亿美元,投资方包括沈向洋,东方富海,红杉中国,五源资本、头头是道、五源资本、软银愿景二号基金、北极光创投等。公司推出有言,一款原生3D内容AIGC产品。可以实现一键生成3D视频。已经广泛应用于培训,电商,金融,快消,广电等各行各业。

柴金祥,魔珐科技创始人及CEO,曾担任好买衣联合创始人、CTO,完成了好买衣跨界技术的开发。卡耐基梅隆大学博士、中科院硕士。计算机视觉、图形学领域的世界级专家,在国际顶尖图形学术期刊Siggraph发表有多篇论文。美国终身教授,美国杰出青年教授。曾工作于微软亚洲研究院。


我们AI创投社区覆盖人数超过10W,其中AI从业者超过10000人,大都来自全球科技大厂、顶尖投资机构和高潜创业企业,文末扫码访问AI数据库社群通讯录


欢迎联系凯瑞(pkcapital2023),与一群志同道合的伙伴一起交流探讨。


AI公司



+


OpenAI:

人工智能突破的前沿员工名册董事会营销团队GPT Store科技狂人马斯克地产生意经微软投资帝国婚礼产品生态系统


其他:

AdobeAnthropicAmazonCanva CohereDoNotPayFigmaGoogleHugging FaceMidjourneyNeuralinkPikaReplicateRedditReplite丨RunwayScale AISheinStability AIStripeVannevar LabsZapier


AI行业



+


工具:

写作编程客服法律医疗视频搜索企服Agent代理个人助手生产力


研报:

AI合成数据LLMOpsAI创始人全球高增长AI 50企业生成式AIAI +云计算Gen AI地理分布AGI巨头的AI战争欧洲AI创业地图AI+浏览器开源AI北美科技人才中心地图AI+电商AI+勘探AI+游戏化学习AI华裔创始人AI+安全Top 50 AI工具AI域名Product Hunt 年度最佳应用


AI创投



+



创业:

性格决定创业成败丨 创业方向CEO的薪水股权和头衔创业公司董事会GTM指南选择VC丨商业计划书(BP)公司估值创业合伙人商业模式


投资:

顶尖VC投了哪些AI公司中美AI创投异同如何评估AIGC初创公司海外投资人谈AI新趋势做通才还是专才风险投资人丨红杉资本如何做投资如何及早识别独角兽创始人如何避免7大投资陷阱合伙人是怎么炼成的Thrive Capital英伟达投资策略Souring的艺术精品基金VS超级基金

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存