在爱诗科技还没拿到天使投资的时候,创始人王长虎就收到了投资人朱啸虎的坚决劝退:“你还是回去上班吧,大模型在中国没有机会”。他下这个论断的依据是,中国市场在过去五年在短视频赛道做出了10亿级别的国民级产品抖音,短视频在中国有用户基础和生长土壤。但是,视频大模型在过去一年的发展并不容易,2023 年上半年,行业普遍低估它的发展,认为文生视频技术过于早期,离真正能够落地距离很远。而 2024 年春节期间,OpenAI 突然发布 Sora,行业马上就有新的争议出现,“视频大模型创业公司迎面撞上 OpenAI,可能真的没戏了,Sora的技术完全是代际碾压。”这个赛道上知名度较高的Pika和Pixverse(爱诗科技的视频模型)第一时间被媒体问询,Pika当时的回应是:“很振奋,我们将直接冲。”发布Pixverse的王长虎也云淡风轻,他认为 “Sora 的出现是必然的,反而可以让这条赛道的创业方向更加明确。”局外旁观者是担忧,局内人是“振奋”,这种巨大的反差,到底是创业企业强行给自己的必须破釜沉舟的强心剂,还是他们看到了“局外人”看不到的机遇?最近,爱诗科技拿到了亿级人民币的融资。在目前的投资环境下,这个融资金额已经相当可观,但是与大语言模型的融资金额还是差一个量级。王长虎也给自己算过账,这笔钱够团队达到这个阶段的目标——视频模型的效果赶上 Sora 。“Sora的出现也让我觉得有些遗憾,如果资源更好,可能今天做出Sora的就是我们。”王长虎判断,“视频模型的发展现在还处于 GPT2-GPT3 之间,还没有到达成熟爆发点。”这也意味着,商业生态也还未清晰,也还在孕育当中。朱啸虎可能没有错,王长虎也有自己的判断。毕竟在资本市场有一个默认的规律,“分歧意味着可能的机遇,而共识往往才是巨大的陷阱”。腾讯科技在最近独家对话了爱诗科技创始人王长虎,希望能从对话中还原他的思考逻辑,给在这个行业认真探索的每个人一些有价值的启发。
以下为对话内容(已做精编删减):
没被朱啸虎劝退,
在中国做视频大模型
比语言大模型更有机会
王长虎:是的,我们一个合伙人的好朋友在金沙江,得知我们要创业,说一定要和朱总好好聊一下,当时我们跟朱总聊了20多分钟,超过他的上限了。王长虎:我们跟他聊了25分钟。那天我们印象非常深刻,那个时候我们还没有拿到天使轮融资,朱总听了我们想做的事之后说“你们还是回去上班吧,这个事情可能在中国没有什么机会。”腾讯科技:你没被劝退,所以你应该不是朱啸虎这一派的,更认同杨植麟?王长虎:首先你觉得这两个是二元对立的吗?其实我已经用脚投票了,但是我依然认为二者其实不是二元对立的。我和团队追求的是务实的浪漫主义,我们对技术是有信仰的,我们的确认为技术在不断突破,可以解锁越来越多的应用,这是我们的愿景。朱啸虎是我们特别尊敬的投资人,他有他鲜明的观点,我们觉得他观点底层是要更多考虑商业化现实这些,这篇文章《朱啸虎讲了一个现实主义的中国AIGC 故事》,我们看到确实也不意外,一年前他就是这个观点,只是他这次更公开地把它表达出来了。虽然我们并没有像他说的这样做,但是从他的观点里面,我得到更底层的信息是什么?务实。我们认为“选择容易做的事”不是务实,务实是要聚焦,当人力、财力有限的时候,聚焦一个自己最擅长的赛道,把它做到极致,做到最好。就像Midjourney聚焦文生图这件事情,大厂也在做,但是它还是给自己带来了壁垒。我们那个时候不仅没有往应用层走,而且把当时可能的应用层选择和我们正在孵化的项目砍掉了,all in AI视频生成模型,这是我们认为的务实。所以总结起来我们并不是技术派,也不是朱总的现实派,我们要走的是务实的浪漫主义。王长虎:当时是Open的,比如有人建议我们做应用层。腾讯科技:但是没有好的基础模型,也没有办法做应用?王长虎:那个时候应用层就不一定是视频生成的赛道,那个时候很多人就扑在文生图上面了,因为Midjourney火了。但是那个事情对我们来说是正确的事情吗?不是呀,我们都知道过去过去5年-7年,发展最好的就是短视频产品,比如拥有10亿级用户的抖音和国际化的TikTok。短视频赛道在国内是有用户基础的,也有生长土壤。我们基因也是这样,我的团队从 17 年开始就从零到一参与抖音产品的搭建,一直在做视频 AI,踩过很多坑,有很多经验。这是我们的判断,只是因为行业没有认可到这个方向,我们就不做吗?所以我们认知就是,那个时间点我们去All in视频大模型是很必然的。目前面临的困难,一个是资源,在未来的资源限制可能是整个行业发展过程中都需要解决的问题。另外,因为我们在过去这一年融资过程中发现,海外团队拿资金会比国内容易一些。我们也特别期待投资人能够更长期主义去看待AGI时代的创业者。
腾讯科技:没有过想等到某个视频大模型特别成熟的时候再开始专注地做应用层?
王长虎:没有。
腾讯科技:但可能试错成本更低?你们团队在这方面又有经验,别人又打好了大模型的基础?
王长虎:我们不是这么看的,我们要做当时认为最正确的事情。那个时候都没到做视频生成模型还是应用的选择题,连这个选择题都没有。大家都觉得技术太早期了,都不能看,偏研究阶段。
当时更多的认知是视频生成这件事情根本做不成,或者短时间内做不成。但我们坚信这件事情能够做成,而且我们要自己把这件事情从零到一推起来。
腾讯科技:当时大家为什么觉得不成,是觉得这个技术发展太早期了吗?
王长虎:是的。所以那个时候这个行业很冷,包括很多大厂,包括现在All in视频生成的很多团队,那个时候并没有看好。
腾讯科技:但是你们创业之后拿到融资就很顺利。
王长虎:很顺利。
腾讯科技:行业都说融资不容易,你们怎么说服投资人并顺利拿到投资的?
王长虎:其实我们会更多的强调我们的优势在哪儿,我们是最适合做AI视频生成的团队,这是在我们在成立那一天跟投资人传递的核心。同时我们也会有一个务实的预测,比如我们要达到的里程碑、会比同行更快,事实结果也向投资人证明了我们的实力。
腾讯科技:你们算过每个阶段需要多少钱吗?
王长虎:我们算过,所以这次融资目标其实是符合现阶段发展预期的。但是如果更多资金的话,就可以加速我们的发展。
腾讯科技:过去的经验到今天哪些经验可能是可以复用的?基于 Scaling Law 的大模型和过去的视频 AI 还是很不同的?
王长虎:很多。
我们是从一开始就在这个赛道,当Pika、Runway生成的视频都没法用、不能看的时候我们就已经决定all in视频生成。所以不管是后来更好的Pika,更好的Runway,包括我们已经可以媲美这些产品的PixVerse,以及最近进入大家视野的Sora。在我们看来它们不是突然出现的,而是符合技术产品发展规律的。
什么叫从0到1?去年此时那些根本就没法用,没法看的AI生成视频,到如今PixVerse,Runway、Pika这些4秒的视频,不长,但是专业创作者已经可以用起来做大片了,在我看来这就是从0到1的过程。
所以Sora其实也在我们的目标之内,也是在我们的规划和发展路线之上,这是产品层面。
技术层面,Sora的技术,我们在一年前all in这个赛道的时候,在跟投资人介绍我们的规划的时候,就已经清晰地介绍过这个技术路线,所以对于大众来说,可能Sora出现之前和之后就是石破天惊的改变。但是对于我们来说,它是在我们预判之内的,它的出现加强了我们在这个方面的信心和决心。
做出 Sora 的其实有可能是我们
腾讯科技:Sora我记得是大年初六公布的,当时你是什么感觉?听到一些声音说生成式视频模型创业公司迎头遇上了OpenAI,属于代际碾压,这个赛道的创业公司完了。王长虎:第一眼肯定是很惊艳,同时因为它只是Demo,所以当时也有很大的疑问,能不能测试一下,真正实质的效果和Demo有没有差别。但是因为OpenAI是有品牌背书的,所以我宁愿相信Sora是真的。至于外界觉得我们或者是Pika完了,那完全因为我们和他们(外界)的工种不一样。我们是局中人,对它的技术路线是有一些认知的。我感觉很兴奋,就像我们在戈壁里面徒步的时候一直走在最前面,前面是一片空旷,没有人,突然看见了一个人,更坚信了我们这个方向选择的正确,而我们完全有机会接近它,赶超它。Sora的出现恰恰验证了我们一开始制订的技术路线是正确的,它也会减少我们的很多试错成本,这对于初创公司来说非常重要。同时也会有一些遗憾。如果我们过去一年有更多的投资和算力资源,有可能最先做出Sora的不是美国人,有可能是我们。现在我们有信心在3-6个月之内就可以追赶上Sora目前的水平。王长虎:至少我知道OpenAI是不缺算力资源的,不会因为这件事情头疼。有很多猜测,我觉得至少是千卡以上的资源。王长虎:据我们所知,除了OpenAI内部员工以外,还没有用户能够使用。现在创作者都把它叫期货。我们也特别期待有一天能够亲测Sora,这样才知道它到底好到什么程度。腾讯科技:创业公司发展的窗口期大概有多久,是到它正式上线吗?王长虎:我觉得窗口期不是在未来,而是在过去若干个月。大家认知上没有达成共识的时候,那是巨大的窗口期,我们恰恰抓住了那个窗口期,使得我们在现在,在市场充分竞争的状态下,能够保持团队、技术、产品认知上的优势。这是我们接下来继续留在牌桌上、仍有机会做出全球最好的视频生成产品最重要的基础。腾讯科技:所以说现在再入局的创业公司很难有机会了?王长虎:是的,随着Sora的出现大家对这个行业认知越来越清晰,期间一定会有头部聚拢,这个赛道的公司,如果在第一阶段发展过程中没有拿到足够的资金、没有用户、团队、和技术的积累,有可能在接下来的竞赛中不一定能够有足够的资源让自己继续留在牌桌上。腾讯科技:你们说3到6个月有信心赶超Sora,这个时间是怎么判定的?王长虎:基于我们对视频生成这件事情的理解,我们认为当前我们的能力有三个月到六个月就有机会做到Sora目前展示出的水平。腾讯科技:赶超Sora会是在这个赛道上成功的必要的条件吗?王长虎:我们要做全球最好的视频生成。不管是Sora,还是我们刚刚成立的时候,前方就有像Pika、Runway这样很棒的产品,我们一定要赶超当时比我们更优秀的团队和产品。现在Sora走在前面,所以我们要对标Sora,一直做到我们C端用户,未来可能几十亿的普通用户都能用起来,玩起来。我们真正的目标更远,赶超Sora只是其中的一步过程。腾讯科技:让大家有最强烈感知的是Sora的视频能有60s,其它模型也就4-7s。AI生成视频时长达到 60s这件事在技术上有多难?王长虎:训练更长模型的时候意味着同样的资源情况下,你可能需要更长的训练周期。因为我们计划在最早期要极大地加快算法迭代的速度和模型进化的速度,所以就暂时没有做得很长。王长虎:对,同样的技术要做得更长,意味着迭代效率就会低一倍。不同的团队有不同的取舍,资源丰富了,可以选择的维度会更多;因为资源有限,我们就暂时有一些侧重。第二,做长了其实只是一个结果。我们可以看到有一些视频生成产品,它可以做到更长。但是里面的镜头一动不动,或者只有微小的动作,那视频再长也没有意义。把视频做长是希望它能承载更丰富的内容。不同的模型是不是能够支撑长视频中丰富的内容生成?这个跟模型结构也有关,需要不断地去尝试。Sora的出现,我们很开心的一点是可以减少试错成本,它验证了DiT架构可以支撑长视频生成,所以未来我们这方面的进展也会很快。王长虎:我们会把核心能力分成不同层面。最核心的包括生成内容是不是符合用户的意图,跟用户输入的prompt是不是非常贴合,这是准确性。第二,生成的视频里面,主体和背景的连贯性是不是足够好,是不是符合物理运动规律,这是一致性。另外还有,视频呈现的内容是不是足够丰富,这样才能让用户爱玩、爱传播。在这之外,其实还有一个能力也是非常重要,内容的可控生成。现在可以用prompt文字来影响它生成,也可以是一张图片,让图片动起来生成一个视频;也可以对视频里面的局部模块,给它一些指引,去控制它的运动,这也是我们未来产品化的一个重点功能。第三类是应用层,现在的视频生成其实只是一个工具,等到更多C端的用户能真正用起来、玩起来之后,可能会产生不同的产品形态。围绕着产品形态会有相应的技术演进,我认为越偏产品和商业化侧,越会百花齐放。不同的产品化目标会导致feature的差异,以及技术路线的差异。当前AI生成视频并没有到所谓的ChatGPT时刻,让我判断应该是在GPT-2和GPT-3的阶段。所以离真正的用户用起来、玩起来可能还有距离。
视频生成的商业空间在哪里?
王长虎:我们不焦虑,因为我们自身是有视频生成大模型技术能力的。和聚焦在应用层的(创业公司)相比,我们更有能提前预判技术成熟时间,以及一旦成熟之后可能带来的应用。超前的认知,这是至关重要的。第二点,只做应用层的公司可能会焦虑大模型技术某一个突破会不会颠覆很多应用产品,这一方面我们也有优势去提前避免。王长虎:从量化数据上来看,保持在全球视频生成领域第一梯队这个里程碑我们已经做到了。另外,我们未来还有更多东西要验证,一方面是我们新的模型(接近Sora效果的模型),以及未来商业化的方案。在我们增长的同时,也能把新的技术、新的产品模式,包括一些行业内从来没有过的技术创新推出来,希望在年底之前做成全球视频生成领域里用户量最大的一个平台。王长虎:根据SimilarWeb.com监测的数据,我们和Pika在同等量级。我看到我们的产品访问量平均比国内同行大10倍以上。我们可能短时间内就会超过Pika,甚至Runway的水平,毕竟我们团队之前运营过巨大用户量级的产品,做增长、做运营的经验还是会比海外这些纯AI团队更丰富一点。腾讯科技:这个领域做用户增长,和移动互联网时代做用户增长有什么本质的不同吗?王长虎:客观的情况,虽然 AI 吸引了很多眼球,但去看YouTube,去看TikTok,AI生成内容的流量占比还很小,它里面活跃的用户还是早期比较硬核类似极客的一波人。但这波人很重要,他们做出好的内容,让更多的人看到之后去适应和学习AI视频生成的工作流,这是比较重要的。它不同于现在成熟的互联网增长逻辑,要么是效果,要么是品牌。最早我们去做海外社区的增长,尤其是Discord。国内之前没有什么人做过Discord增长,这是另外一套逻辑,但是有很多底层的方法论跟knowhow可复用。Discord有点像贴吧,又是比贴吧复杂多的一个生态,它其实是一个用户交互不太友好的一个社区,但是一旦你用习惯了,你的信任度会很高、粘性很高。为什么最早选择Discord?是因为里面像Midjourney、Pika,等等AIGC内容早期的种子用户都在里面,这里面聚集了很多硬核的极客用户,所以我们想先在这里面试试水,看一下大家的反馈。腾讯科技:现在是不是也不期待指数级的增长,因为增长的话意味着推理成本更高?王长虎:是。我们是在快速增长,但是我们会控制一下,现在在给大家提供一个infrastructure(基础设施),还没有去收费,但还是会保持比较快的增长速度。腾讯科技:我们到底做ToB还是ToC,还是ToB、ToC都行?王长虎:不同的团队有不同的基因,基因决定你的认知,决定你的动作。我们的基因是伴随抖音、TikTok成长起来的,肯定主要还是toC 。我们成立第一天的时候,目标客户群就是每天玩抖音、TikTok的这些用户。我们希望让每个人都能通过AI技术来创造视频、创造世界。你要知道技术发展是有它的规律的,也不是一蹴而就的,这个过程中,最早能够用起来的可能就不是我们最终想要触达的C端消费者,可能先要触达有一些创作欲望的个体以及一些AI发烧友。王长虎:有很多人的观点是一家公司基因很难同时做好ToC和ToB。虽然我们目标是做ToC,但ToB的项目我们也会谨慎推进,先充分调研一些重要企业和厂商的需求。总体上目前我们还是聚集力量做技术和产品。腾讯科技:大家会有一个讨论,中国的AI产业,基因是ToB的,ToC还没有看到任何的成功的案例?王长虎:我们要面向未来,AGI是一个大的世界,过去一代的AI能力更多是很难代替人,更多是辅助工具。新的AI之所以被认为是一个基础设施,是因为它有更大的潜能,它一定会带来更新的不同的体验,而且很多的新的AI需求都是增量的需求,需要我们去探索。腾讯科技:未来您觉得如果视频模型的赛道有爆发性成长,它是嫁接于像抖音这样的短视频之上,成长于这个生态之上,还是完全是独立的生态?王长虎:我们可以分成两部分:一部分是存量的机会,一部分是增量的机会。嫁接在抖音上其实是存量的机会,但我们更期待的是增量。AI生成视频可以做到极好,速度极快的时候,已有的产品和平台不一定能够承接住新的需求。实时创作、与视频的全新互动形式,会带来不同的玩法和商业模式,我认为有机会诞生大的巨头公司。腾讯科技:第一波是不是像影视公司、广告公司,他们在降本增效方面的需求比较大?王长虎:当前现在技术没有足够成熟的时候,更多的需求来自于降本增效。但是这还是存量需求。当视频生成技术越来越好之后,会更有机会去面向广泛的C端用户。腾讯科技:增量空间是普通用户能够玩起来,创造自己想做的东西?王长虎:是。说实话现在视频领域偏专业的用户居多,依然是小众群体,我们希望能够做到技术平权,每一个人都有机会、有能力创作大片。腾讯科技:会担心来自大语言模型公司的竞争吗?现在很多基础大模型公司也都很重视多模态,我们也看到投资人给到这些公司的估值会更高。王长虎:不担心,我觉得每个公司都有自己的判断,也有一些大模型选择聚焦比如做语言,有些公司想做尝试更多的一些方向。就像我们对Sora的态度一样,我们特别开心地能够看到越来越多的玩家。特别是过去一年在市场没有那么火的时候,需要我们花很多精力去教育市场,甚至是投资人,现在很多事情就不需要我们去做了。另外,创业公司在创业初期就知道,如果你做的事情是正确的,一定有一天会涌入更多玩家,这是创业公司必然要面临的事情。另外,AI生成视频是一个巨大的市场,技术快速进步的时候,你可以看到背后的机会是越来越多的。技术本身大家可能会有一些趋同的发展过程,但在技术之后是什么?是千姿百态的应用场景,特别是视频离用户最近,所以玩法会很多。不同的团队有不同的发展历程,有不同的基因和认知,会影响未来基于这个视频生成技术如何做产品化。产品化的路径、方向也可能会千差万别。