AIGC背后的技术驱动力｜元来是你010

元象XVERSE 2023-12-09

Editor's Note

3D 未来，将是技术革新的未来。「元来是你」平台聚焦 3D 内容生产与消费的相关课题，与各领域专家，交流和探讨3D世界的未知与未来。本期受高榕资本榕汇邀请，探讨AIGC背后的技术驱动力，AI生成3D内容上的进展，节选部分对话如下。

The following article is from 高榕资本 Author 榕汇

无论是用Stability.ai、Midjourney去生成画作，还是和ChatGPT聊天，亦或是体验Jasper.ai帮你写一篇小作文，最近的AIGC杀手级应用以及背后的大模型，“犹如冬天里的一把火”，为我们带来了无比惊喜的体验。这波生成式AI，正利用人类已有数据打开新的边界，也打开了我们的想象力。

这番进化背后有哪些底层技术在驱动？国外有哪些新的应用值得关注？最重要的是，中国的创业者如何从中受益，底层、新场景、应用层都可能会孕育哪些新的创业机会？

近期，高榕资本榕汇联合声动活泼共同发起线上研讨会，4位来自通用人工智能、3D内容生产与消费一站式平台、投资以及内容领域的嘉宾一同对话。

以下节选部分对话内容：

>> 丁教：今年是AIGC红得发紫的一年，包括AI作画产品以及最近令人感到特别惊艳的ChatGPT。为什么是今天这样一个时间点AIGC走进大众视野，背后是怎样的技术在驱动？

袁泉：实际上，几年前行业就用一些机器学习的方法（例如GAN）去生成图像。但当时一方面是效果所限，也没有与今天最热的文生图联系起来。

当下这一波的AIGC热潮，主要由OpenAI的两个原创技术驱动。首先是以DALL·E为标志的Diffusion Model（扩散模型），以及衍生出来的Stability.ai和Midjourney等开源工具，极大地推动了文生图的发展。

另一方面是文本生成模型GPT。2017年，OpenAI第一次把Transformer和大规模训练系统结合起来做文本生成，实现了非常好的效果；近几年GPT取得了非常大的进展。目前AIGC进入到成长期，AI生成图、生成文字、生成代码、生成音乐等都在快速发展，同时能够辅助人做一些提升效率的工作。OpenAI的成功不是偶然的，我们总结为三个“555”: 5年时间、50个对AGI（通用人工智能）最有理解力的人、5亿美元的算力。

未来，我认为AIGC最重要的是从单模态到多模态的进化，例如一个神经网络同时生成图像、文字、语音等等，这方面的技术今天也在大踏步地前进。因此我们相信，在一些与内容相关的创作领域里，开始会有AI辅助人、甚至不排除在一些环节取代人。

>> 丁教：元象的浩智过往在图形学引擎与计算机视觉领域有丰富的经验。从技术的角度看，为何今年AI作画领域率先出现了现象级出圈的产品？

黄浩智：实际上AI作画在研究层面已经进行了很多年。近期大家比较强烈感知到AI作画已经达到了可用的状态，甚至超过了某些初阶画师的水平，背后得益于图形生成技术、自然语言处理模型两个方面的迭代。所以AI作画的进步是CV与NLP两个子领域交叉带来的结果。

图像生成技术领域，此前GAN、Imagen AI等生成式模型，本质原理是已经有了一个图像，经过深度学习神经网络处理，生成另外一幅内容相似的图像。今年备受关注的Stable Diffusion等模型，采用的是Diffusion Model（扩散模型）。扩散模型比较特别的是，从原来基于一维的noise去训练，变成基于完全2D的noise去建模，使用加噪-去噪的迭代来生成图片，大家发现生成的图像质量更高。因此之后有了一系列扩散模型相关的研究，带来了技术突破。

另一方面，AI作画之所以吸引人，是人们可以通过比较自然的语言描述就能生成相应的画作。背后是大规模预训练语言模型的功劳，将语言模型的特征提取出来、与图像的特征进行映射，最后得到从语言到图像的映射。

随着互联网多年的发展，我们已经积累了大量的文本和图像数据，基于这些数据可以更好训练模型，从而生成较为高质量的画作。

>> 丁教：今天AIGC在海外市场有哪些创业机会正在爆发？

刘新华：区别于上一波判别式AI主要解决已有数据的分类和边界问题，应用场景主要是大家熟悉的算法推荐、人脸识别等等；这一波生成式AI，重点是能够生成和创造新数据，输出的结果是发散性、多样性的，利用人类已有数据打开了新的边界，创造了全新的增量。

从今年8月至今，AIGC领域涌现出非常多的创新，例如GPT-3大模型生态已长出上百个不同领域的应用，背后不乏独角兽公司。

在海外，AIGC不只是大厂的机会，也新起了很多创业公司。一类公司偏底层，在新场景中孕育大模型的突破，基于DALL·E、GPT等产生很多新的模型；另外是在应用层中，出现很多新公司，包括生成文字、图像、视频、代码、3D模型等等。

另外在细分行业中，也密集跑出了一些创业公司。例如Jasper.ai目前应用在营销、电商和自媒体创作等领域。

>> 丁教：在观察这些AIGC创业公司时，你会重点关注他们的哪些能力与指标？

刘新华：从投资角度看，判断某个领域是否达到爆发临界点，我们关注典型产品是否达到了产品市场匹配（PMF）；在生成式AI这样的前沿领域，我们还有个前置判断：在PMF之前，哪些场景达到了AMF（AI Market Fit）。

AIGC达到AMF，有两个重要的维度。首先，AI的能力基本达到了人类专业工种60%-70%的水平，即人类可用的标准。其次，基于AI的工具容错率高，能提供可编辑性。在这两个维度上，用户量级大、数据可得性高、商业价值高的市场最容易爆发。

这次AIGC浪潮中大火的应用有一个重要共同特征是，越是在创意浓度高的市场中，生成式AI反而最有机会。因为这些领域往往容错率高，人类没有严苛单一的审美标准，愿意接受多样性，另外工具提供较强的可编辑性让人类方便进行二创。这一点是反共识的，正如OpenAI的CEO Sam Altman所说，“10年前人们都认为创意型工作将是最后一个被AI取代的人类工种，万万没想到今天事实恰恰相反。”

因此除了创意工作，未来生成式AI在游戏、建筑设计、新药研发、新材料发现等创意发散性高、容错率高的领域，可能也会存在机会。

也有很多人对AIGC的准确率提出疑虑。那些热度很高的AIGC公司首先准确率已经达到可用的阈值；我个人观点是，如果要进一步持续提高AIGC的可用性，社区驱动下数据与模型协同的增长飞轮非常重要。

今年火爆的Jasper.ai、Stable Diffusion的社区都非常繁荣，未来优秀AIGC公司的社区能力是非常重要的。用户社区不断为模型贡献数据，新数据带动模型进一步进化，从而实现好的体验、吸引更多用户，形成了数据的网络效应和用户的网络数据，二者相互促进，不断带动增长飞轮。

>> 丁教：现在启元世界在生成式AI方面有怎样的落地应用？在游戏或者更广泛的领域，未来的目标和规划是怎样的？

袁泉：启元世界从2017年开始在智能体/AI Being产品技术上不断创新，应用于游戏、数字孪生、虚拟人等领域。

启元世界最早做的决策大模型主要应用在游戏领域，AI生成一系列决策指令。目前在策略类游戏中（包括SLG、战棋、卡牌等游戏品类）已经有比较多落地应用，智能体在其中主要起到“陪玩”的作用。比较有代表性的是启元世界AI智能体在《星际争霸II》中击败中国星际职业冠军级选手。

未来我们的目标是让智能体进化到“陪聊”乃至“陪伴”。在结束一局游戏之后，智能体还可以和你聊一聊，复盘玩得好不好，下一局怎么配合。所以从去年开始，启元世界发力认知对话大模型，让智能体能够看懂游戏态势并说话。

再往前走就是构建多模态、栩栩如生的智能体/AI Being，Ta的能力将逼近人，能够理解上下文，以一种高情商的方式和用户交流，也会写作、会画画、会运动，类比于Human Being，这种AI Being是新的生命体。

>> 丁教：元象对于未来AI生成3D内容，有怎样的判断？是否已经有了一些实际案例？

黄浩智：首先元象有一个信念是，未来的媒介形态会向3D互动形式或者更加聚合和多模态的方向演进。现实世界天然就是3D的，用户对这种媒介形式感到非常亲切。

但对比AI生成文字、图像和视频，目前生成3D内容还处于非常初级的阶段，原因在于3D内容数据的稀缺性。3D内容由于生产门槛比较高、周期比较长，目前主要靠PGC（Professional Generated Content）等专业内容团队去生产，积累过程比较缓慢。

但近期我们也看到3D内容两个趋势，为未来的AI生成奠定基础。首先是随着3D内容或元宇宙相关应用的崛起，3D内容积累速度加快。另一方面，基于现实世界进行三维重建的技术也在迭代，不断降低3D内容生成难度。例如2020年提出的NeRF技术，只需输入多角度带相机位姿的图像，就可以训练得到一个NeRF模型，根据这个模型就能渲染出任意视角下的清晰照片。

短期来看，在3D内容数据比较少的情况下，元象如何加速AI生成3D内容的速度？我们的思路是以图片为媒介来解决，即从文字到图片、再从图片到3D内容的生成。近期谷歌就用NeRF模型尝试从文字到生成3D内容。

目前元象对于3D世界中的人、景、物三个类别，都在尝试AI生成。在人方面，我们判断人的动作生成（点击了解元象技术方案，下同）将率先迎来爆发。随着目前动作捕捉技术、可穿戴设备的发展，对于人物动作捕捉的数据不断积累；此外，扩散模型等生成式模型也可以用来做动作数据的生成。

场景方面，目前元象迭代比较多轮的是大世界生成技术，通过AI的方式帮助大规模和复杂场景的生成。

举个例子，如果我们想生成深圳城市3D路网，要怎么做？首先内部美术团队可以用2D图形勾勒道路；之后我们利用GAN、扩散模型等技术去生成路网模型；再结合地理位置信息、航拍等数据，利用CV最擅长的识别和分割类任务，对路网进行划分和判别，不同位置设置相应的3D模型，进而将路网3D化。

元象：城市级别大小的城市路网生成结果示意图

>> 丁教：与海外相比，国内在AIGC领域将出现怎样的创业机会？更可能分布在哪些方向，例如To B还是To C？

刘新华：首先可以明确的是，国内所有创业者都将受益于生成式AI的创新和生态。大模型的涌现和指数级的能力迭代，以及开源社区的繁荣、API的大量开发和开放，都会让中国的创业者从中获益。而且大模型的泛化能力和通用性极强，无需对场景和模型重复训练（即Zero-shot），由此而来的低成本准入门槛、数据飞轮效应和广泛的场景适应能力，都能让国内的创业者可以在巨人的肩膀上做组合式创新。

但国内也会形成不一样的创业公司生态。底层平台的创业难度相对大，但也的确存在国产替代机会，特别是在本土数据特别丰富的场景中。

此外在一些新场景中的底层平台，国内创业者也有创新机会，例如3D场景、游戏、制造业、建筑业等。

国内最可能涌现创业公司的机会或许在应用层。To B方向应该最先有潜力爆发，例如海外这一波生成式AI公司中商业化最成熟的Jasper.ai就是SaaS模式，瞄准有高频、大规模文字生产有需求的营销、自媒体、电商等细分场景。To C方向，我相信有可能涌现下一代抖音/快手/腾讯视频的机会，但可能更多是大厂的机会。当然，AIGC作为新一代生产力工具，也有针对开发者的To D公司出现，例如今天海外已经涌现Copilot这类代码生成工具。

微软GitHub AI编程工具Copilot

再畅想未来，生成式AI还有一个有意思的方向——个性化模型，可能每个人在未来都能有自己的模型，带来AIUGC的浪潮。例如一位网红，可以基于过往的视频训练自己的模型，未来可以根据模型生成极度个性化、极度个人风格的内容。

袁泉：这里我回应一下新华总说的，我们也判断国内第一波出来的AIGC公司应该是SaaS类的。但也有一些有趣的事情在发生，随着AIGC能力的大幅度提升，单个用户每个月的消费可能就是几十块钱，购买决策成本很低。用户觉得这个工具对自己提升效率，或者写作、画画确实有用，就购买了。所以在某些场景下，To B和To C的界限在快速模糊化。

从这个维度上看，过往国内很多AI公司主要是做To B大客户或者To G这种特别重的模式，AIGC为我们打开了新的想象力。

>> 丁教：那么随着AIGC的火爆，国内AI公司的商业环境会更好吗？未来如何寻找自己的增量空间？

袁泉：坦白说今年的外部环境对于AI公司来说非常有挑战性，但启元世界最信仰的还是通用人工智能技术（AGI），即深度学习加强化学习的范式和方法论。无论是我们在一个相对封闭的场景中训练，比如让智能体从零开始学会玩一款游戏；还是AIGC的破圈，把通用智能延伸到了更大的范畴，拿全网语料去训练一个初始的认知大脑，再通过各个场景的用户数据和反馈，不断修正与迭代这个大脑形成更强的能力，背后的技术都是一样的。

AGI背后，是全世界理论上最好的两家公司OpenAI和DeepMind在牵引着这个大的范式在大踏步前进，长期来看越来越有信心。两年前，在GPT-2出来的时候还没有太多的感知，但是当GPT-3发布之后，国外很多公司开始研究、获得先机。

如今国内开始感受到如火如荼的氛围，AIGC就像是“冬天里的一把火”，点燃了大家，相信明后年在应用层面会迎来一个突破爆发的阶段。最先火起来的应用可能是和互联网以及通用常识比较相关的应用，例如营销文案。但未来再往前走要做成各个垂类的Jasper.ai，例如游戏中的2D资产、元象做的3D内容以及一些专业化要求更高的领域。再进一步，即我们所信仰的——多模态融合的更高阶形态的内容生成形式。

此外我认为国内创业者还是要敢于去想一些更大、更有想象力的事情。举个例子，随着国内大模型的开放，基于这一大模型的认知能力、对话理解能力，是否有可能打造下一个AI时代的搜索引擎？我觉得永远应该往这些方向去快速探索和试错。

>> 丁教：国内AIGC创业者是否拥有一些优势？

袁泉：我认为国内AIGC创业团队，相比海外团队有两点优势，首先是对场景和用户的理解。有一种观点认为，AIGC最后的赢家不一定是AI公司，而是对各个行业、场景、用户理解得最透的公司。中国团队在这方面的实力是不容小觑的，例如移动互联网领域，我们做成了支付、购物以及像抖音、快手这类超级内容平台。

其次是中国创业环境就是唯快不破，在一个特别新的领域，最初可能只是一些朦胧的想法，但需要快速提升组织能力，快速迭代试错，把真正的机会、好的产品形态给打磨出来。

>> 丁教：如果本身不是AI技术公司，如何学习AIGC，并利用这样的机会和成长态势获益？

黄浩智：首先我认为要结合自己的行业去思考独特方向。例如我是做服装品牌的，能用AIGC做什么？原本不知道应该生产什么样的衣服销售效果好，我可能就去设计一下prompt，描述一下这件衣服长什么样，生成图片，从中筛选去小批量投放广告，根据数据反馈帮助后续设计的决策。

另外，如果你的公司在技术能力上更强，有一件确定的事可以做，就是去决定自己的输入和输出。因为一些数据源只有某些公司才有，而且今天大家可以利用云训练资源去训练自己的模型，输出的就是特定领域的内容。值得一提的是，输入的内容可以不只是自然语言描述，还可以是数据分析描述、法律文书等等。

>> 丁教：有人担心AIGC可能取代人类，也有人认为AIGC的能力还不够强，未来人类如何与AI共生？

刘新华：AIGC不能完全替代人类的工作，但的确是人类的强大助手，不是替代而是增强。我们要保持足够开放的态度，因为人工智能进化的速度不在于起点有多低，而在于进化有多快。今天AIGC作为新一代的生产力工具已经出圈，我们每个创业者、开发者、创作者，都应该关注AIGC的进步。结合各自的领域，建议大家去体验ChatGPT、Jasper.ai、Midjourney、Stability.ai等产品，可能都会有非常有趣的发现。

而且未来AIGC领域的创业者要去思考：你的产品要和现有工作流无缝打通，让现有工作流更高效，这样低摩擦的集成更容易推动AIGC的商业化普及。例如Jasper.ai的产品体验做得非常好，不但横向跟用户创作所有主流工作流都能集成，而且纵向集成SEO和营销优化工具、多语言翻译器以及识别版权问题的合规工具等等，并且工作流支持二创和再编辑。所以优秀的AIGC产品，不是和人类抗衡，而是更好与人类现有工具相结合，发挥出人类特长；同时也让AI能够更快进步、去适应特定场景。也正是这种“无侵入体验”，使得Jasper公司成立不到二年，取得10万付费用户、ARR超过9000万美元、年用户留存率超过57%的佳绩。

随着AIGC的应用，也会涌现新的工种，例如生成式AI的训练师或者提示工程师，“如何写一个好的prompt，让AI更好理解你，生产出更好的东西”，都是我们可以思考的潜在方向。

放眼未来10年，也许会发生很多意想不到的事情或者出现新物种。例如原本令时尚行业设计师引以为傲的是审美能力，但未来AI能力加上优秀的设计师，可能会超越过去的框架、创造出全新的审美。

展望未来，随着我们向通用人工智能不断逼近，AI势必是人类的朋友。正如英伟达CEO黄仁勋所说，未来AI将协助解决人口和劳动力短缺问题，提高整个社会的生产力和繁荣程度。

继续滑动看下一个

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

96岁的朱总理

“上海王”柯庆施之死的真相

AIGC背后的技术驱动力｜元来是你010

您可能也对以下帖子感兴趣

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

96岁的朱总理

“上海王”柯庆施之死的真相

生成图片，分享到微信朋友圈

AIGC背后的技术驱动力 ｜ 元来是你010

您可能也对以下帖子感兴趣

AIGC背后的技术驱动力｜元来是你010