查看原文
其他

AIGC背后的技术驱动力 | 元来是你010

元象XVERSE 2023-12-09

Editor's Note

3D 未来,将是技术革新的未来。「元来是你」平台聚焦 3D 内容生产与消费的相关课题,与各领域专家,交流和探讨3D世界的未知与未来。本期受高榕资本榕汇邀请,探讨AIGC背后的技术驱动力,AI生成3D内容上的进展,节选部分对话如下。

The following article is from 高榕资本 Author 榕汇

无论是用Stability.ai、Midjourney去生成画作,还是和ChatGPT聊天,亦或是体验Jasper.ai帮你写一篇小作文,最近的AIGC杀手级应用以及背后的大模型,“犹如冬天里的一把火”,为我们带来了无比惊喜的体验。这波生成式AI,正利用人类已有数据打开新的边界,也打开了我们的想象力。


这番进化背后有哪些底层技术在驱动?国外有哪些新的应用值得关注?最重要的是,中国的创业者如何从中受益,底层、新场景、应用层都可能会孕育哪些新的创业机会?


近期,高榕资本榕汇联合声动活泼共同发起线上研讨会,4位来自通用人工智能、3D内容生产与消费一站式平台、投资以及内容领域的嘉宾一同对话。



以下节选部分对话内容:



>> 丁教:今年是AIGC红得发紫的一年,包括AI作画产品以及最近令人感到特别惊艳的ChatGPT。为什么是今天这样一个时间点AIGC走进大众视野,背后是怎样的技术在驱动?


袁泉:实际上,几年前行业就用一些机器学习的方法(例如GAN)去生成图像。但当时一方面是效果所限,也没有与今天最热的文生图联系起来。


当下这一波的AIGC热潮,主要由OpenAI的两个原创技术驱动。首先是以DALL·E为标志的Diffusion Model(扩散模型),以及衍生出来的Stability.ai和Midjourney等开源工具,极大地推动了文生图的发展。


另一方面是文本生成模型GPT。2017年,OpenAI第一次把Transformer和大规模训练系统结合起来做文本生成,实现了非常好的效果;近几年GPT取得了非常大的进展。目前AIGC进入到成长期,AI生成图、生成文字、生成代码、生成音乐等都在快速发展,同时能够辅助人做一些提升效率的工作。OpenAI的成功不是偶然的,我们总结为三个“555”: 5年时间、50个对AGI(通用人工智能)最有理解力的人、5亿美元的算力。



未来,我认为AIGC最重要的是从单模态到多模态的进化,例如一个神经网络同时生成图像、文字、语音等等,这方面的技术今天也在大踏步地前进。因此我们相信,在一些与内容相关的创作领域里,开始会有AI辅助人、甚至不排除在一些环节取代人。


>> 丁教:元象的浩智过往在图形学引擎与计算机视觉领域有丰富的经验。从技术的角度看,为何今年AI作画领域率先出现了现象级出圈的产品?


黄浩智:实际上AI作画在研究层面已经进行了很多年。近期大家比较强烈感知到AI作画已经达到了可用的状态,甚至超过了某些初阶画师的水平,背后得益于图形生成技术、自然语言处理模型两个方面的迭代。所以AI作画的进步是CV与NLP两个子领域交叉带来的结果。


图像生成技术领域,此前GAN、Imagen AI等生成式模型,本质原理是已经有了一个图像,经过深度学习神经网络处理,生成另外一幅内容相似的图像。今年备受关注的Stable Diffusion等模型,采用的是Diffusion Model(扩散模型)。扩散模型比较特别的是,从原来基于一维的noise去训练,变成基于完全2D的noise去建模,使用加噪-去噪的迭代来生成图片,大家发现生成的图像质量更高。因此之后有了一系列扩散模型相关的研究,带来了技术突破。


另一方面,AI作画之所以吸引人,是人们可以通过比较自然的语言描述就能生成相应的画作。背后是大规模预训练语言模型的功劳,将语言模型的特征提取出来、与图像的特征进行映射,最后得到从语言到图像的映射。


随着互联网多年的发展,我们已经积累了大量的文本和图像数据,基于这些数据可以更好训练模型,从而生成较为高质量的画作。



>> 丁教:今天AIGC在海外市场有哪些创业机会正在爆发?


刘新华:区别于上一波判别式AI主要解决已有数据的分类和边界问题,应用场景主要是大家熟悉的算法推荐、人脸识别等等;这一波生成式AI,重点是能够生成和创造新数据,输出的结果是发散性、多样性的,利用人类已有数据打开了新的边界,创造了全新的增量。


从今年8月至今,AIGC领域涌现出非常多的创新,例如GPT-3大模型生态已长出上百个不同领域的应用,背后不乏独角兽公司。


在海外,AIGC不只是大厂的机会,也新起了很多创业公司。一类公司偏底层,在新场景中孕育大模型的突破,基于DALL·E、GPT等产生很多新的模型;另外是在应用层中,出现很多新公司,包括生成文字、图像、视频、代码、3D模型等等。


另外在细分行业中,也密集跑出了一些创业公司。例如Jasper.ai目前应用在营销、电商和自媒体创作等领域。



>> 丁教:在观察这些AIGC创业公司时,你会重点关注他们的哪些能力与指标?


刘新华:从投资角度看,判断某个领域是否达到爆发临界点,我们关注典型产品是否达到了产品市场匹配(PMF);在生成式AI这样的前沿领域,我们还有个前置判断:在PMF之前,哪些场景达到了AMF(AI Market Fit)


AIGC达到AMF,有两个重要的维度。首先,AI的能力基本达到了人类专业工种60%-70%的水平,即人类可用的标准。其次,基于AI的工具容错率高,能提供可编辑性。在这两个维度上,用户量级大、数据可得性高、商业价值高的市场最容易爆发。


这次AIGC浪潮中大火的应用有一个重要共同特征是,越是在创意浓度高的市场中,生成式AI反而最有机会。因为这些领域往往容错率高,人类没有严苛单一的审美标准,愿意接受多样性,另外工具提供较强的可编辑性让人类方便进行二创。这一点是反共识的,正如OpenAI的CEO Sam Altman所说,“10年前人们都认为创意型工作将是最后一个被AI取代的人类工种,万万没想到今天事实恰恰相反。”


因此除了创意工作,未来生成式AI在游戏、建筑设计、新药研发、新材料发现等创意发散性高、容错率高的领域,可能也会存在机会。


也有很多人对AIGC的准确率提出疑虑。那些热度很高的AIGC公司首先准确率已经达到可用的阈值;我个人观点是,如果要进一步持续提高AIGC的可用性,社区驱动下数据与模型协同的增长飞轮非常重要。


今年火爆的Jasper.ai、Stable Diffusion的社区都非常繁荣,未来优秀AIGC公司的社区能力是非常重要的。用户社区不断为模型贡献数据,新数据带动模型进一步进化,从而实现好的体验、吸引更多用户,形成了数据的网络效应和用户的网络数据,二者相互促进,不断带动增长飞轮。


>> 丁教:现在启元世界在生成式AI方面有怎样的落地应用?在游戏或者更广泛的领域,未来的目标和规划是怎样的?


袁泉:启元世界从2017年开始在智能体/AI Being产品技术上不断创新,应用于游戏、数字孪生、虚拟人等领域。


启元世界最早做的决策大模型主要应用在游戏领域,AI生成一系列决策指令。目前在策略类游戏中(包括SLG、战棋、卡牌等游戏品类)已经有比较多落地应用,智能体在其中主要起到“陪玩”的作用。比较有代表性的是启元世界AI智能体在《星际争霸II》中击败中国星际职业冠军级选手。



未来我们的目标是让智能体进化到“陪聊”乃至“陪伴”。在结束一局游戏之后,智能体还可以和你聊一聊,复盘玩得好不好,下一局怎么配合。所以从去年开始,启元世界发力认知对话大模型,让智能体能够看懂游戏态势并说话。


再往前走就是构建多模态、栩栩如生的智能体/AI Being,Ta的能力将逼近人,能够理解上下文,以一种高情商的方式和用户交流,也会写作、会画画、会运动,类比于Human Being,这种AI Being是新的生命体


>> 丁教:元象对于未来AI生成3D内容,有怎样的判断?是否已经有了一些实际案例?


黄浩智:首先元象有一个信念是,未来的媒介形态会向3D互动形式或者更加聚合和多模态的方向演进。现实世界天然就是3D的,用户对这种媒介形式感到非常亲切。



但对比AI生成文字、图像和视频,目前生成3D内容还处于非常初级的阶段,原因在于3D内容数据的稀缺性。3D内容由于生产门槛比较高、周期比较长,目前主要靠PGC(Professional Generated Content)等专业内容团队去生产,积累过程比较缓慢。


但近期我们也看到3D内容两个趋势,为未来的AI生成奠定基础。首先是随着3D内容或元宇宙相关应用的崛起,3D内容积累速度加快。另一方面,基于现实世界进行三维重建的技术也在迭代,不断降低3D内容生成难度。例如2020年提出的NeRF技术,只需输入多角度带相机位姿的图像,就可以训练得到一个NeRF模型,根据这个模型就能渲染出任意视角下的清晰照片。


短期来看,在3D内容数据比较少的情况下,元象如何加速AI生成3D内容的速度?我们的思路是以图片为媒介来解决,即从文字到图片、再从图片到3D内容的生成。近期谷歌就用NeRF模型尝试从文字到生成3D内容。


目前元象对于3D世界中的人、景、物三个类别,都在尝试AI生成。在人方面,我们判断人的动作生成(点击了解元象技术方案,下同)将率先迎来爆发。随着目前动作捕捉技术、可穿戴设备的发展,对于人物动作捕捉的数据不断积累;此外,扩散模型等生成式模型也可以用来做动作数据的生成。


场景方面,目前元象迭代比较多轮的是大世界生成技术,通过AI的方式帮助大规模和复杂场景的生成。


举个例子,如果我们想生成深圳城市3D路网,要怎么做?首先内部美术团队可以用2D图形勾勒道路;之后我们利用GAN、扩散模型等技术去生成路网模型;再结合地理位置信息、航拍等数据,利用CV最擅长的识别和分割类任务,对路网进行划分和判别,不同位置设置相应的3D模型,进而将路网3D化。


元象:城市级别大小的城市路网生成结果示意图



>> 丁教:与海外相比,国内在AIGC领域将出现怎样的创业机会?更可能分布在哪些方向,例如To B还是To C?


刘新华:首先可以明确的是,国内所有创业者都将受益于生成式AI的创新和生态。大模型的涌现和指数级的能力迭代,以及开源社区的繁荣、API的大量开发和开放,都会让中国的创业者从中获益。而且大模型的泛化能力和通用性极强,无需对场景和模型重复训练(即Zero-shot),由此而来的低成本准入门槛、数据飞轮效应和广泛的场景适应能力,都能让国内的创业者可以在巨人的肩膀上做组合式创新。


但国内也会形成不一样的创业公司生态。底层平台的创业难度相对大,但也的确存在国产替代机会,特别是在本土数据特别丰富的场景中。


此外在一些新场景中的底层平台,国内创业者也有创新机会,例如3D场景、游戏、制造业、建筑业等。


国内最可能涌现创业公司的机会或许在应用层To B方向应该最先有潜力爆发,例如海外这一波生成式AI公司中商业化最成熟的Jasper.ai就是SaaS模式,瞄准有高频、大规模文字生产有需求的营销、自媒体、电商等细分场景。To C方向,我相信有可能涌现下一代抖音/快手/腾讯视频的机会,但可能更多是大厂的机会。当然,AIGC作为新一代生产力工具,也有针对开发者的To D公司出现,例如今天海外已经涌现Copilot这类代码生成工具。


微软GitHub AI编程工具Copilot


再畅想未来,生成式AI还有一个有意思的方向——个性化模型,可能每个人在未来都能有自己的模型,带来AIUGC的浪潮。例如一位网红,可以基于过往的视频训练自己的模型,未来可以根据模型生成极度个性化、极度个人风格的内容。


袁泉:这里我回应一下新华总说的,我们也判断国内第一波出来的AIGC公司应该是SaaS类的。但也有一些有趣的事情在发生,随着AIGC能力的大幅度提升,单个用户每个月的消费可能就是几十块钱,购买决策成本很低。用户觉得这个工具对自己提升效率,或者写作、画画确实有用,就购买了。所以在某些场景下,To B和To C的界限在快速模糊化。


从这个维度上看,过往国内很多AI公司主要是做To B大客户或者To G这种特别重的模式,AIGC为我们打开了新的想象力


>> 丁教:那么随着AIGC的火爆,国内AI公司的商业环境会更好吗?未来如何寻找自己的增量空间?


袁泉:坦白说今年的外部环境对于AI公司来说非常有挑战性,但启元世界最信仰的还是通用人工智能技术(AGI),即深度学习加强化学习的范式和方法论。无论是我们在一个相对封闭的场景中训练,比如让智能体从零开始学会玩一款游戏;还是AIGC的破圈,把通用智能延伸到了更大的范畴,拿全网语料去训练一个初始的认知大脑,再通过各个场景的用户数据和反馈,不断修正与迭代这个大脑形成更强的能力,背后的技术都是一样的。


AGI背后,是全世界理论上最好的两家公司OpenAI和DeepMind在牵引着这个大的范式在大踏步前进,长期来看越来越有信心。两年前,在GPT-2出来的时候还没有太多的感知,但是当GPT-3发布之后,国外很多公司开始研究、获得先机。


如今国内开始感受到如火如荼的氛围,AIGC就像是“冬天里的一把火”,点燃了大家,相信明后年在应用层面会迎来一个突破爆发的阶段。最先火起来的应用可能是和互联网以及通用常识比较相关的应用,例如营销文案。但未来再往前走要做成各个垂类的Jasper.ai,例如游戏中的2D资产、元象做的3D内容以及一些专业化要求更高的领域。再进一步,即我们所信仰的——多模态融合的更高阶形态的内容生成形式。


此外我认为国内创业者还是要敢于去想一些更大、更有想象力的事情。举个例子,随着国内大模型的开放,基于这一大模型的认知能力、对话理解能力,是否有可能打造下一个AI时代的搜索引擎?我觉得永远应该往这些方向去快速探索和试错。


>> 丁教:国内AIGC创业者是否拥有一些优势?


袁泉:我认为国内AIGC创业团队,相比海外团队有两点优势,首先是对场景和用户的理解。有一种观点认为,AIGC最后的赢家不一定是AI公司,而是对各个行业、场景、用户理解得最透的公司。中国团队在这方面的实力是不容小觑的,例如移动互联网领域,我们做成了支付、购物以及像抖音、快手这类超级内容平台。


其次是中国创业环境就是唯快不破,在一个特别新的领域,最初可能只是一些朦胧的想法,但需要快速提升组织能力,快速迭代试错,把真正的机会、好的产品形态给打磨出来。


>> 丁教:如果本身不是AI技术公司,如何学习AIGC,并利用这样的机会和成长态势获益?


黄浩智:首先我认为要结合自己的行业去思考独特方向。例如我是做服装品牌的,能用AIGC做什么?原本不知道应该生产什么样的衣服销售效果好,我可能就去设计一下prompt,描述一下这件衣服长什么样,生成图片,从中筛选去小批量投放广告,根据数据反馈帮助后续设计的决策。


另外,如果你的公司在技术能力上更强,有一件确定的事可以做,就是去决定自己的输入和输出。因为一些数据源只有某些公司才有,而且今天大家可以利用云训练资源去训练自己的模型,输出的就是特定领域的内容。值得一提的是,输入的内容可以不只是自然语言描述,还可以是数据分析描述、法律文书等等。


>> 丁教:有人担心AIGC可能取代人类,也有人认为AIGC的能力还不够强,未来人类如何与AI共生?


刘新华:AIGC不能完全替代人类的工作,但的确是人类的强大助手,不是替代而是增强。我们要保持足够开放的态度,因为人工智能进化的速度不在于起点有多低,而在于进化有多快。今天AIGC作为新一代的生产力工具已经出圈,我们每个创业者、开发者、创作者,都应该关注AIGC的进步。结合各自的领域,建议大家去体验ChatGPT、Jasper.ai、Midjourney、Stability.ai等产品,可能都会有非常有趣的发现。


而且未来AIGC领域的创业者要去思考:你的产品要和现有工作流无缝打通,让现有工作流更高效,这样低摩擦的集成更容易推动AIGC的商业化普及。例如Jasper.ai的产品体验做得非常好,不但横向跟用户创作所有主流工作流都能集成,而且纵向集成SEO和营销优化工具、多语言翻译器以及识别版权问题的合规工具等等,并且工作流支持二创和再编辑。所以优秀的AIGC产品,不是和人类抗衡,而是更好与人类现有工具相结合,发挥出人类特长;同时也让AI能够更快进步、去适应特定场景。也正是这种“无侵入体验”,使得Jasper公司成立不到二年,取得10万付费用户、ARR超过9000万美元、年用户留存率超过57%的佳绩。


随着AIGC的应用,也会涌现新的工种,例如生成式AI的训练师或者提示工程师,“如何写一个好的prompt,让AI更好理解你,生产出更好的东西”,都是我们可以思考的潜在方向。


放眼未来10年,也许会发生很多意想不到的事情或者出现新物种。例如原本令时尚行业设计师引以为傲的是审美能力,但未来AI能力加上优秀的设计师,可能会超越过去的框架、创造出全新的审美。


展望未来,随着我们向通用人工智能不断逼近,AI势必是人类的朋友。正如英伟达CEO黄仁勋所说,未来AI将协助解决人口和劳动力短缺问题,提高整个社会的生产力和繁荣程度。


继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存