其他
影眸科技张启煊:一句话生成3D人脸资产,探索AIGC+数字人
The following article is from 共同虚拟 Author 共同虚拟
东西精品沙龙系列
本期「AIGC与生产力」第二期
上期分享
百度闫楚文:
未来AIGC将继续颠覆现有的生产模式,
加速进入一个新的周期
点击文末可阅读
我们有个很大的特点是生成式AI生成的东西,会要求它更加符合工业级的标准。比如说如果我们去做文生图任务(当然我们没有做),我们可能会考虑我们是否需要把图做成多个图层的,因为现在在创作的过程中,他们往往会需要多图层的支持,然后我们现在生成3D资产,我们就会考虑它最好是拓扑一致的,是那种美术看着很舒服,能够在游戏引擎中直接使用,并且带PBR材质,这个是我们的一个好的侧重点。
然后第二次让我们出圈的是我们做的一个元宇宙毕业典礼,当时给上科大400多名师生,每个人都生成了一个卡通化的3D形象,然后它其实是先通过我们的单张照片还原人脸技术,生成一个超写实版本的三维资产,然后再进一步通过3D小样本风格化做到了卡通化的版本。
我们其实在过去几年里做了大量的AIGC还有数字人方面的研究,我们第一项关于AIGC的工作应该是2020年的工作,影眸在技术这一块主要发力点一个是建模,一个是动画,还有一个是生成。我们的逻辑上会更加考虑我们怎样通过大型的硬件还有传统算法,先去打造别人不能够生成的数据,然后再用这些数据去进一步做生成式的算法,来给大家带来更多的一些AIGC的应用。
数字人部分我们其实主要是想要解决现在所谓元宇宙还有数字人方向的困局。第一个是元宇宙,它其实并没有所谓新的技术被带过来,它更多的是对以往技术概念的总结;在数字人这个事情上,虽然去年有很多数字人的项目,但是大家用的流程基本都还是传统的影视动画流程。
影眸科技把数字人的成本分为两类,一类是资产成本,一类是应用成本,我们在两类上都进行了发力。
在我们去年7月份开始商业化陆陆续续也参与了20多个数字人项目的制作,但是刚刚所讲的那些数字人制作,本质上都是为了帮我们自己去构建一个超写实数字人的数据集,到目前为止我们一共有1000多个产品级的数字人,每一个都是在表面PBR材质,每一个都在完备的肌肉绑定,每一个都在血流图,都是毛孔级的高精度数字资产。
接下来我们就做了很多AIGC的尝试。
AIGC这个词它更加贴切的表述其实应该是生成式AI,因为AIGC会让人觉得它是跟ugc pgc是有一个递进的关系,但其实在整个创作过程中起最主要作用的还是人,是人去决定了prompt,人去调试了prompt,人去调试了Seed。
第三个也是我们自己做项目中发现的问题,我们现在可以根据一句话去生成3D数字人,但是如果你真的让我去想75个人或者100个人的长相,我自己脑子里是组装不出这些prompt的,所以我们会需要像当初计算机用命令行时代过渡到GUI时代的一个过渡,由人简单地去直接想prompt变到一个prompt user interface的过渡。
第四个就是刚刚说我们生成图的过程中,可能有人手指有6个,有人脚有3张,像这样的问题,我们就需要通过在生成的过程中加上一些physical constraint,比如说像stable diffusion2.0中,他就加入了depth的一些先验来固定这样的问题,这些都是在生成过程中加入physical constraint。
然后其实我们并不认为stable diffusion这样的模型是大模型,因为它参数量很少,它不像Chatgpt/gpt-3有百亿级的大参数,它是一个在大家的Mac上都能跑得很轻松的一个小模型,但它见多识广,它很难训练,它的训练难度是很大的,但它模型参数其实并不大。
从去年年底开始,大厂做了好多文本生成3D的工作,而且都不约而同在11月12月推出,包括英伟达、openAI、Microsoft,还有一家初创公司叫Luma AI,其实他们也做了很多不错的事情。
我们在今年年初的时候写完了一篇论文,接下来要推出一个产品,我们做我们自己的3D资产生成,我们可以通过一句话去简单的生成各种各样的三维形象,这个3D资产是正经的有UV拓扑的可以直接在游戏中使用,让艺术家二次编辑的3D资产,同时我们可以通过3D资产去做风格映射,可以把同一个三维资产去映射到不同风格的表达。