专访魔珐科技柴金祥:现实版「女娲造人」迈向规模化复制
出品丨93913媒体中心
撰文丨Austin
编辑丨Roger
今年的科技界,最火的两个话题自然莫过于ChatGPT和苹果Vision Pro,而与这两个话题强相关的“3D虚拟人”也着实跟着火了一把,与虚拟人相关的话题更是层出不穷。
在发布ChatGPT不久后,OpenAI紧接着又推出了一款新型语音视频虚拟人应用「callAnnie」,其知性、聪慧的虚拟人形象几乎能够媲美真人;苹果Vision Pro则在FaceTime中添加了基于“神经网络”扫描面部以创建数字虚拟化身的功能,该功能所创建的虚拟化身能够追踪用户的面部和手部动作,从宣传片来看,除了明显缺乏头发纹理外,角色看起来也相当逼真。
如今,当我们打开各大电商平台、短视频直播平台,经常会看到一些容貌极其精致、气色相当出众的“主播”在直播带货、直播聊天甚至是直播授课,当你正准备擦亮眼睛好好端详一下眼前的这位“美女”时,直播间上方赫然四个大字——“虚拟主播”又将你重新拉回现实,这时你一定不由得感叹:现在的虚拟人技术竟已经发展到了如此水平,甚至完全可以媲美真人。
实际上,虚拟人这一概念在很早之前就已出现。早在20世纪80年代,世界首位虚拟歌姬林明在日本诞生,英国创作者Georgia Stone所创造的虚拟人物Max也开始在电影、广告中出现。21世纪初,随着动作捕捉、人物建模等技术相继成熟,结合了真人动捕的CG虚拟人物也逐渐开始在荧幕上现身。现如今,虚拟人在动画、电影、游戏等领域则愈发活跃,比如大众比较熟悉的洛天依、初音未来、柳夜熙、A-SOUL、王者荣耀虚拟偶像等。
虚拟人对大众而言虽已不算陌生,但由于虚拟人制作往往需要涉及多个技术领域,受限于技术整合能力,虚拟人技术都长期处于滞后的发展状态,仅仅活跃于影视、动画、游戏等领域,无法在更多元的场景中发挥作用。一般而言,虚拟人需要通过计算机技术和人工智能技术制作而成,其中主要包括以下几个方面:
1、动画及三维建模技术:通过设计及建模软件对虚拟人的外形和内部结构进行设计、构建和优化;
2.语音合成技术:利用语音合成软件将文字转化成音频,让虚拟人可以“开口说话”;
3.自然语言处理技术:通过自然语言处理技术,虚拟人可以学习并理解人类语言,具备实时交互能力;
4.面部表情识别技术:通过摄像头、传感器等硬件设备,对人脸及进行识别,从而使虚拟人拥有逼真的动作和面部表情;
5.智能决策技术:基于人工智能算法,虚拟人可以根据输入的指令和数据进行专业的智能决策和行动。
以上五点是虚拟人制作技术的一些基本方面,但目前无论是国内还是国外,能够将这些技术实现整合并达到行业领先水平,制作出智能化、精细化虚拟人的公司却寥寥无几,因此我们目前看到的虚拟人,基本都是有所“缺陷”的产品,要么外形精致但并不具备智能交互能力;要么具备基本的语言交互能力但外形制作粗糙、缺乏美感。除此之外,即使有虚拟人公司可以制作出同时兼顾这两点的虚拟人,也因手工制作成本高昂而无法实现将其规模化量产。
最近,我国专注于超写实3D虚拟人的公司——魔珐科技于上海举办了超写实3D虚拟人AIGC消费级产品发布会,在发布会上定义了“3D虚拟人”,并推出了一系列超写实3D虚拟人消费级产品。令人印象最深的一点是,这场发布会由魔珐科技在今年五月发布的应用于垂直商业领域的3D虚拟人智能体「镜JING」担任主持人,其优雅的谈吐和自然随和的神态几乎与真人一致,让这场别开生面的发布会再次刷新了人们对3D虚拟人的认知。
魔珐科技在超写实3D虚拟人领域已深耕多年,其推出过的多位3D虚拟人相信大家也并不陌生。今年1月14日的小年夜上,魔珐科技推出的3D虚拟偶像「翎__Ling」与众多真人明星同台表演,尽管观众们明知翎__Ling是虚拟人,但其精细到连一丝一缕发丝都清晰可见的超写实水平,仍然让观众惊叹不已。除成功打造出翎__Ling这一虚拟IP以外,魔珐科技还通过自研AIGC实时直播技术,推出了超写实3D虚拟偶像「令颜欢」,令颜欢能够像真人一样直播带货,并且可以与直播间里的观众进行实时互动。
作为为数不多的实现了多项前沿科技技术整合的超写实3D虚拟人公司,魔珐科技靠着自身多年以来的技术积淀走在了行业前列。
据艾媒咨询数据显示,2022年国内虚拟人核心市场规模已突破120亿元,同比增长超94%,显然,作为壮大数字经济的新增长点,虚拟人迎来了属于自己的风口。为了进一步了解虚拟人技术以及虚拟人产业发展,我们专门采访了魔珐科技创始人兼CEO柴金祥教授,柴教授为我们揭开了这项现实版「女娲造人」技术的神秘面纱。
01突破困境,魔珐科技重新定义3D虚拟人
艾媒咨询在2023年 (第二届) 中国虚拟人产业大会暨AIGC创新发展论坛中公布了艾媒金榜《2023年中国虚拟人百强榜单》,虚拟歌手洛天依、虚拟美妆达人柳夜熙、虚拟UP主伊拾七、虚拟偶像A-SOUL以及翎__Ling均榜上有名。柴金祥教授告诉我们,这些最受大众喜爱的虚拟人通常都有两个共性:
其一便是它们都是依靠影视动画技术纯手工打造,为了使其外观看起来更加精致细腻,公司往往需要具备极高的美术设计能力,同时还需耗费大量人力和财力;
其二便是这些虚拟人基本都是在离线情况下生成的,观众所看到的它们的动作、神态、语言等其实都是在前期便导演或策划好的。
因此,这两大共性同时也是虚拟人发展面临的两大困境:高品质的虚拟人通常只能通过纯手工打造,因而无法实现规模化复制;虚拟人不具备AI能力,只能以提前拍摄好的视频形式出现,无法实现与真人实时交互。
近年来,随着AI大模型技术逐渐成熟,ChatGPT、Midjourney等AIGC产品竞相发布,这类产品通常具备很强的智能化协作以及实时交互能力,我们只需将自己的想法以文字形式输入到相应的产品中,就可以得到接近于真人表述的回应,AIGC与虚拟人结合的相关话题成为了社会关注的焦点。
但柴金祥表示:“尽管目前这些AI大模型产品已经具备了很强的实时互动能力,但其归根到底都还只是单点能力,如ChatGPT只具备文生文能力,Midjourney、Synthesia则主要是文生图能力,对于现在这样一个视频化的移动互联网时代,只具备这样冷冰冰的、且没有实际形象的单点能力显然是不够的。”
虽然现在一些视频平台上也经常会出现虚拟人新闻播报、故事阅读的视频,但柴金祥解释道,这些都属于「文生二维虚拟人」视频,之所以这类虚拟人只能在这些比较简单的场景中应用,则是因为其本身技术难度并不高,创作者只需将拍摄的真人视频转化为虚拟数字人视频,然后再将该视频循环播放即可,而所谓的交互能力实际上也只是简单的对口型而已。所以,这类看似文生视频的虚拟人技术,其本质还是基于视频技术,所谓的虚拟人也只是噱头而已,并不能实现与真人实时交互,也无法做到很好的三维化、空间化呈现。
基于上述问题,柴金祥认为,真正符合多元化市场需求的3D虚拟人应该具备以下三大功能:
1、有一个具体、美观、精致、逼真的外在形象;
2、具备与真人实时交互的AI能力;
3、拥有垂直细分领域内的专业化能力。
一直以来,魔珐科技都将这三点作为衡量3D虚拟人品质的关键指标。截至目前,魔珐科技成功打造了中国首位超写实虚拟KOL「翎__Ling」,在许多主流活动、大型节目中表现优异,给观众留下了深刻的印象;魔珐科技还推出了具备AIGC能力的虚拟偶像「令颜欢」,目前这一虚拟形象已成为抖音最头部的虚拟主播,其精致的外形和生动的表现力同样深入人心;今年8月,魔珐科技又成功推出超写实虚拟人「镜JING」,前面我们已提到,作为一个智能体虚拟人,镜JING的功能已不止于直播,它还具备专业能力,能够在更多元的场景中胜任不同的角色。
可以看到,如今的3D虚拟人已不再仅仅只是噱头,而是正逐渐走向现实。
02比真人更强大,3D虚拟人赋能千行百业
一直以来,当我们聊起虚拟人,脑海中浮现出来的更多的都是那些荧幕上的动漫IP、卡通人物,却很少会将其与其他行业联系起来。但在柴金祥看来,虚拟人实际上拥有着万亿级别的市场潜力,随着技术的不断发展,虚拟人将赋能于千行百业。
据前瞻产业研究院统计,截至2023年6月16日,中国虚拟人相关企业总量超6000家,2011-2021年虚拟人每年新增企业数量总体呈现上升趋势,其中2022年新注册企业数量超过1300家,创历史新高。
虽然虚拟人行业整体呈现出上升的趋势,但具体到现有的虚拟人来看,目前的虚拟人大都是依托短视频、直播等产业发展起来的,商业变现主要依靠代言、直播、带货等方式,应用场景也主要只集中于影视、动画、游戏等领域,相对受限。
在柴金祥看来,目前的虚拟人市场显然远未达到开放状态,虚拟人技术的市场潜力也并没有被充分挖掘出来。他表示:“如今的超写实3D虚拟人,我们在一定程度上已经可以将其看作是真人在虚拟世界中的镜像。毋庸置疑的是,在很多场景下,3D虚拟人甚至远比真人更加强大。”他从三个方面向我们论证了这一观点:
首先,3D虚拟人是真正意义上拥有「最佳实践」的员工。最佳实践(best practice)是一个管理学概念,即认为存在某种技术、方法、过程、活动或机制可以使生产或管理实践的结果达到最优,并减少出错的可能性。柴金祥教授以电商主播举例说道:“我们可以根据抖音上某一领域最头部的电商主播,来总结出成为一名出色的主播应该具备哪些特性,比如他的长相是什么样子,他的表达方式是怎么样,他经常运用的话术是什么,他的对话模式是什么样的……通过这些特性的总结,我们得出该领域主播的最佳实践,从而将这一最佳实践应用于我们的3D虚拟人当中。从这一意义上来说,我们的3D虚拟人就是最佳实践的化身。”
其次,真人由于受到生理情况限制,无法进行长期高强度工作,同时真人的服务能力也是有限的,无法在同一时间服务多个用户,而3D虚拟人则不同,它甚至可以实现7天24小时不间断为所有用户提供高效的服务。
最后,我们可以将3D虚拟人复制到各种终端、各种触点,比如我们常用的PC端、手机端等,3D虚拟人都可以与之相契合,为用户提供高效服务。尤其在VR/AR领域,由于3D虚拟人本身就是三维原生的数字内容,因而在该领域更能实现近乎百分之百的契合度。我们可以对未来的VR/AR场景展开畅想:当我们戴上头显设备后,一个栩栩如生的3D虚拟人助手便出现在我们面前,我们的所有指令都可以通过与虚拟人语音交互的形式得以实现,这一点与苹果Vision Pro所体现的空间计算概念也不谋而合。
基于3D虚拟人的强大功能,魔珐科技目前已和多个行业和领域的头部企业达成合作,例如,在法律咨询领域,魔珐科技与中伦律师事务所合作,为中伦打造了国内首位护航企业面向未来国内外新形势的“法律数智官”爱伦ALLEN,作为一名数字员工,爱伦ALLEN不仅以飒爽、干练、知性的外在形象成为了企业的数字名片,更以其专业的法律业务能力以及媲美真人的交互能力成为了中伦对外信息数字化的载体。
柴金祥认为,上至行业,下至企业,降本增效都是永恒的诉求,3D虚拟人显然就是千行百业降本增效的最佳解决方案。在未来,3D虚拟人将成为各行各业的“金牌员工”,可胜任的岗位包括但不限于虚拟客服、虚拟律师、虚拟导游、虚拟教师、虚拟医生、虚拟HR、虚拟主播等等,这些按照最佳实践打造出来的虚拟人员工,势必为千行百业注入更加高效的数智活力,虚拟人的市场潜力不可估量。
03规模化复制,“金牌员工”无处不在
柴金祥告诉我们,目前市场上虽然并不缺乏制作优良的虚拟人,但由于这些虚拟人的手工制作周期过长、制作难度较大且成本高昂,因此行业最大的痛点还是在于无法实现虚拟人的高质量生产和规模化复制,而魔珐科技自成立以来便一直致力于解决这一行业难题。
魔珐科技早期的虚拟人都是基于纯手工打造,包括虚拟人的外观、表情、模型绑定动画、渲染等,都是公司自主研发完成,虽然研发周期长,制作成本高,但长期的全栈式研发使魔珐科技在美术动画、计算机图形学和AI技术等领域均有了深厚的积淀,不仅为各行各业提供超写实虚拟人服务以及PGC专业虚拟内容生产。凭借对3D虚拟人的深刻理解、清晰的技术路径规划和前瞻性战略布局,魔珐科技积累了业内独家的数据资源,从五年前就开始自研3D虚拟人工业化产线、3D虚拟人AIGC平台——星云平台,并于今年推出3D虚拟人AIGC消费级产品矩阵,真正实现了3D超写实虚拟人产品的高质量、高效率、低门槛、规模化的商业化落地。
魔珐科技在近期的发布会上发布了三款超写实3D虚拟人产品,分别为“魔珐有言”3D虚拟人视频AIGC平台、“魔珐有光”3D虚拟人直播AIGC平台,以及“魔珐有灵”3D虚拟人服务AIGC平台,希望向市场提供高质量、高效率、低门槛、规模化的3D超写实虚拟人创建的最佳解决方案。
以虚拟人电商场景为例,品牌方通常都希望自家产品能够实现全平台矩阵化开播,而直播平台同样也希望品牌方能够在平台实现高质量、规模化开播,但由于市场上缺乏真正高效率、低门槛,同时可以实现规模化复制的虚拟人创作工具,因此这样的开播率需求一直以来都难以满足。但如今,通过魔珐有言这款产品,商家可以以行业内优质真人主播为原型,一键生成虚拟人“金牌主播”,同时可以实现7天×24小时直播,在真正意义上实现规模化开播。
魔珐科技发布的三款产品,在很大程度上对3D虚拟人目前的市场情况进行了细致的整合,一方面填补了现阶段的市场空缺,为我们呈现了3D虚拟人本该有的样子;另一方面则针对目前企业的痛点,为企业提供了更优的虚拟人解决方案,进一步解放了企业的生产力。
柴金祥认为,在未来,3D虚拟人将成为各行各业的“金牌员工”,虚拟员工也将成为企业提高转化率的关键因素,基于魔珐科技所研发的高质量、高效率、低门槛、规模化3D虚拟人创建工具,这一曾经的遐想如今已然成为现实。
结语
ChatGPT等大语言模型的火热,以及苹果即将发布的Vision Pro,都向我们证明了一点,那就是在未来的科技背景下,人类的工作效率将实现成倍增长,千行百业也都需要更专业、更具智能化、更低成本的行业支持与服务,而我们现有的科技基础设施也许都面临着重新洗牌,到那时,3D虚拟人势必会成为各行各业的中流砥柱。
正如魔珐科技所言:这一切都仅仅只是开始,我们期待着3D 虚拟人在未来能够大放异彩,赋能千行百业。
END
往期精选推荐
从边缘到主流:高端XR头显的市场演化
PS VR2发售半年回顾:销量尚可、独占稀缺
易现EZXR AR-Glasses全面开售,重塑线下空间数字化体验
引领文旅数字化升级,专为文旅展陈打造的Xrany X1智能眼镜正式发布!