全网17万直播观看的PPT公开:准备好进入虚拟世界和数字人共存了吗?

Original AAIG 阿里巴巴人工智能治理研究中心 2023-11-28

收录于合集

#追AI的人 80 个

#技术干货 23 个

灵魂发问❓❗️① 在生活当中已经有哪些数字人伴随着我们？
② 火到央视的虚拟主播技术具体是什么原理？③ 难辨真假的虚拟模特塔玑，是如何实现的？④ 数字人的世界，又有哪些暗流涌动和发展机遇？

《追AI的人》第5期邀请阿里安全高级算法工程师郎一宁做客直播间，风趣生动的分享《数字人的AI心》，全网超17万人实时观看！

本文将分享AAIG对于“数字人现状和未来发展趋势”的独特观点，全文共计7050字。

🔻相关内容推荐:

直播简介：数字人,我的新同事:《追AI的人》直播第5期来咯!

郎一宁

花名国安。阿里安全高级算法工程师。北京理工大学计算机与经济学双学位。研究生期间累积发表计算机视觉，计算机图形学，虚拟现实顶会顶刊论文8篇，累计申请国家发明专利8项，担任多个学术会议和期刊审稿人，并获得中国电子学会年度优秀硕士论文奖。毕业后加入阿里巴巴AAIG实验室，担任塔玑虚拟模特项目算法负责人。

框架要点

一、当数字人走进我们的生活

二、AI虚拟主播技术

三、塔玑虚拟模特技术

四、数字人的安全治理与可持续发展风向

1
当数字人走进我们的生活

手机上刷到特效精美的视频，我们往往眼前一亮；但如果视频是在电影院的大荧幕上，我们可能也就觉得还不错。这说明在不同场景，人们对于同等水平的特效视频的期待是不一样的。

假如将流浪地球级别的特效视频放在短视频上，并将其中的人物包装成来自元宇宙的数字人，这样无疑是远超人们的预期的，柳夜熙爆火不免有一些这方面的因素。

从技术层面来看，柳夜熙的脸完全是通过3D建模生成的，而身体部分就不一定完全是特效了，它有可能会结合真人的身体动作去做演示，或使用真人姿态做动作捕捉，这里就涉及到了Metahuman的概念。

天猫品牌推出的AYAYI和央视《华彩少年》节目推出的翎是国产Metahuman的先行者。大家看到上图的第一反应可能认为，这是时尚达人或美食博主发出的动态。事实上这两个都不是真人，但所在的场景却完全是真的。

拉近来看，我们能比较明显地看出AYAYI和翎是通过三维渲染和CG技术做出来的，因为它的细节太完美了，完美到每一个毛孔都十分细腻，而真实的皮肤质感肯定是达不到这种效果的。而背景无论是色彩还是细节，就会显得粗糙一些，因为它是真实的场景拍摄出来的。

Metahuman这个概念，最流行恰恰就是这种去跟真实场景去做结合的方式。

Metahuman可以用于做什么？它有哪些生意经呢？目前来讲，它的变现速度很快，最大的生意经就是接代言。

过往由流量明星给品牌进行代言，往往会有几个问题：

容易出现审美疲劳
目前对于明星艺人的约束也逐渐增强，代言容易出现意外情况
代言成本高昂

在这样的背景下，虚拟形象代言人的需求逐渐产生。

虚拟形象代言人和Metahuman并非是我们国内首创的，这个概念最初来自国外。IMMA就是Metahuman界的一个老前辈，即上图中间粉头发的女孩。

她作为数字人在真实世界并不存在，但是却可以和其他两个人一起合影，这主要是通过3D建模和视觉合成技术，把她和真人合成到同一个照片中。

IMMA目前已经是数字人界的顶流，也是一名国际巨星，她不仅是SKII的“头牌”代言人，还拥有国外社交平台的账号，每天都会分享自己的生活。

如果你是追星一族，追数字人的成就感应该会更高，因为它会每日分享自己的生活，也不会出现形象塌方的事件。

事实上，数字人运营已经成为了一个不容小觑的项目，像IMMA在国外的社交平台上已经积累了几十万甚至上百万的粉丝数量，到这个时候，IMMA就已经变成了一个IP。未来，数字人IP化可能会成为数字人发展的重要趋势。

有IP后如何去运用流量密码？综艺就是一个很好的方式。江苏卫视率先推出综艺节目《2060》，节目中不仅采用全息投影、线上AR直播等最新技术，还引入专业的虚拟直播系统。该节目引入全虚拟场景概念，全季的演出舞台分布在不同主题的虚拟场景中，这种模式无疑是创下国内综艺之先河。

事实上，虚拟人在业务场景中早已有了应用。无论是现实世界还是虚拟世界，都有打工人的存在，这类默默付出的数字人，他们其实早就存在了。

如银行的数字客服，他们往往以电子柜台的形式存在，可以为我们提供某一部分功能；这类数字人的功能并不以娱乐性为出发点，因此他们更像是平凡打工人的形象。

2
AI虚拟主播技术

本章主要讲解AI虚拟主播技术，让大家从头到脸再到全身，从开口说话到表情神态再到全身动作，了解搭建数字人的大体流程。

万事开头，先从数字人“头”入手。如图左侧的人物头像是一张照片，右侧的人物头像则是照片3D数字化的形象。这主要采用的是3DMM的技术方案，实现从照片到3D人脸的建模。

首先，需要提取照片中人脸的特征，这时候的人脸特征还是一组高维度的向量，需要通过 PCA降维算法去做整体的维度抽象，如抽象眼睛的特征、鼻子的特征、嘴的特征等，最后在3D建模中去做整体的组合呈现。

当然，我们也可以通过建模软件完成一键建模，如character creator工具。

如图我们可以看到，将一张老人的照片输入后，就可以一键生成一个非常真实的数字人，而构造这样数字人的成本几乎为零；而如果是商业用户去构造的话，整体的费用其实也不会太多。因此，如果仅供个人爱好者娱乐使用，3D建模的成本是很低的。

那么如何让数字人动起来呢？

上图是国外的一个虚拟人主播，直播内容是做一个数字人直播去解说游戏。在其中使用的技术就是实时动作捕捉技术，真人主播通过自己的摄像头完成动作捕捉，使得虚拟人能够同步真人主播的动作。这种技术在大型游戏中已经得到了广泛应用，如绝地求生、NBA2K系列就是通过动作捕捉技术引擎实现的。

接下来的步骤是让数字人开口说话。

如图，是通过动捕设备对于实时的面部和嘴型去做数字化的展示。目前主流的面部动捕厂商还是以国外厂商居多，国内厂商以轻量级动捕为主，即通过手机摄像头或者普通PC摄像头完成面部动补，目前我们正在追赶国外的脚步。

最近引发广泛关注的华智冰，实际上也是一个虚拟人。如图右侧可以把它理解为标准照，通过数据训练生成出并非真实存在的人。她人脸的每一个像素都是通过深度生成对抗网络计算出来的。

生成器并非一开始就非常智能。

在刚开始时它也很笨，需要通过对成千上万甚至几十万数据的学习，去不断提升自己生成的真实度。再通过变换它的卷积核大小来观察数据细节纹理，经过上万次循环往复的迭代，生成器创造虚拟人的真实度会大大提升。

再经过数据清洗，或调整降低自己的学习率去进一步优化，生成器基本就能达到生成符合标准虚拟人的要求。

注：视频来自B站up主“梦犹香”

目前大型互联网公司主流的声音采集和唇部驱动的虚拟主播技术是怎么实现的？

声音采集与合成部分现在已经有比较成熟的方案，像百度地图之前就推出过20句话定制一个个性化导航声音，就是基于少量声音音色去合成数字人的语音。

目前的技术热点主要在声音驱动唇部运动部分，这部分也是需要对真人进行数小时的真实语音—唇部动作的，成对数据采集，作为深度学习网络的训练数据。后面的几篇论文会提到如何运用这些训练数据去做数字人的唇部驱动。

如图是搜狗的虚拟主播，这个虚拟主播精通各国语言，可以讲英语、俄语、粤语、日语等多种语言，同一主播同时能够讲多种语言是搜狗下一个主打的方向。

他们的数字主播是怎么实现的？现在三篇论文带你入门，深入了解虚拟主播技术。

如图，这篇论文的主要内容为唇部数据驱动。先输入一个原始视频，而后对嘴部姿态进行迁移，合成到其他视频上，这样就可以达到驱动虚拟主播做新闻播报的效果。

论文是CVPR21中的一篇论文，其核心贡献就是提出隐空间的POSE属性表达方式，它是相当于把POSE进行了多维度的编码，让整个人体脸部的轮廓旋转的 POSE和嘴部语言驱动的POSE能够分解开，更便于它的一个合成。

下一篇论文也是来自香港中文大学的一个作者，内容主要为表情驱动技术。表情驱动可以让一名新闻主播变成一名脱口秀的百变主播，这也是现在虚拟主播的一个发展方向，它使得虚拟主播不再局限于新闻主播，而是可以更加宽泛。

这是一篇叫“虚拟主播界经典永流传系列”的论文。在这个领域中，它是一篇鼻祖式的论文，它重新定义了虚拟主播Talking Face的任务，之前的Talking Face主要以3D化为主。

上图是我研一时候的一项工作——性格驱动3D人脸建模。它可以将人脸用3D模型驱动出来不同的性格表征，比如将人脸表现为聪明并且奸诈。

如图，操控软件滑块，人脸就可以从平均人脸变成这种看上去有点聪明又有点坏的形象。我们通过观察输入前后的heatmap，也可以观察到哪些人脸特征发生了变化。

有人提到情感识别，情感识别需要多模态去做，它不只是看面相，也需要进行语言分析以及其他方面的内容。

3
塔玑虚拟模特技术

塔玑虚拟模特技术的主要背景是为中小商家提供卖家秀的服务。

大家经常逛电商平台，知道中小商家的图片都比较少，有的是自己随便摆拍了几张，有的甚至直接使用来路不明的图片，这是我们在业务进行过程中比较头疼的一个问题。

中小商家最大的痛点就是拍摄的成本太高。对同一件衣服进行拍摄，中小商家需要100~500元的成本，而头部的商家则可能需要上千元，包括像摄影师、模特、场地、灯光师等都是包含的成本。

针对这个痛点，我们提出了设想：能否通过虚拟模特的AI合成技术去做卖家秀？

如此便可以从正向减少中小商家图片质量不高，图片来路不明的问题，为中小商家提供低价且优质的卖家秀图片，相比正常模特拍摄，极大缩短了商品图的交付时间，模特形象颜值在中等偏上水准。

我们目前的虚拟试衣技术主要是基于生成式网络（GAN）与三维渲染能力。之前的试衣镜技术有一个比较明显的缺陷——你站在一个镜子前，传感器把这个衣服给到你，整体呈现的立体感并不是很强。

而目前所采用的的虚拟试衣技术较好地解决了这个问题，我们会通过3D重建与渲染算法，人脸合成算法、服装合成算法等去完成多模态的融合，打造出一个比较真实的模特。

塔玑虚拟模特目前正展示在阿里原创保护平台的首页，它是一个模特实拍图的智能解决方案。如图这个人是我们的零号塔玑，我们把它命名为叫智优。

通过这项技术，我们可以生成大量的模特，无论是妆容配饰还是表情都可以通过AI算法合成出来，并且这个人是世界上独一无二的，世界上也没有真实存在。另外，我们也可以通过人脸超分辨率算法，把一张比较糊的照片生成为一张足够清晰的照片。

塔玑虚拟模特不仅生成中国模特，对于外籍模特同样适用。在疫情背景下，许多做外贸的商家提出了合成外籍模特的需求。我们对于这方面也做出了努力，外国朋友很多酷爱健身，肌肉都比较发达，塔玑虚拟模特可以生成肌肉青筋的感觉去做多尺寸合成，这也是我们的技术能力之一。

外籍模特合成的应用可以给外贸商家节约很多成本，虚拟模特的生成几乎没有什么成本，但是如果去请外籍模特拍摄，那就需要按时计费，非常昂贵。

上图我们可以看到，无论是整体质感、服装褶皱、人物动作都能呈现很高的水准，甚至一些复杂的动作也可以通过服装渲染和身体重建去完成。

谈到虚拟模特好像都是成年人的世界，童模有没有什么大展拳脚的地方呢？

童模在国内更多是以兼职的形式存在的，在疫情背景之下童模市场持续萎缩，家长大多不放心孩子去当童模，并且童模整体拍摄难度较成年模特无疑是更高的，这时候对于虚拟童模的需求就应运而生。

通过生成式网络的技术，我们可以生成身穿各种服饰的童模。如图是巴拉巴拉的天猫旗舰店的商品页面，这些头部商家也开始使用我们的虚拟童模。

塔基虚拟模特的技术早已不是一项虚幻的技术，它已经应用到了实际的业务当中，在我们的日常生活中也变得非常常见。目前的产品还支持搭配选择的功能，我们可以让商家自由组合一套卖家秀出来，它可以勾选最多可达20种模特的姿态。

4
数字人的安全治理与可持续发展风向

数字人未来的将会向哪个方向发展？如果真要说一个答案的话，我觉得就是混合现实技术。

大家目前看到的虚拟主播、虚拟模特、虚拟idol，大部分都是一些算法层面上的事情。而国外的一些大型互联网公司，他们的发展方向往往时从硬件设备上去发展，即混合现实设备。

从我们现有的技术来说，电影《失控玩家》中所展现的这种技术，我们其实已经可以打造出来，只不过它的成本暂时还比较高。而很多国外的厂商已经将这种混合现实设备引入到了他们的实际业务当中。

一些无人驾驶的公司就将虚拟现实设备引入了他们的业务当中：当带上混合现实设备，可以直接渲染出车辆涌动的样子，这样可以让业务人员去发现问题、找到问题。

比如说虚拟现实中无人驾驶车被撞了，它就可以进行数据采集，但是如果是真实世界就没法做这个实验。另外一些高危职业，同样可以通过混合现实技术来实现排除风险的功能。

天气预报也可以使用虚拟现实技术。过往的天气预报模式，都是主持人站在一个大屏幕前，拿个小棍指着相应地区然后播报这个地区的天气情况。

而目前，已经出现了使用虚拟现实技术的天气预报。在节目中，虚拟现实技术可以把冰天雪地、大暴风雨等天气场景直接呈现在直播间中，让你身临其境的去感受。

Facebook前段时间推出了一种数字可穿戴设备——数字手套，这个其实也是国外现在比较火的一项技术方向，就是可有触感的这种数字人，数字手套带到真人的手上之后，你再摸数字人的时候它就变得有温度了。

目前我们国内的虚拟现实技术更多的是算法方面的创新，这几年确实也取得了非常出色的成绩，但是想在虚拟现实这条路路走得更远，其实更少不了硬件设备的支持。

像这种混合现实设备，它对于光学芯片、对于无线电等各方面的知识要求都非常高的，并非只是人工智能这一个领域，希望未来我们国家可以有越来越多的人才去挑战这些高精尖的硬件技术。

PPT原件获取

请联系【AAIG课代表】⬇️

追AI的人往期推荐点击标题查看文章

数字人,我的新同事:《追AI的人》直播第5期来咯!

PPT公开:人工智能触犯刑法该如何处罚?责任谁承担?刑法介入人工智能风险规制的慎思!

刑法介入人工智能风险规制的慎思:《追AI的人》直播第4期来咯！

低碳AI好科技(2):如何降低超30%的算法调用成本?畅聊多专家结构

低碳AI好科技(1)顶会冠军Writeup:目标检测比赛的常用方法有哪些？

三个学霸的顶会Paper中奖座谈会:《追AI的人》直播第3期来咯！

(下)算法黑箱到底要不要打开?万字长文讲述:如何构建更合理的算法透明规则

算法黑箱到底要不要打开?万字长文讲述:如何构建更合理的算法透明规则(上)

打通外卖骑手算法的任督二脉:《追AI的人》直播第2期

50页！《AI与安全治理的恩怨情仇》PPT快来下载～真香！

正在直播！AI讲师的PPT里竟然还有软色情...

AI与安全治理的恩怨情仇？《追AI的人》第1期直播来咯！

产业实践往期推荐点击标题查看文章

博士毕业后，他在淘宝“扫垃圾”？

阿里AI黑科技成团出道，可防火防伪防疫还能反诈鉴黄与打假……

阿里“塔玑”太逼真：外籍模特不再吃香？

万能的淘宝上买不到什么？

阿里建全球最大奢侈品商标数据库：无偿提供给全球科研团队使用识别假货

AAIG参与发布《人工智能产业担当宣言》

一场猎杀AI的残酷游戏：把枪口对准人工智能，是为了吓退黑暗丛林中的对手

阿里实人认证安全性通过FIDO全球权威认证

多举措提升直播品质阿里协助警方侦破直播售假案

为AI攻防测能力，清华联合阿里、RealAI发布全新测试基准平台Adversarial Robustness Benchmark

阿里巴巴成立人工智能治理与可持续发展实验室(AAIG)

巡检「局部抄袭」，阿里服饰版权算法入选AAAI 2020

阿里新一代安全架构核心AI技术夺冠，机器阅读理解准确率战胜人工

复工潮的疫情防控多了一双“火眼金睛”——AI防疫师

阿里研发AI技术可识别拦截数十国多语种脏话图

为了对付羊毛党和黑灰产，电商平台的AI大招是这样放的

阿里自研芯片亮相的同时，张勇对外公布了这一计划

治理重构，塑造平台经济的健康生态——《中国平台经济健康指数》报告发布

在阿里巴巴园区过双十一,是怎样的体验?

技术干货往期推荐点击标题查看文章

AI在茫茫人海中，看到只有你被Deepfake了

给AI系统做“安全体检”，阿里安全提出自动化AI对抗平台CAA | AAAI 2021

给图片打「马赛克」可骗过AI视觉系统，阿里安全新研究入选ICCV 2021

你算个什么鸟？AI十级“找茬”选手诞生

「启发式领域适应」成果入选NIPS2020，新一代算法「鉴黄师」诞生

4项新一代安全架构核心AI技术沉淀的论文被国际会议ICASSP收录

用“算法”模拟光束可攻击自动驾驶车辆，专家呼吁重视AI安全

张钹院士解读AI安全治理三大痛点+信通院AI数据安全治理的七条建议

准确检测DeepFake视频，阿里新算法从多个人物中识别被篡改的人脸

只要AI跑得快，色情黑话就追不上我

让 AI 训练 AI：揭秘阿里、浙大的 AI 训练师助手

阿里AI技术获国际视觉大赛双冠军 “低碳AI”降低30%算力成本

大咖视角 往期推荐点击标题查看文章

阿里巴巴副总裁陈龙:数字科技是绿色低碳发展的催化剂、连通器、放大器

阿里巴巴CTO程立:科技的价值锚点永远是“人”

爱心公益 往期推荐点击标题查看文章

“长辈模式”、数字化“养老助餐”、在线医保购药——“饿了么”适老化改造让数字化生活服务更普惠

为数十万盲人修建网络盲道：阿里的追光者每天为数亿张图片把脉，帮助盲人“听图”

半夜，他偷偷在互联网上呼救

被隔离的阿里安全工程师们：11 天造出疫情 AI 防控系统

AAIG CUP 往期推荐点击标题查看文章

抱大腿攻击是什么？AAIG CUP暨第三届 Apache Flink 极客挑战赛启动！

更多人工智能治理和可持续发展

技术干货+产业实践分享

点击下方名片关注和星标

【阿里巴巴人工智能治理与可持续发展实验室】

继续滑动看下一个

市管干部“龚书记”免职迷局

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

法明传[2024]173号：关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)

全网17万直播观看的PPT公开:准备好进入虚拟世界和数字人共存了吗?

更多AI治理干货，请关注AAIG公众号

PPT原件获取

请联系【AAIG课代表】⬇️

您可能也对以下帖子感兴趣

市管干部“龚书记”免职迷局

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

法明传[2024]173号：关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)

生成图片，分享到微信朋友圈

全网17万直播观看的PPT公开:准备好进入虚拟世界和数字人共存了吗?

更多AI治理干货，请关注AAIG公众号

PPT原件获取

请联系【AAIG课代表】⬇️

您可能也对以下帖子感兴趣