查看原文
其他

百度智能云曦灵:AI技术赋能,全链路AIGC重塑数字人赛道

The following article is from 东西文娱 Author 东西文娱


“我们的相聚方式,既梦幻又现实,这就是当下时代。‘人机共生’已经进入生活方方面面。”一年一度的百度Create大会上,百度创始人、董事长兼CEO李彦宏以自己的数字人形象开场。


随后,百度CTO王海峰宣布正式推出“百度智能云曦灵”数字人平台。据官方定义,这是一个定位于集数字人生成、内容生产、业务配置服务为一体的平台级产品,为广电、互娱、金融、政务、运营商、零售等行业提供一站式的虚拟主持人、虚拟偶像、虚拟员工、品牌代言人的创建与运营服务。


从全球范围内来看,随着元宇宙概念可能给数字人带来更大的价值拐点,市场对于提高数字人生产效率和提升商业化的诉求正日益高涨。


作为百度AI技术落地应用的最新成果,“百度智能云曦灵”将进一步降低数字人的应用门槛,为各行各业提供多种数字人生成和运营服务。从百度智能云曦灵的平台功能中,可以看到,AI技术正从数字人表情、语言、交互等全链路提供支持,这或为数字人智能化趋势带来更多的可能。




数字人应用扩容,

AIGC成为解决行业痛点重要助力


虚拟偶像团A-SOUL、时尚博主AYAYI、抖音美妆达人柳夜熙,华为首个数字人“云笙”,再到最近刷屏的万科第一位数字员工崔筱盼……去年以来,数字人领域涌现出了很多新面孔。

随着入局者的不断增多,市场出现了明显的风格细分,传统的二次元风格依然有其相对稳定的受众群体,与此同时,接近真人质感,辨识度高的超写实数字人开始兴起,甚至取得一定的破圈效应,小红书、抖音平台分别出现了较为出圈的超写实IP。

在应用场景层面,出现了明显的扩容。以短视频和直播为代表的新兴媒介为娱乐向的数字人提供了更多的使用场景和变现路径。而在传统的娱乐场景之外,数字人正“闯入”金融、运营商、数字展厅等领域,虚拟员工、数字客服、虚拟培训师等不同职业的数字人开始出现。他们成为服务的承载体,充当起了一定的交互角色。


但与此同时,行业依然存在很多痛点有待解决。

比如制作技术层面,动作捕捉采集表情/动作数据、CG 技术合成等都存在诸多技术门槛,不仅呈现效果不够精致,且流程环节多,常常反复迭代,消耗大量人力和时间成本。

更为重要的是,尽管数字人概念火热,多家公司入局,但市面上一些打出“数字人”概念的产品,并没有实现真正意义上的数字化,缺乏足够的AI能力支撑,导致从表情、语言到交互的智能化程度较低,从根本上限制了其商业化的能力上限。

要实现真正的数字化、智能化,对AI图形学和交互、AI深度学习的要求更高,其发展水平也更受限于技术。即便是超写实数字人,大多仍然停留在图片的阶段,变现模式单一。而即使目前短视频和直播已经成为越来越重要的曝光渠道,但昂贵的制作成本、差强人意的实时驱动效果,让一些IP进入该渠道的门槛依然较高。

此外,缺乏标准,目前行业还没有建立起数字人的标准化体系;产业链效率较低,由于整个行业还处于相对早期的阶段,上下游各个生态没有被完全打通等问题,也在阻隔着数字人行业的进一步普及。

这背后,需要依托更强大的AI能力,从数字人底层产生逻辑出发,构建全链路的数字人AIGC生产平台,来提升整个行业的数字人生产标准和效率。



AIGC如何帮助实现数字人全链路


百度智能云曦灵数字人平台是一次应时而动的整合。以AI技术赋能的特色,顺应数字人智能化的趋势。

据介绍,百度智能云曦灵平台中,主要运用了百度四大引擎,包括人像驱动引擎、智能对话引擎、语音交互引擎、智能推荐引擎等,它们着重解决了数字人表情、语言理解力、交互、以及面向用户的场景服务能力等几个方面的问题,从而实现了数字人的“能听、能说、可互动”。

这也让百度智能云曦灵成为一个整体上更接近全链路实现AIGC的数字人平台。


1)用AI技术增强角色的表现力,让数字人表情动作“更生动”

这一目标主要由人像驱动引擎完成,它能通过4D 扫描、智能绑定等 AI 技术,来实现数字人的唇形驱动、肢体驱动、表情驱动、手势感知等,让数字人从表情到动作更生动具体。

从早期2D卡通到3D写实,数字人的精度在不断进化。目前百度智能云曦灵支持3D写实、3D半写实、3D卡通,2D卡通、真人多种数字人风格,不仅通过全栈的AI能力实现了二次元数字人的“一句话生成”,还通过基于任意单个2D人脸重建高精度3D人脸技术,并可对虚拟人人脸3D模型进行编辑,实现将任意2D人脸低成本替换到3D虚拟人上,更将可被AI驱动的高精3D数字人生成成本由三个月降低到一星期。 


2)用AI技术增强数字人的“语言理解力”,让数字人“更智慧”

这一目标主要由智能对话引擎理解完成。其拥有智能对话平台UNIT,能服务于智能对话系统的开发者,在对话理解和对话管理技术方面,被认为拥有较强的技术积累。

通过它,开发者能为数字人快速定制对话能力、持续提升对话效果、深度定制和灵活接入,满足各应用场景需求等,让数字人在理解自然语言上更智慧。

3)用AI技术增强角色的语音交互能力,让数字人“能听能说”

这一目标主要由语音交互引擎完成。当中最值得一提的是,该引擎拥有世界首个在线语音交互注意力模型,能实现与数字人自然畅通交流,高准确度的音画同步,逐字口型准确率>98.5%。

此外,其拥有全双工ASR、个性化TTS、变声器、定制唤醒词等各类功能或开发工具。

其中全双工ASR融合了百度自然语言处理技术,据披露,它能实现近场中文普通话识别准确率达98%;个性化TTS,则能支持数字人多种预置肢体动作,情绪、唇形,根据输入的文本/语音信息来自适应,生成表情丰富逼真的人像动画,具有高泛化、低延迟的特点。

此外,百度还研发了基于百亿级训练参数的开放域对话平台PLATO-XL,它基于百度多年的搜索及知识图谱积累,被认为是当前最大规模的中英文对话模型,刷新了开放域对话效果。目前可以借助百度PLATO-XL模型,驱动数字人来实现直播、动画等内容。

AI交互的一个例证是央视网虚拟主持人小C。2021年全国两会期间,小C以C+真探的身份在央视网特别策划“两会C+真探”节目中正式出道,并成为当家主持。其在3月7日的第一次“上岗”就与全国人大代表梁倩娟进行了独家对话。

4)用AI技术增强数字人面向客户的“营业能力”

这一目标主要由智能推荐引擎完成,能依托百度的大规模机器学习和个性化推荐技术,基于丰富的素材库,增强数字人在不同应用场景中,对客户进行内容、产品的智能服务能力。

举例来说,数字明星可以通过AI快速“习得”唱歌跳舞的功能,快速的生成内容。比如通过TTS转化唱歌,虚拟人的口型、表情、动作都自动与歌曲合拍,又比如可以通过对2D动画的舞蹈进行动作识别,让3D人物学会跳舞。


不管是近期推出的专为听障朋友提供手语服务的AI手语主播,还是过往已经推出的央视网虚拟主持人小C、航天局火星车数字人祝融号、手机百度代言人龚俊等一系列数字人,都在表明,如今的数字人正日益融入细分的行业,也正成为生活的一部分。



百度智能云曦灵的卡位:

依托AI底层技术的数字人行业普及和升级


顺应数字人的智能化趋势,百度智能云曦灵一方面通过降低行业应用门槛的方式,推动数字人的普及,另一方面又在主动升级,以AI技术赋能行业,打开数字人更大的行业增长空间。

1) 一站式平台化降低技术门槛,推动行业普及


目前,行业里来自不同企业对数字人的需求日趋多元。比如银行可能需要一个数字人来担任智能客服,广告公司可能自建一个虚拟人来代言,MCN公司需要新创一个虚拟主播来进行内容营销和IP运营……这些服务有共性的地方,又有基于特定场景的差异性。

百度智能云曦灵的一大特色便是“平台化”,依托百度强大的AI技术能力,提供2D/3D数字人形象生产线,并基于三大平台分别进行人设管理、业务编排与技能配置、内容创作与IP孵化,面向不同应用场景提供对应的数字人解决方案,在保证数字人高精度需求的同时,也将数字人的高门槛、高投入真正降下来,变成普及化服务。

2) 升级数字人,AI赋能数字人发展


顺应智能化趋势,百度智能云曦灵的显著特点,就是以AI技术升级数字人行业。

随着数字人行业的快速发展,数字人正被视为未来用户交互的重要载体。有观点认为数字人本质上是适用于各行各业的新型网络应用服务,如同社交、电商、外卖等,需要一个提供专门服务的强大平台。

而百度从早年的搜索,到近年的智能音箱热潮,再到2019年就开始介入数字人业务,数字人一直是深耕人机交互领域的百度布局的重要方向。再加上百度一直以来对于AI技术的重视和布局,这让百度在AI驱动的数字人层面一直走在探索前沿。

事实上,在这次发布AI手语主播之前,已经有了诸多AI+数字人的代表性案例,包括超写实明星数字人“龚俊数字人”、为央视网打造的数字人小C、百度集团数字人-希加加等。

从应用前景的角度来说,AI不仅提高了数字人的生产效率,更为重要的是让数字人的交互性更强、自动化生产内容的成本更低,从而大大提升与用户的粘性,并进而有机会打开更大的商业空间。举例来说,近期发布的“龚俊数字人”,通过AI驱动实现了广大用户的UGC,让明星的IP价值得以以数倍价值延伸。

而在数字人智能化的产业升级风口,基于国内市场庞大的AI数据积累,率先落地并积累案例的百度智能云曦灵,有望在这个过程中逐步丰富底层能力,释放更多的行业价值。











东西消费与科技的朋友们

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存