查看原文
其他

封面故事 | 科大讯飞:AI虚拟人交互平台“扣响”元宇宙大门

编辑部 科技与金融杂志
2024-08-23

编辑丨李佳琪

校对丨吴政希 图 | 由受访者提供


如果“元宇宙”是驶向未来的飞船,那么“虚拟人”就是上船的船票。在这样的前沿核心技术领域,科大讯飞一直在路上。


从“复刻”康辉的虚拟主播,到亮相冬奥会AI虚拟志愿者,再到打造AI虚拟直播系统,科大讯飞在“虚拟人”的赛道上持续耕耘,不断向平台化迭代。

去年,在科大讯飞全球1024开发者节正式发布了“AI虚拟人交互平台”,在今年的“1024”上,科大讯飞发布了“讯飞超脑2030计划”阶段性成果,虚拟人技术持续“进化”:更多样的情感、更丰富的场景、更全面的功能……

虚实融合是元宇宙的终极形态,以虚拟人作为入口进入元宇宙的科大讯飞,在“讯飞超脑2030计划”蓝图中,将陆续开发数字虚拟人矩阵,数字虚拟人将具备多维表达、多模感知、深度理解等综合能力,通过虚拟人技术“以虚助实”,服务民生和产业发展,真正去满足社会生产生活的刚需。



虚拟人并非今天才有。早在20世纪60年代,美国贝尔实验的三名工程师通过写代码,让大型计算机IBM7094“唱”了一段《Daisy Bell》,开启了计算机和虚拟人技术结合的科技窗口。21年后,虚拟歌姬“林明美”在日本“出道”,虚拟人从实验室走进了现实;1984年,世界上首个参演电视、广告的虚拟演员,在英国“诞生”。以此为起点,虚拟人开始萌芽。

在国内人工智能领域,一直坚持核心源头技术创新和系统性创新的科大讯飞,以虚拟人作为元宇宙的关键入口。

在科大讯飞看来,以智能人机交互为代表的人工智能技术,是“元宇宙”发展的基础支撑,人工智能的三大核心技术正在助力元宇宙发展:
  • 第一,融合多传感、多模态信息的多模态感知能力;
  • 第二,基于知识融入的深度理解能力;
  • 第三,具备声音、形象、动作等多种模态并实现情感贯穿的多维表达能力。

而汇集了这些核心源头技术之后,在多模态感知、多维表达、情感贯穿、自主定制等功能的“加持”下,“AI虚拟人交互平台”可满足客户对虚拟人特定表情、声音、情感、动作等多模态定制需求。未来每个人都能定制具备人格化和个性化的虚拟人。



人工智能从“诞生”起,就希望将人从繁杂重复的劳动中解放出来。搭载了人工智能核心技术的虚拟人,也是如此。随着“虚拟场景”不断深入拓展,虚拟人的应用被赋予更广阔的前景。而前提是,它首先得完成一场“进化”,学会感知人、理解人、与人共情。

站在科技和人文的十字路口,虚拟人的形象创建和互动体验,包括情感和“人设”,都高度依赖背后技术的深度注入。语音、视觉、自然语言处理等多模态融合算法,让虚拟人“进化”出自然逼真的感知系统、感官形象、思维大脑,以及有情感、有温度的多维表达。“讯飞超脑2030计划”正在“孕育”这些“内核能力”,为虚拟人提供“大脑”。

根据“讯飞超脑2030计划”, 科大讯飞要让人工智能“懂知识、善学习、能进化”,让“软硬一体”的机器人走进每个家庭,这既包括机器人,也包括虚拟人,如专业虚拟人家族、陪伴虚拟人、自主学习虚拟人等。今年全球1024开发者节发布阶段性成果的多项核心技术,无疑是给虚拟人提供了基础技术底座,让虚拟人和人能够产生更自然的“共情”。

虚拟人VR

除了已有的多语种合成能力外,科大讯飞提出了基于歌唱音准的“无监督”歌唱标注方法,解决了面部姿态大角度以及多角度快速切换场景下的唇形合成等难题,使得虚拟人在“能说会唱”的同时“动作丰富”。

“讯飞超脑2030计划”的另一项技术成果是:多风格多情感合成系统SMART-TTS,可提供“高兴、抱歉、撒娇、严肃、悲伤、困惑、害怕、鼓励、生气、安慰、宠溺”等情感,每种情感有20档强弱度不同的调节能力,并能提供停顿、重音、语速等不同类型的声音“创造力”,这将为虚拟人注入更多情感、互动表达更有人情味。

此外,尤其值得一提的是,在声音和虚拟形象生成技术方面,科大讯飞实现了语义可控的声音、形象生成,语义驱动的情感、动作表达。比如:当你输入“一头长发”,系统智能生成温柔大方的女性形象,声音端庄又不失甜美;而输入“英俊潇洒”,生成有一些商务范的男生形象,声音略带磁性。此外,科大讯飞还实现了语音语义驱动的动作合成,通过对语音节奏、韵律体会和语义理解,虚拟人可以随时、流畅地切换动作,拥有更加自然的肢体语言。



“元宇宙”时代,“AI虚拟人交互平台”应用前景同样广阔,可以在更多场景中,为用户提供垂直且完善的解决方案。在“AI虚拟人交互平台”上,用户可以实现全方位的“AIGC”创作,包括构建个性化虚拟人形象、生成多语种主播音视频、用虚拟人进行直播等。这个平台正在构建出繁茂的虚拟人生态图景—— 通过建设覆盖虚拟助理、虚拟服务机器人、虚拟IP等数百个形象和声音,AI虚拟人交互平台为媒体、金融、文旅、政务、电商等行业场景提供虚拟人定制服务。

在媒体新闻场景,面对海量的音视频内容,能实现新闻内容的音视频生产自动化,只要输入文字即可“一站式”生产成品视频,尤其是对重大、突发新闻等更新频率较高的内容播报,能显著提升效率。

面向银行、证券公司等金融机构,通过为其定制专属AI虚拟客服,帮助金融机构提升业务效率、将服务内容标准化,以提升服务效果。

面向有大量招聘面试需求的大型企业,打造“多面手”AI面试官,可轻松支持不同岗位的高效率智能化交互面试,帮助企业在人力招聘环节中,实现个性化体验与标准化管理的二合一。

面向政府部门、企事业单位、展馆场馆等,可在智能一体机、手机AP P等交互终端上打造“AI智能交互助手”,进行业务智能回答,或提供虚拟迎宾、业务介绍、信息查询、金融问答等服务,让交互服务更智慧、更便捷、有风格、人性化。

虚拟人形象设计大赛


“AI虚拟人交互平台”具有丰富的形象库,不仅能根据受众喜好、需求来个性化选择五官“捏脸”,创造一个全新的虚拟人,还可以根据不同场景赋予其相应的形象气质,2D或3D、半身或全身、“盐”或“甜”……

作为“讯飞超脑2030计划”的阶段性成果,今年科大讯飞已打造了多款专业虚拟人,分别用于客服、助理、招聘、财务及法务工作。通过深入学习行业知识,科大讯飞还定制研发了多行业“交互大脑”,为金融、电信、媒体等多个行业提供专业虚拟人解决方案。通过这些专业虚拟人解决方案,为“数字经济”服务,以虚助实。

至今,“AI虚拟人交互平台”已汇聚468家设计伙伴,拥有虚拟人资产700项、累计服务客户1000+。一个个风格多元、生动专业的AI虚拟人从平台走出,有些“现身”科大讯飞全球1024开发者节,听“林徽因”朗读《人间四月天》,随着“AI时空导游”游遍祖国河山……

沉浸式时空馆

未来,AI将犹如“水和电”一般融入人们的生活,“走进”寻常百姓家,凭借多维度、全感官、沉浸式的交互体验,帮助每个人、陪伴每个人,真正让每个人站在人工智能的肩膀上,感受更伟大的新时代到来。


AI虚拟人交互平台的持续“进化”,只是科大讯飞在1024期间交出的其中一份答卷。以“讯飞超脑2030计划”为出发点,过去一年,讯飞在单项技术方面持续突破,在语音、图像和认知的国际高水平技术评测中共获得12项比赛冠军;多技术方面深度融合,在多模感知、深度理解、多维表达和运动智能4个方面,也取得突破性进展。

在技术创新之下,“超脑2030计划”已结硕果,形成多个示范应用。例如,在医疗领域,讯飞基于多模态交互和认知智能技术,研发了“抑郁定量筛查系统”,抑郁筛查效果由 75% 提高至91%。讯飞将研发抑郁症筛查平台,向更多的学校推广,助力青少年的心理成长。在实体机器人方面,讯飞联合宇树科技推出了支持户外巡检、化工巡检等多元场景巡检的四足机器人;联合珞石机器人,推出了柔性机械臂实现与人更安全的配合,可用于工业巡检、商业服务等场景。

依托强大技术底座,讯飞开放平台围绕能力赋能、智能交互、数字资产、模型训练、自动化和机器人超脑构建,面向实体机器人和虚拟数字人建设N种场景化机器人,赋能工业、农业、服务业、能源行业等,连接产业生态、共建行业场景。

至今,讯飞开放平台2.0战略稳步推进,已开放能力达542项、集聚375万开发者。在教育、金融、医疗、能源、地产等1 4个行业取得应用落地,与金茂地产、古井集团、建设银行、国能集团等数十家行业龙头达成战略合作,形成了良好的生态带动效应。

在工业互联网方面,讯飞也在发力。“羚羊工业互联网平台”总用户超22.6万,累计企业服务次数超45.5万,全面对接企业“研产供销服管”各类数字化转型需求,提供场景、政策、技术和金融全方位的赋能。

从源头技术创新,到平台产品升级;从产业数字化转型,到解决社会刚需,在“讯飞超脑2030 计划”的牵引下,科大讯飞AI 科技树正茁壮成长。未来,讯飞希望携手生态合作伙伴和百万开发者,不断突破创新边界,用人工智能助力数字经济高质量发展,共建数字世界新未来


· 文章版权归本编辑部所有,未经授权不得转载。

· 如需获取转载、合作、采访等需求请到微信公众号菜单栏,获得相应信息。

· 您亦可在知网、今日头条、南方号等相关平台上关注我们。


《科技与金融》杂志2022年11月刊
已发售欢迎点击下方图片订购

往期回顾





继续滑动看下一个
科技与金融杂志
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存