查看原文
其他

AI生成之数字人分身,音画合一有模有样

AISpeech 思必驰 2024-04-15


AIGC大爆发,科技革新不断,数字人在各种场景中崭露头角,如数字人主播、数字人解说员、数字人导购等。根据真人形象AI生成数字人分身,这项技术已经从未来走进现实。

数字人(Digital Human)是指利用计算机技术和人工智能技术,根据真实人类的外貌、动作、声音等特征,生成的具有高逼真度以及高交互性的虚拟人物,可以为人类提供多样化的服务。

近期,【东风生万物】思必驰DFM-2大模型及创新技术应用成果发布会上,思必驰联合创始人、首席科学家俞凯的数字分身重磅亮相发布会现场。

思必驰数字人生成技术



思必驰联合创始人、首席科学家俞凯

数字人

思必驰基于DFM-2大模型推出的自然场景数字人生成技术,采用扩散生成模型,通过小数据模型训练,实现高品质数字人生成,个性化对话生成与语音合成模型无缝结合,构建可自由交互的个性化数字形象。思必驰打造的数字人不仅能说会道,还精通粤语、四川话、上海话等各地方言及英语、法语、俄语等多国语言,可应用于智能家居、智能车载、智能轨交、市场营销等场景,为人类生活带来更多可能。

思必驰联合创始人、首席科学家俞凯

真人出镜

就像视频中的数字人俞凯教授,无论是声音、表情、动作还是形象,都与真人高度接近,甚至还可以根据不同场景,切换语言与人类进行交互。

数字人的打造需要运用计算机图形学、计算机视觉、自然语言处理、智能语音等领域的知识和技术,从而生成一个从形态到声音上都媲美真人的数字人。


思必驰基于自研的对话式语言大模型DFM-2与全链路综合对话技术的联动能力,可快速生成高品质的数字人。在外貌上,思必驰采用扩散生成模型,通过小数据模型训练,基于真人形象,构建出可自由交互的数字形象。在语音上,思必驰通过声音复刻、单人千音、细粒度情感及风格合成、音频场景合成等系列技术,为数字人赋予语言能力,让数字人变的更加鲜活。


●声音复刻为数字人赋予真人同款声音。思必驰声音复刻技术服务,支持男声、女声、童声及中、英文和方言复刻,可辅助用户打造不同年龄、不同性别的数字人形象。


●情感合成让数字人也能表达喜怒哀乐。思必驰可合成高音质、多情感的音色,呈现“高兴、抱歉、撒娇、中性”等多种情感声音,为数字人的情感表达赋予了更多活力,提升了人机交互体验。


●单人千音让数字人也能说方言外语。思必驰单人千音技术可以在短时间内快速将单个发音人的音色,迁移成为粤语、四川话、上海话、苏州话、闽南语等方言以及俄语、德语、日语、法语、泰语、西班牙语等外语,让数字人“青出于蓝而胜于蓝”。


思必驰联合创始人、首席科学家俞凯数字人—苏州话

中商产业研究院发布的《2023年数字人产业发展白皮书》显示,2022年我国数字人产业市场规模达1464亿元(同比增长57%),预计2025年全国数字人相关企业数量将突破40万家、数字人产业市场规模将达到2600亿元。数字人将进入大规模应用期,转化为现实生产力为社会创造价值。

在市场营销领域,数字人可用于线上直播进行产品营销推广,降低公司的人力成本;在智能车载领域,数字人可融入车载系统,提供导航、新闻播报等服务,为用户带来更智慧的出行体验;在家居领域,数字人可入驻家电大屏中,为用户提供菜谱推荐、家务规划、情感陪伴等服务,成为用户贴心的数字人管家;在轨交领域,数字人可在车站提供路线导航、购票咨询、信息咨询等服务,降低轨交领域人力成本。


相较于真人,数字人可以不受时间或空间的限制,随着大模型技术的应用,数字人也将持续释放价值。未来,思必驰将基于DFM-2大模型,综合全链路语音交互技术,为用户带来更具特色的数字人形象,加速推进AI技术的应用落地。




—如有合作意向,请发邮件—

marketing@aispeech.com




继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存