查看原文
其他

在手语世界里,健听人、数字人与听障人的交织

贾凯强 CSDN 2021-05-22

如果没有声音,我们的世界会变成怎样的呢?没有雨落地,风吹草,鸟鸣啼;各种娱乐节目和直播也会远去;更麻烦的还在于,常规教育接受也会成为问题,读书识字可能会变成一种奢侈,网课、视频课都可能远去。这些问题对于健听人而言可能很远,但在中国2700万、全球4.66亿听力障碍人士面前,这些都是关乎生活重要话题。

在今年的2021搜狐科技5G&AI峰会上,搜狗 CEO 王小川正式发布全球首个手语AI合成主播“小聪”,其便是基于搜狗人工智能和AI分身技术,为听障人士更好融入社会提供帮助。AI技术的发展,使得语言转化为文字早已不是什么难题,强大的NLP技术甚至能够实现多国语言的实时翻译,但对于手语这一独立于各大语系之外却用户诸多的语言,能够真正去接触、了解、研究的机构却很少。

为了探索“小聪”背后的故事,揭秘手语3D数字人的技术布局,CSDN应邀采访了搜狗AI交互技术部总经理陈伟及其研发团队,来进一步了解手语的世界。


3D数字人对视觉空间语言的表达


2018年,搜狗与新华社联手,推出了全球第一款AI合成主播数字人“新小浩”。但第一代数字人无论表情还是手势,都显得非常拘束。而通过短短几年的技术迭代,搜狗AI团队在超写实3D数字人领域持续研发并取得了新的突破,本次发布的手语数字人结合原力科技的行业最领先3D重光照扫描还原完成的手语数字人高精度模型及采集的动画数据,辅助自研的表情肢体手势捕捉技术,生产出了高度还原真人发肤、形象逼真、动作自然生动的数字人模型。

或许很多人会迷惑,手语的价值是什么呢?我们不是有字幕的吗?陈伟举了一个简单的例子,就像电影电视一样,即便我们能听到听懂,也一样需要字幕才能更好的理解其中信息。而国内2700万听障人士中,受教育程度参差不齐,尤其是中老年群体中,他们对手语的接受程度会更高一些。更何况,字幕和手语绝非二选一,二者语言体系并不相同,使用手语表达会更符合听障人士的习惯,而手语3D数字人的出现也可以让听障人士多一个维度获取信息。

可问题在于,手语是一种与汉语、英语、法语、俄语等全然不同的视觉空间语言。手语以表形表意为主,其独立性相比普通的语言要高很多,不过因为其特殊性存在,导致词性结构不发达、语序语法结构相对独立。这些因素的存在,使得健听人想要学习手语困难重重,想要打造这样的一个项目,就先要从头学习这门独特的语言。可是,手语的材料相比其他语系也十分稀缺,团队最可靠的资料便是我国2019年基于最新发布的国家通用手语语言体系而出版的《国家通用手语词典》。

为了打造听障人士可懂的手语3D数字人,陈伟的团队不仅仅要学习手语,还要和工程师、研发人员、专家等共同把手语的手势、表情、唇动、姿态等图像信息转化为计算机可懂的编程语言。而为了让听障人士和健听人正常沟通,手语翻译成其他语言的工作也十分繁杂,这里除了建模和算法问题之外,还会涉及大量语言相关工作,难度可想而知。

当然,前期所有的工作最终都是为了让数字人能够更加逼真的表现出来,这其中不仅仅是手语动作,还包括了面部表情、唇语等诸多表征。为了保障数字人的实用表现,陈伟的团队与中国聋人协会、残联共同制定手语研究体系,与手语学校的老师及手语使用者进行紧密沟通,获得真实用户反馈。

搜狗团队还为CSDN提供了这一流程的实现路径。如上图所示,当健听人输入了口语文本之后,模型通过文本预处理提供给手语翻译体系;这部分会通过机器翻译生成手语表征信息,其内容覆盖了手部动作、面部表情、口动等维度;然后基于多模态端到端生成模型进行联合建模及预测,生成高准确率的动作、表情、唇动等序列,实现手控信息和非手控信息的表达,最终能够达到更加自然、也更容易被听障人士接受的手语表达效果。在组织的聋人可懂度测评中,搜狗手语数字人的播报内容可懂度达到85%以上的实用水平。这对于聋人克服语言障碍,沟通社会信息将会非常有利。


3D数字人手语表达,三大难点与技术突破


如果说以往做语言实时翻译,是把其他语言的大师请到身边;那么手语表达的工作就相当于背上行囊出发去异国他乡——周围的一切都已经脱离熟悉的领域,需要从0开始建设。而支撑他们一路前行的理由,只因这是一条有价值、有意义、未来光明的道路。陈伟的团队在研发过程中遇到了诸多的难点,而数据、算法和写实度堪称为三大难题。

数据是最初遇上的难点,仅靠一人一本8000多个词的《国家通用手语辞典》是远远不够的。但是,国内并没有规模化思考如何构建一个让AI学习的手语大数据库,这都需要团队从0开始构建。为此,陈伟团队首先从语序、选词、表情等不同维度将手语词汇转化成用文字的方式或者用技术的方式标注出来;然后构建健听人语言与手语之间的平行语料对,积累资源作为机器翻译系统的数据;然后,基于现有语言,团队以真人面部动作捕捉为基础积累单元数据,将手语动作数字化,并通过模型方式预测生成参数,然后将参数映射于3D模型上,进行实时渠道和渲染,最终打造为超写实模型。手语数据的缺乏使得从标注、生产、验收到应用的完整体系工作量都有所增加,而这些也都跟技术的结合变得更加紧密。

算法是第二个问题。无论是机器翻译还是3D数字人的生成,都需要结合机器语言特点进行定制。以往的几代数字人AI合成主播,大家能够看到最多的就是唇形和表情的管理。但这次的手语主播,其要求全然不同。新加入的评估维度包括了嘴形、表情、姿态、手部动作等一系列元素,全部要求在同一时间内完全对齐。一旦遇到嘴形变化、动作是提前或滞后、表情表达失误,那么给用户的将不止是别扭,而是表达上错误。为了保障数字人表达的一致性,在技术上就要做到充分对齐,所以在模型生成时要做到端到端或者联合建模,其对于精力的消耗自然要更高。

在参与采访之前,笔者便一直对数字人的形象有所担心,3D建模虽然避免了2D建模的距离感,但却很可能因为技术的限制而陷入恐怖谷效应之中。由森政弘提出的恐怖谷效应是指当机器人与人类的相似程度达到一个特定程度的时候,人类对他们的反应便会突然变得极其负面和反感,当突破恐怖谷之后,人们就能够与机器人形成共情,使得其更具温度。

而陈伟也表示,在3D这件事情,构建一套超写实的数字人,突破恐怖谷问题就是他们所面临的第三大难题。陈伟曾经问过很多手语专家:“你们希望手语主播是2D卡通形象还是3D真人形象?”而他得到的答案无一例外,都选择了真人。因此即便有恐怖谷可能,搜狗依然希望最终的数字人与用户自然交互是有温度的,所以最终团队依然坚持打造了3D超写实数字人。

面对恐怖谷问题,当前技术依然有一定的限制。比如之前的部分数字人就不可避免会产生穿模或者缺陷,导致用户恐惧。而此次推出的“小聪”便针对这些问题进行了优化,使用了行业最领先的3D重光照扫描还原、面部肌肉驱动、表情肢体手势捕捉技术,生产出了高度还原真人发肤、形象逼真、动作自然生动的数字人模型。数字人写实度的大幅突破显著提升了手语播报的真实感与亲切感,能够有效提升播报的用户体验。同时,陈伟也认为恐怖谷问题在一两年里将有望完全突破,届时在3D建模渲染的写实度将会继续提升,使得用户和数字人之间更容易建立质朴且有效的情感链接。


手语数字人的价值,让世界多一寸温暖


在采访中,陈伟最多谈到的三个字可能就是“有意义”。在他看来,手语3D数字人的推出是一件非常有意义而且功德无量的事情,但限于研究时间和技术迭代,手语数字人的建设依然有很长的路要走。

目前,国内的手语识别发展成熟度并不高。如今市面上的手语识别大多数仅限于手势汉语,而这里面还有很多无法让听障人士所理解。其原因在于,大量的手语表达会夹杂诸多的语序切割和加工,其表达时会按照健听人语序来手语,但这反而会让听障人士形成理解障碍;再加上很多手语表达时表情缺失,从而使得真正可靠的手语产品少之又少,其带来的结果便是手语识别和手语合成的研究偏少,形成恶性循环。这也是推动搜狗技术团队打造手语数字人的原因之一。

手语数字人可以在大多数交互场景中,让手语快速转化为健听人的语言信息,让健听人听懂数字人的播报;其也可以把健听人的语言快速转化为手语信息,与听障人士无障碍交流。搜狗在进行数据构建过程中结合了手语识别和生成。在以往,搜狗语音识别已经积累了比较多的技术能力,其可以快速移植进入到手语识别,但在手语生成方面难度就会提升很多,其牵涉的环节太多,而这也是陈伟团队所需要核心突破的点。

搜狗的手语数字人推出后,其能够在实时场景和非实时场景中为听障人士提供帮助。以往,一些重要的活动和实时性较强的新闻信息中,并不会配以字幕,因此很少有渠道能够让听障人士同健听人一样实时获取相关信息。比如在去年的疫情发布会上,很多听障人士难以获得实时消息,因此会长时间无法与社会信息同步。再者,一些公共信息广播类的场景中,如机场、车站等地,缺乏视觉能够看到的地方直观的获得相关信息,从而影响到听障人士正常生活。手语数字人能够在这些场景为用户解决燃眉之急。

而在未来,手语的人机交互还会有很多应用空间。当前,现有的人机交互主要是以语音为主,手语识别只能针对相对孤立的手语词做识别,长段的开放性识别依然有难度。但是在未来,多模态交互会更加符合发展趋势,与动作结合起来,将手语放到人机交互的环境中,使其能够与机器形成更多自主的交流,这便会催生更多的应用场景落地。

在非实时场景中,围绕文化、娱乐、生活相关的场景会衍生出一系列的手语数字人应用需求。比如在诸多电视和娱乐栏目中,不仅没有配备手语介绍,甚至连字幕都没有。这对于听障人士获取信息将会有很大问题,但通过手语数字人,他们能够将这些文本信息转化为手语传递给听障人士。而数字人能做到还不止这些,比如一些主题曲、国家级影片或者现场活动,这些无法以文字或声音传递给听障人士的活动,可以借助数字人来增加他们的参与感和体验,而这些也都是未来数字人重要的应用场景所在。

以打造聋人真正可懂的通用手语播报为目标,此次发布的搜狗手语数字人以搜狗数字人技术体系和搜狗分身为基础,集成了超写实3D数字人建模、机器翻译、多模态数字人生成、迁移学习、实时面部动作生成及驱动等多项领先AI技术,实现了基于超写实3D数字人的自然可懂的手语主播能力,使机器可以基于输入口语文本生成逼真度高、手语表达准确的3D数字人视频内容。

手语数字人或许并不会像以往的技术一样迅速风靡,但就像陈伟所说,其本身是一件非常有意义的事情。在听障人士他们的世界里,或许没有声音,但这并不意味着他们不能像健听人一样获取互联网发展红利。尤其是在AI技术普惠大众之时,任何人群都不应该被忽视。相反,花开百样红,他们别样的人生也能活出一样的精彩。

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存