近日,一则朱广权“考验”手语主播的视频登上热搜,视频里朱广权秉承着“地球不爆炸,我们不放假”的敬业精神,以超高速顺口溜为手语主播连连抛出挑战,而“颜值、业务双在线”的手语主播也以流畅、精准的动作完美接住挑战,让朱广权都忍不住夸赞“反应很快、精彩”。▲ AI 手语主播
其实,广权老师的这位新搭档并不是真人,而是由百度智能云打造的首个 AI 手语主播。在即将开启的冰雪盛会中,她将为以 AI 为核,为中国2780万的听障人士搭起观赛的桥梁,提供24小时不间断的手语服务,实时传递精彩纷呈的比赛资讯。
那么,手语数字人与普通数字人有什么区别?制作难点在哪?未来有哪些发展空间?简单来说,可以将“手语”理解为一种“小语种”,与所有的语言一样,想让更广泛的人群理解这种“语种”并且互相沟通,首先要构建一套通用的“翻译”法则。与方言的情况类似,不同地域的手语在表达方式上存在差异。以“钱”这个词举例,有的地方手语是做捻钞票的动作,有的地方则是用拇指、食指捏成小圆圈。这就需要为手语构建如普通话一般的通用沟通标准。同时,手语会在我们日常说话的基础上,进行语序的调整与语言的精简,比如我们说“我想回家”,手语会按照“家”、“回”、“我想”的顺序依次用三个手势进行表达。我们说“3号我要冻哭东北内蒙古地区”,在手语中则会被精简成“3号东北内蒙古”。手语翻译也并非简单的语言翻译,动作、表情、口型三大环节一个都不能少。当一个手势代表好几个意思时,就需要表情与口型的充分配合。举个例子:“吃饭了吗?”,这句话里“吃饭”有具体的手势动作,但“了么”如何表示?就需要配合“表情”:眼睛睁大,眉头皱一下。这些例子也充分证明着唯有真正懂得手语,才能为数字人构建通用“翻译”法则,打造出听障人士用得上、用得好、用得方便的“真·手语数字人”。在与手语老师沟通的过程中,百度智能云团队了解到,由于听觉与学习文字的关联性,导致残障人士对文字的阅读理解存在一定障碍,相比文字更能认清日常使用的手语,且手语看起来更加亲切,屏幕上的一角对他们来说就是一个“平等享受资讯的世界”。
遗憾的是,目前行业里很多看起来“眼花缭乱”、“动作智能”的手语数字人,听障人士实际上是看不懂的。一个原因是,很多厂商为了追求效率直接采用“手势汉语语料”,即忽略手语的语序调整、语言精简等特殊性,直接生硬地按照说话顺序,将每个词的手势链接,实则是一种忽视听障人士沟通需求的“半吊子手语”。更不合理的是,有些厂商为了凸显手势的流畅度,并未对手势与手势之间的链接进行针对性训练,只是对数字人的动作一味加速,生硬地将动作连接起来,“鬼畜”的手语让听障人群不得不连连摇头。由此可见,想要打造一个高质量手语数字人,绝非原有数字人的基础上简单调整,做做加法,需要同时具备语音技术、视觉技术、自然语言处理等技术能力。而百度作为国内唯一拥有最完整 AI 技术布局的公司,语音、视觉、NLP、知识图谱等核心技术均处于世界一流水平,这也为 AI 手语主播的“养成”打下了坚实的基础。在百度智能云团队眼中,打造 AI 手语数字人,不仅是技术上的创新与探索,更是在价值向善上的追寻与贡献。这样的思考维度,让团队从一开始就选择了一条艰难而正确的路。
在百度智能云团队深入调研时发现,行业内大多数采用的都是手势汉语语料,现成的数据无需重新标注,只要让数字人将动作实现即可,交付风险小、速度快。但手势汉语在很多情况下会让听障观众产生理解歧义,被看作是“治标不治本”的选择。更好的技术路径其实是自然手语语料,面对顶级体育赛事的直播压力,数字人还需要增加体育新闻场景的特定语料,这样一来,数据需要重新采集标注,额外增加的成本难以预估,风险不可谓不小。两难面前,百度人一如既往的做事原则指引了方向。负责该项目的一位百度同学平静乐观地说:“咱们选自然手语语料,百度就是理工男耿直 boy,简单可依赖,做就做难而正确的事。”这句豪言瞬间破除了大家的踌躇不前。时间紧,任务重,意味着专业人员必须全力以赴。百度智能云在最短时间内组建了一只精锐部队——手语翻译专项团队,打通内部各技术部门,联合手语语言学专家,特殊教育专家等,打造了一套针对体育盛会直播特定场景的数据生产方案。同时,团队在跟手语老师、专家的交流过程中,学习到大量的行业知识,将这些知识成功融合到百度的模型效果和听障人群体的体验中。大家平常了解的语言翻译,大多只是文本到文本或语音到文本的翻译。但手语数字人需要具备的翻译能力,则是进行语音到手语动作的转换,背后涉及到语音到文本,文本到手语符号,再到手语数字人动作的漫长过程。想要手语数字人“听得清”、“会翻译”、“会表达”,就需要三大模型依次解决。⬇️百度基于成熟领先的 ASR 语音识别模型技术为手语数字人解决“听得清”的问题,准确性达到98%以上,成功帮助数字人听懂用户的话,面对中英文混杂、生僻字、方言等各种语音都能轻松搞定。正如视频中 AI 手语主播与朱广权亲切互动所呈现的那样,即使面对段子手朱广权的神级语速,百度高效、成熟的 ASR 语音识别模型也能轻松 Hold 住。跟一般的中英文语言翻译模型不同,手语翻译模型在信息凝炼度和时延两个维度面临极其复杂的困难。其中精准度影响到数字人手势的精准,精简度影响到传递信息的及时性。为了做好自然手语语料,让数字人“翻译”更准确,百度团队联手天津理工大学,请来上百位听障学生做语料的数据标注。这是因为算法背后需要高质量的数据,由听障学生做标注,更能与听障人群感同身受,不错过每一个细节,反映出他们的切身需求。有了高质量的数据资源,接下来就是关键的模型设定与训练。基于百度多年积累的领先的神经网络翻译技术,团队设计了从中文文本到手语符号的翻译方法。通过对高价值数据的反复机器学习,实现了兼具可懂度和精简度的翻译效果,经历过多次调试,终于成功地支撑起数字人高质量的实时播报能力。在团队全员的通力协作下,该模型在不到两个月的时间内,进行了6次大的版本迭代,每一版都有明显进步,最终从0到1推出了手语翻译模型,可懂度达到85%以上,媲美主流的中英、中日等方向的机器翻译结果,达到业界领先的水平。
到了这里,手语数字人的研发还剩下“最后一公里”——即关于手势、口型、表情的塑造。针对手势问题,百度运用人体动作的视觉识别技术,通过机器学习手语视频,再由二维骨骼点转化驱动三维数字人的手语动作,真正实现了动作的 AIGC!精益求精的团队,还提出抠好细节,让手势动作更准确,为此做了三大层面的努力:就靠着这份“较真”,百度智能云目前已经建立了拥有近1万个手语动作的强大动作库,为精准手语表达的实现发挥了重要贡献。而在口型与表情方面,百度智能云首创4D 扫描数据进行训练,为表情与口型进行精准矫正。通过超10万个全身多边形面、超1万个脸部面、超240个面部表情行变基、超100个身体骨骼节点,准确锁定微笑、开心笑、wink、吹泡泡、白眼、思考等表情,赋予了手语数字人自然生动的表情。同时,a 啊、e 鹅、ü 鱼、u 乌等口型也被成功生成,总体上口型生成的准确度超过98.5%。在整个研发过程中,手语词库编辑、视频校对、动作录制、精修、融合算法开发等环节都需要密切协调配合。一次次的修改经常耗到凌晨,而每一个合作伙伴都毫无怨言,听障学生的贡献、生态伙伴的支持、手语专家的指导,都让团队成员深感温暖。大家都深知彼此是因为做一件很有意义的事而走到一起。手语数字人的应用效果每增加一分,听障人的沟通障碍就减少一分。当手语专家组为百度点赞时,团队成员很受感动,因为这代表着专家组身后2780万听障人士的“无声认可”。目前,全球约有4.3亿人有中度及以上程度的听力障碍。听障人士不断增长的资讯与沟通需求,呼唤着功能越来越人性化的 AI 手语主播。
在2021年12月,百度发布了百度智能云曦灵数字人平台,让数字人的开发和运营变得简单、快捷、高效。百度智能云曦灵是数字人生产、内容创作、业务配置服务为一体的平台级产品,为广电、互娱、金融、政务、运营商、零售等行业提供一站式的虚拟主持人、虚拟员工、虚拟偶像、品牌代言人的创建与运营服务。
百度智能云曦灵通过人像驱动引擎、智能对话引擎、语音交互引擎、智能推荐引擎,实现数字人的“能听、能说、能理解、可互动”,目前已打造了央视网虚拟主持人小 C、航天局火星车数字人祝融号、百度 APP 代言人龚俊、理财专员小浦等一系列数字人。本次的 AI 手语主播也加入了百度智能云曦灵的数字人大家族。
▲ 百度智能云曦灵平台架构图
未来,AI 手语主播将形成平台化产品,逐步走进手语教师紧缺的地区,有效助力听障人群在未来获得更充足的教育资源。同时,秉承着“科技让复杂的世界更简单”的使命,百度智能云也将让包括听障人士在内的每个人都更公平地享受科技带来的便利。