[回放] 无障碍技术与标准助力提升多样化观赛体验
万维网联盟(W3C)& 中国移动咪咕技术研讨会圆满举行
2022世界杯正在火热进行!现代科技为全球观众带来了精彩的观赛体验,赛事直播让我们即使在家中也能实时感受现场的热情。与此同时,全球有超4亿人听力受损,被“听不清、听不真”所困扰。为帮助听障人士打破“无声的世界”,打通“信息无障碍”的桥梁,中国移动咪咕为本届世界杯直播使用智能字幕及手语数字化技术,提供更包容的、更多样化的观赛体验。
为更好地推动技术的融合与创新,W3C 与中国移动咪咕于12月9日联合举办技术访谈研讨会。会议邀请了北京联合大学特殊教育学院教授李晗静,W3C 副理事长、W3C 治理任务组主席李安琪,W3C 中国信息无障碍标准负责人冉若曦,中国移动咪咕公司总监、5G 多媒体技术带头人徐嵩,中国移动咪咕公司音视频、AI 领域资深专家、高级研发总监周效军,共同探讨无障碍标准与技术。
主题分享
主题:W3C 无障碍标准及媒体无障碍标准简介(观看视频)
W3C 中国信息无障碍标准负责人冉若曦介绍了在信息无障碍领域的新标准和与媒体相关的无障碍技术。W3C 无障碍标准体系围绕着内容、开发和用户这三个维度来展开,主要是内容侧,所有展现在网页或者展现在用户手机或终端上的内容,都需要符合 W3C 无障碍的标准。而这些标准,包括非文本内容、媒体描述、字幕手语、感官特性、媒体控制、键盘控制等。领域发展,标准先行,先进的技术标准引导着领域升级的方向,对整个领域的规范发展起着积极的推动作用。
标准的落地实施离不开技术和产品的强力支撑。中国移动咪咕公司高级研发总监周效军介绍了咪咕在本次世界杯直播中使用的无障碍“黑科技”——全心升级智能字幕和手语数智人。2022卡塔尔世界杯期间,依托中国移动九天人工智能平台,咪咕视频的智能字幕全新升级为第二代智能字幕,首先使智能字幕与数智人手语主播实时联动,提供双向的无障碍观赛能力;其次从字幕准确率、字幕时延优化、直播字幕收录回看、多端字幕支持等方面进行提升,提供全场景字幕能力。咪咕视频体育直播字幕作为创新场景,从0到1实现智能双语字幕在国际重大赛事直播场景中的商用,不仅助力咪咕公司打造优质观赛体验,同时解决特殊人群的困扰,实现科技人文关怀的社会价值。
主题:手语的几点事儿(观看视频)
李晗静教授以“手语那些事儿”为演讲题目,对手语信息化进行了深入的思考。李教授介绍,手语由五大因素构成(手语的动作、手语的形状、手语的位置、手掌的朝向及面部表情肢体动作),并通过展示手语中的喜欢和不喜欢,对五大因素进行了生动的诠释。李教授通过实际案例展示了目前视觉语言和有声语言之间的翻译依靠转写,具有一定局限性。基于语义、语用、概念、情景层面的手语交流运用,她对建立更好的手语信息化模式提出很多有价值的思考。
主题:对万维网的技术需求和场景展望(观看视频)
万维网作为人类社会的信息建设基础设施之一承载了非常重要的信息分发职能,同时也是信息无障碍能力的重要载体。中国移动咪咕公司5G多媒体技术带头人徐嵩对万维网的技术需求和场景进行了展望。徐嵩通过WebGPU与手语数智人的融合以及WebGL、WebXR方面的实践,展现了技术如何更好地支持多种应用场景。他表示基于MIGU 战略,咪咕下一步将加强融合WebGL/WebXR/WebGPU等3D技术,为用户带来无差别的沉浸式用户体验。如何在技术侧对此进行强有力的保障,徐嵩接下来从挖掘本地计算能力、规划Serverless架构、设计云-边-端策略三个方面进行深入阐释,对打造未来更为出色的无障碍体验提供重要参考。
目前国际上信息无障碍标准演进趋势是什么样的?国际上有什么研究热点呢?
冉若曦从 W3C 角度进行介绍,近年来 W3C 一直在从 Web 端一些无障碍的指导向着数字无障碍的指导或指南进行转换,通过对 WCAG 举例进行详细说明,未来的信息无障碍发展,机会更普适,也会更精专,会覆盖更多类型和更多垂直领域。
他认为目前国际上的研究热点主要有两个层面:一是在无障碍标准层面,新增了对包括儿童、老人等认知层面的研究;二是在技术层面,希望能覆盖和融合到更多包括 XR、元宇宙在内的新技术。
从冬奥会到世界杯,咪咕已经亮出了很多提升用户无障碍体验的大招,咪咕对于未来的产品服务在无障碍方面还有哪些规划呢?
周效军分别从发展潜力和无障碍布局进行详细回答。当前人口老龄化时代已经到来,关爱银发群体、弱势群体,大力发展银发经济,科技助老、适老,推进无障碍信息化社会的构建,是十四五国家战略规划,体现了科技以人为本推动社会和谐进步的社会价值。同时,随着银发经济的发展,目前已经达到数万亿的经济规模。
目前智能语音技术被认为有着强大的发展潜力,咪咕公司已经在多个场景实现了不断布局和应用的落地。比如说内容传播网站,直播智能字幕、点播节目等,已经进行了比较有规模化的应用,使优质的数字内容达到了无障碍的传播,满足了特殊人群、老龄化人群的内容需求。同时,我们在沟通方面也有一些实践,比如会议字幕、视频通话翻译等功能,满足各种特殊人群无障碍沟通的需求。最后,算力中心对于无障碍专业技术发展起到了很大的支撑,算力中心采用专门的 GPU、TPU 的芯片,框架部署,实现了 AR 算力统一高效的调度和分布式的计算,在执行 AR 计算任务时,耗时更低,同时结合算力网络,可以实现全网算力的调度运用,它意味着对商用级的 AR 大模型的迭代周期会变得更短,同时AR实时推理的时间也会变得更短,如语音翻译的时延及手语数智人渲染的时延,会进一步地降低。结合以上未来无障碍技术方案,咪咕会有一个长足的发展。
手语已经有两千多年发展历史了,科学技术飞速发展的今天,科技能给手语提供什么样的加持?
李晗静认为手语的历史不止两千多年,而是从人类产生就开始存在了。生活在网络时代的我们都成为了数字人,如果能够充分利用网络带来的便利,融入手语一族的生活,将视觉、听觉、触觉、味觉都能够进行数字化地融通,这样将视觉语言贯穿其中,让手语一族能够流畅地使用数字媒体,那么它将是一个里程碑式的研究。从另外一个层次来讲,它是视觉语言和有声语言两个系统上的对接和碰撞,硬件上、技术算法上以及思维领域上的突破,都将有助于研究者们最终实现数字无障碍,我们密切地期盼着科技加持的无障碍,将来能够给手语一族带来更便捷、美好的生活。
今年国际残疾人日的主题为“包容性发展的变革性解决方案:创新在促进无障碍和公平世界中的作用”。本次研讨会聚焦创新技术和标准如何让用户体验更流畅、更无障碍、更包容。主持人李安琪表示,为残障朋友搭建信息无障碍的桥梁,是一项需要持之以恒的工作,W3C 和咪咕希望能够继续和全行业的同仁一起,通过有温度的标准和科技帮助残障人士共享美好生活,促进更包容、更和谐社会理念的提升。