其他
谷爱凌数智分身、HDR Vivid、AI智能字幕......咪咕视频冬奥会直播创新技术揭秘
北京冬奥会已圆满落幕,咪咕作为本届冬奥的官方持权转播商,邀请了众多解说名嘴和冰雪名将全程陪伴观众畅聊冬奥,“王濛解说”等话题更是频频破圈。
此外,咪咕也通过自身强大的能力平台和不断的创新引入了多项新技术、 新玩法,为观众带来了绝佳的观赛体验。本文将从直播能力、元宇宙场景、直播体验等几个角度为大家揭秘。
超大规模、超高并发的总控核心生产能力
为实现“打造与中国移动规模匹配的超级入口”战略目标,咪咕公司依托中国移动强大的 5G 算力网络, 建立了行业创新的超高清“跨三网”直播信号总控中心,克服传统单一网络下无法兼顾大规模性、复杂性、多样性、灵活性、可视化的短板,实现“跨三网”典型融合应用。
位于上海的咪咕总控中心作为咪咕直播业务的核心枢纽,承接所有直播信号的上下游对接和转码生产工作,可实现多格式信号的汇聚接入、异地演播室信号集群化调度和多产品形态播出信号生产。
咪咕总控中心目前可支持 2000+ 路信号输入、800+ 路转码生产、6000+ 路播出发,支持多协议 (rtmp/srt/http)、多制式 (HD/4K/8K/VR) 复杂信号的汇聚、转码、分发,服务跨三网多平台。
由于总控中心位于上海,而制作地点为北京,咪咕公司在赛前一个月开始从零搭建北京前方总控中心及演播室视音频系统,利用双地总控联动构建信号传输网络,形成异地信源和三网融合应用下的强大信号调度保障能力。
除包含十间演播室的北京主演播室集群外,咪咕还在广东投入了三间粤语特色演播室,及十路自有云插播间网红解说能力,总控中心在落实高可靠的多来源、高并发信号对接和调度方案的同时,内化整套信号生产制作标准规范,以中心化管理思维统一异地演播室制播标准,为后续大型赛事多地制播联动提供参考依据。
· 全量直播的排播信息线上流转和一站式切流,大幅提升生产效率和可靠性 ;
· 全量信源、播出全流程信号的多画预监、实时收录及技术审查,提高监控复盘能力 ;
· 无参考图像质量评测系统,助力全流程质量保证。
由于首次进行大型冰雪类赛事的直播工作,咪咕公司深度分析了冬奥会直播信号,总结出冰雪画面局部易过曝、细节易丢失、色彩易失真等核心画质问题。通过对编码器进行针对性的转码参数调优,实现了细分应用场景下的画质提升,并形成优化模型的技术沉淀。
拥抱元宇宙
数智达人MeetGu 惊艳亮相XR演播室
在谷爱凌的大跳台比赛前,咪咕的冬奥演播室里,一个“神秘嘉宾”惊喜现身,与主持人互动,为谷爱凌加油。她,就是 MeetGU——中国移动咪咕通过自研技术为谷爱凌量身打造的数智分身。
令人惊叹的是,此次亮相的数智人,举手投足间,无论是外形、声音,还是面部神情与妆容细节,都与本人的相似度极高,就连毛孔细节、 皮肤质感和颜色都做到了 1:1 还原,堪称本人的“孪生”。并且具有超写实、3D Avatar、 Q 版动漫等多个形象,不仅完美复刻了真人,而且是第一个面向 8K 三维成像的体育虚拟数字人。
而背后,是咪咕公司以真人为原型的亚毫米级超写实数字人打造,并通过高质量肢体及亚毫米级面部绑定,采用动捕驱动亚毫米级数字人并达到 4K 质量合成。
咪咕公司通过使用环绕相机阵列采集真人图像来生成扫描高模,把美术组制作的简模包裹到生成的扫描高模上,再细分为高模手工制作皮肤毛孔纹理细节,使得数智人的人物建模达到了亚毫米级别。
采用定制的标模保证模型的整体完整从而体现数智人的真实感,然后尽可能多地采用本人的个性化先验信息保证模型的个性化特征从而获得孪生感,保证真实感的同时又带有数智人的孪生感。
通过融合稀疏关键点 3D,再根据个性化的特征反解出全局的点云位置,借助订制自研的 AI 能力,咪咕公司将表情与动作的个性化迁移完全自动化,使得用户能够立等可取地获得可驱动的孪生数智人形象。
同时,咪咕公司的三维重建系统选择了基于纯图像的算法方案。在摄影棚内架设多部高清单反相机,然后从不同角度同步拍摄。利用 CUDA 技术改进了相关算法,提高了重建的速度与质量,保证图片之间特征点匹配的准确性,摆脱了业内竞品在鼻翼、眼睛等部位普遍表现不佳的困局。
HDR Vivid 技术应用落地
为了将2022冬奥冰雪盛会更鲜活灵动地呈现在观众眼前,咪咕公司将我国自主知识产权的高动态范围的视频技术标准(HDR Vivid)应用到北京冬奥会赛事直播。
菁彩 HDR (HDR Vivid),与传统的标准动态范围(SDR)相比,在位深、色域、最大亮度、动态元数据及其调节、智能映射等多项技术参数上均存在较大优势。在 4K/8K 高分辨率下,HDR Vivid 的峰值亮度最高可达到10000尼特;基于 BT.2020 的广阔色域,最多包含颜色达到687亿种。这是 HDR Vivid 技术首次通过软件解码方式在移动端试验直播业务。
咪咕通过优化视频解码器, 采用 CPU 多线程协同,视频码流解码与 HDR Vivid 关键元数据提取同时进行的方式,探索了一种移动端 HDR Vivid 软渲染的解决方案,拓展了 HDR Vivid 标准的应用范围。并针对冰雪运动画面进行渲染优化,使高亮的冰雪画面层次更丰富,画面质感更细腻,运动员主体更突出,还原更真实的视觉效果。
受国际环境影响,国家高度重视超高清产业的健康安全、可持续发展,出台了一系列政策和措施支持自主可控的超高清技术的落地应用。然而现阶段 HDR 技术产业落地的挑战较大,主要体现在三个方面:
一是部分技术方案的专利费用高导致产业链成本居高不下,支持的设备未形成规模,生态呈现碎片化。
二是 HDR 多种技术标准共存,标准之间的兼容性较差,不能覆盖主流终端的适配、认证及测试过程,导致终端呈现效果差异明显,用户难以获得一致的视觉体验。
三是传统 HDR 制作流程复杂,应用 HDR 技术的超高清片源匮乏,高质量片源供给不足,超高清频道专区少、时长短,用户侧的超高清需求被抑制。基于以上背景,菁彩 HDR(HDR Vivid)技术标准应运而生。
针对自身业务需求,咪咕公司端到端实践了 HDR Vivid 技术应用落地,先后在 2021 年欧洲杯、2022 年冬奥会上,提供了 HDR Vivid 点直播内容服务。
咪咕从以下几个方面挖掘 HDR Vivid 技术特色,提升内容色彩真实感,为用户带来更为真实细腻的赛事观看体验,沉浸式体验夏天欧洲杯似火的激情,领略北京冬奥冰雪赛事的极速魅力 :
(1)支持帧级动态元数据调整,支持 0.05nits 到10000nits 的高动态范围,映射曲线引入比 PQ 曲线更多的分段区间及更复杂的三次样条曲线,在低于 100nit 的暗区和高于 2000nit 的亮区比 PQ 有更精细的亮度映射,从而获取更精细的纹理细节。
(2)结合咪咕体育业务,针对冬奥会、足球、篮球体育场景的特殊优化;针对冰雪高亮场景进行动态处理,对特写镜头、慢放镜头等使用基于 ROI 的肤色优化算法,展现更为真实的观感。
(3)逐帧色彩校正,针对户外高亮区域(高亮度)、 夜景 (低亮度 ) 分别进行不同的图像处理,增强曝光不足,展现更多的暗区信息,模拟填充亮区细节。结合时域信息,展现更多细节,且不产生闪烁。针对中间部分色彩区域,运用颜色增强算法 :通过使用光照图做中介,在动态范围压缩、色彩增强和颜色恒常三个方面达到平衡,避免颜色增强时,引入失真,噪声,色块等问题。
在芯片未能广泛支持 HDR Vivid 的背景下,咪咕在北京冬奥会首次实现 HDR Vivid 软渲染的直播业务验证,为 HDR Vivid 内容移动终端播放提供了新的解决方案和实践经验。
冬奥开幕前夕,咪咕视频上线的“智能字幕”,有个温暖的名字——“为了听不到的你”,被网友称为冬奥观赛最暖心的功能之一。实时智能字幕依托多种 AI 技术,如语音识别技术、机器翻译,实现国内大型国际赛事超高清直播的实时双语字幕首次规模化商用,满足不同国家和地区用户观看直播的需求,让解说“听得见”更“看得清”。
智能字幕功能覆盖花样滑冰、短道速滑、单板滑雪、自由式滑雪等数百个场次,针对各类细分比赛场景全面提供直播字幕转写能力,为云上观赛的用户提供全程暖心陪伴。
实时智能字幕技术已经相对成熟,行业内已有很多应用,其主要功能是实现实时语音识别,将说话内容实时转成字幕,双语同传翻译等。应用场景主要是会议现场/直播字幕、会议同传、课程培训字幕等,缺少垂直领域的优化,专业应用场景效果欠佳,此前在赛事直播场景的应用尚为空白。
咪咕凭借体育垂直行业的积累和领先的实时智能字幕技术,在冬奥会首次实现智能双语字幕在重大赛事直播场景中的应用。经过垂直领域优化、场景降噪、纠错后,融合语音自动解析、时间轴即时切分和基于神经网络机器翻译的翻译,再经过人工清洗修正构建翻译记忆库,将智能双语字幕准确率提升至 93% ~ 98%,得到观众们的广泛好评。
回归到咪咕 AI 字幕直播的技术上来看,通过 AI 智能语音及翻译技术生成基本的字幕信息,再利用实时混流技术和多字幕编码技术,在播放器端实现赛事直播和多语种智能字幕的实时呈现。多种字幕之间可平滑切换,切换过程中无需切换直播流,严格的时间戳信息可确保视频、音频、字幕的精准同步。
咪咕视频完整直播创新技术方案见《影视制作》2022年3月刊。
推荐阅读
我知道你在看哟