查看原文
其他

一个播放器背后的危机和博弈

谢幺谢幺 浅黑科技 2022-03-29



2020年11月,全球最大的同性交友网站,哦不,应该是“全球最大的软件代码托管平台Github上,一个名叫“TencentCloud”的账号悄悄上传了一个项目。



图片截取自Github


TencentCloud的背后账号主体是腾讯公司,O266player是一个视频播放器,也就是咱们看片儿用的软件。

如果不说,并不是所有人都能立刻想到,这样一个“小小的”播放器及其背后的视频编解码国际标准,对腾讯公司乃至整个互联网世界意味着什么。




我们几乎每天都和视频打交道,刷朋友圈、远程开会、直播、短视频、追剧、看综艺……但鲜有人意识到,我们用的这些APP、手机、电脑,乃至整个数字世界有多么依赖视频编解码技术。


举个例子:一部电影,时长为2小时、每秒帧数为24、清晰度为1080P,假如完全不压缩,会是多大?

让我们一起用小学数学知识不严谨地估算一下(不想算可以直接看结果)
 
2小时是7200秒,所以这部电影一共是7200×24=172800帧,也就相当于172800张图片。 一帧1080P的画面是1080×1920=2073600个像素点,每个像素点大约占据1.5个字节,所以每帧画面占据3110400个字节。
于是,整部电影就是172800×3110400=5.37×10^11个字节。

换算过来大约是500GB。

 

也就是说,如果没有视频压缩技术,一部最大容量的iPhone12,也就勉强存下一部电影。

 

可能有人说:诶?不对啊,我电脑和手机里一部电影也就2、3个GB啊?怎么比你算出来的小了这么多倍?

 

是的,这就是视频压缩技术(视频编码技术的俗称)的功劳。它像魔法一样,愣是能把“信息仓库(硬盘)”里和“信息高速公路(宽带)”上的一辆辆大卡车给压成玩具车的大小。






视频编解码技术究竟有什么“魔法”,能让一个视频体积缩小几百倍还不影响观看?


这里插播一条关于视频编解码技术的科普。

 

一段视频的编解码流程有点类似工厂里的一条长长的流水线,原始视频顺着履带传送,每个关键模块站着一位“工人”,即编码工具



以2013年推出的H.265/HEVC国际编解码标准为例。


第一位“工人”像是一位“剑客”,负责“图像块划分”—— 把每一帧图片切成许多细碎的小块,就像这样:



第二位“工人”负责“帧内预测”,就是在一帧图片内找规律。


比如上面这张图,最右侧的“块”都是同一种蓝色,就可以用一种更节省空间,但不影响效果的方式来表达它。


就好比是我们生活中记一串数字:4000000000111,有的人会说:“四零零零零零零零零零幺幺幺”,有的人则会说:“四,九个零,三个一。”意思不变,但后一种更好记。


论:如何把一长串告白压缩成四个字,还不影响情感表达


第三位工人负责“帧间预测”,即:对比相邻几帧的图片,找到视频里物体的运动和变化规律,然后用更节省空间,但不影响观看效果的方式来表达它。


最典型的例子是播报新闻时,主持人身后的背景基本没变,就可以节省一些不必要的空间。 


上面那块基本没变,下面那块变了


之后还有很多道工序,比如“残差编码”、“变换量化”、CABAC熵编码”、“环路滤波”等等……由于过于烧脑,今天限于篇幅就不展开,上文中的比喻也并不严谨,只是最最最最简化的说法,便于大家理解。


真实的流程图可能是这样的,大家感受一下就好:


H.265的编码流程


总之,我们生活中看到的每一个视频、直播,都经过类似这样的一道道复杂的工序,背后是大量视频技术专家、标准制定专家、视频技术工程人员参与其中。


假如此时此刻,老天爷决定让视频编解码技术一瞬间消失,那么所有视频会像汽车的安全气囊一样“嘭”地变大,把整个数字世界给“撑爆”。因为目前超过七成的互联网流量都是视频流量——数据来自美国思科公司。




一旦你明白了视频编解码技术影响有多广,就会知道,在这个领域掌握话语权有多重要。


视频压缩的技术很多,但为了让地球这一头A公司压缩的视频,地球另一头B公司也能打得开,上个世纪80年代末,联合国下属的两个组织:国际电信联盟 ITU-T和国际标准化组织ISO/IEC,开始各自组建视频编解码技术委员会,制定视频编解码技术标准——大家都按照同样的方法来编码视频,就可以互通啦~


目前对业界影响最深的国际视频标准叫 H.264,又叫MPEG-4 AVC。之所以有两个名字,是因为刚才说到那两个国际标准组织发现干的事情有点重叠,于是决定合作一起干,但各自命名。


就像南方人管姥姥叫外婆,北方人管外婆叫姥姥。


下面这张图是各代国际标准族谱,虚线框住的就是同一套标准用了两个名字。


 

H.264 是第四代标准,2003年推出的,如今依然主导者整个互联网世界。


你看的视频网站、直播、刷朋友圈、上网课等等,大概率背后有用的是2003年推出的H.264标准,这背后有一个鲜为人知的残酷事实:当初没有一家中国企业参与这个标准的制定,清一色是拿着别人定好的技术标准直接用。


直白点说,就是国际标准格局被国外垄断了。


第四代是这样,前几代更不必说,我们当年用的VCD、DVD、数字电视机顶盒等等,背后用的都是国外公司制定的标准。


别人聚在一起讨论游戏规则,你没参与,意味着没有话语权,没话语权,就意味着容易吃亏。


怎么个吃亏法呢? 标准里涉及到的技术专利叫“标准必要专利”——但凡你的产品声称用了这个标准,人家来告你,说你侵犯了其中的技术专利,都不用去举证,官司打到最后基本都是对方赢,直接赔钱就行。

 

不赔钱?禁售。执法机关会把你公司准备运到国外去卖的电视、机顶盒、手机等硬件直接扣住(实际也有不少案例)


当然,你也可以不用这个视频压缩国际标准,但这意味着你的存储和带宽费用将成倍地增加,或你压缩出来的视频无法和其他厂商互通,这对业务的影响相当大。


如果搜索“H.264 + 被起诉”或“H.265+被起诉”,你也许能看到一些耳熟能详的中国企业的名字。


这也是为什么从二零零几年开始,我国有关部门就批准成立相关组织研发和制定中国自主知识产权的AVS视频编解码标准。但这又是另一个话题了,一言难尽,总之目前国际上主流的还是H.264。


从2013年推出的H.265开始,中国公司开始积极参与标准制定的过程。一方面是吃一堑长一智,一方面也是越来越多的中国企业真正开始立足于国际市场。

 

也正是在H.265时期,话语权、专利费等矛盾才进一步激化。


H.264标准只有一个专利池 —— 一群企业签署协议,统一由一个专利运营机构来帮他们打理相关专利问题——这意味着H.264的专利问题比较简单。


H.264的价格也不贵,主要收硬件厂商的钱为主,每台设备大约0.2美元,每年封顶2500万美元,基本不怎么收视频网站的钱(主要是零几年互联网方兴未艾,视频网站也没挣到什么钱)


十年后,沧海桑田,人们已经习惯捧起手机看视频。


2013年发布的H.265最初也只有一个专利池,叫MPEG LA。后来也许是收专利模式和数额的问题上没谈拢,2015年,杜比、飞利浦、三菱、通用电气等公司另起炉灶,组建了一个叫HEVC Advance 的新专利池对外收费,且费用更高,而且对Netflix、腾讯视频、优酷、爱奇艺这样的视频内容平台也收费,据说还是按照毛收入的0.5%,或是播放量来收的,上不封顶。

 

许多人并不知道,国内的三大视频网站做了那么多年,到现在其实还在持续亏钱,昂贵的专利费让原本就不富裕的家庭更是雪上加霜

 

更厉害的是,当你交了钱,HEVC Advance 会告诉你 :请把之前的欠下的专利费也补上吧,从你第一天开始销售H.265内容开始。

 

两个专利池已经够呛,2017年,爱立信、松下、高通、夏普和索尼又组了一个名叫Velos Media的新专利池,收费的标准和方式又不一样。

 

企业老板们排着队,挨个吐出一口老血。


改编自《唐伯虎点秋香》


吐完血,大家算了算账,一些人默默转身下了H.265的车,重新坐回H.264这趟旧车。

 

这就是为什么H.265标准发布已经7年,编码效率比上一代提升了50%以上,主导市场的标准却依然是17年前发布的H.264。

 

大家放着更好的技术不用?因为贵啊,用不起啊。百度搜索“h.265 专利”,出来的头两条新闻是这样的:



国内被国际视频编解码标准的专利问题“卡脖子”的,可不止是腾讯一家,你认识的互联网公司基本都要被卡一卡(当然,愿意用巨大的人力、财力去花钱消灾的,当我没说)

 

只是视频这件事,对腾讯格外重要:

 

你刷朋友圈,和家人视频,腾讯的宽带成本在燃烧;

你刷腾讯视频追综艺,腾讯的宽带成本在燃烧;

你看个腾讯系的直播,腾讯的宽带成本在燃烧;

你用腾讯会议开会(那时候腾讯会议还没发布,但想法已经在腾讯内部酝酿),腾讯的带宽成本烈焰冲天。

 

除了自身业务,腾讯还对外输出视频技术服务,腾讯云的两条大腿,左腿是游戏云,右腿就是视频云,你知道的许多视频、直播类APP,背后都是腾讯提供的视频技术服务。

 

站在2017年前后那个时间点,腾讯很纠结:一边是同样飞速增长的带宽和存储成本,一边是高昂且混乱的技术专利费高墙。而音视频需求的引线已在滋滋燃烧,随时可能被引爆。


几乎别无选择,这家中国互联网科技公司要驶向世界,国际标准这座冰山绕不开。




2018年4月10日,海风掠过美国加州圣地亚哥市,临海的一家万豪酒店,会议厅里坐满了人,面前各自摆着笔记本电脑。没有剑拔弩张,没有刀光剑影,但这个场子里正讨论的事将影响整个数字世界的格局和走向。


这是JVET第十次会议,或者也可以叫MPEG第122次会议。


照片来自网络


演讲台上,一位约60岁的戴着眼镜的男子以大会联席主席的身份向世界宣布:下一代国际视频编解码标准命名为 Versatile video coding,简称VVC。也意味着这是新一代视频标准的制定进入正式流程。


这对来说是一个绝无仅有的机会。视频国际标准制定差不多每十年才轮一次。


专家们会分散在不同的分会场里探讨不同主题,别看他们只是开会,工作强度非常大,一开就是十几个小时,甚至熬通宵讨论。持续讨论10至12天,从大到小,由框架至细节,方方面面都要讨论到。


所有在场的专家团成员既是选手,也都是评委,他们每三个月就会从全球各地聚在一起“华山论剑”。


腾讯多媒体实验室总监、行业标准负责人李翔告诉我,评价标准大致分成两部分:其一是客观质量评估——通过核心实验来看峰值信噪比、压缩性能、复杂度、失真度等指标。


其二是主观质量测试——标准组织制定了一套严谨的评估方法和步骤,让一群视力正常的人对视频质量打分并进行严格的统计分析。


那一次会议,来自腾讯的专家团一口气提交了10个提案,而且客观指标排在不少国外的大公司之前。这让不少国外的公司恍然意识到:腾讯的人来了,嗯?一上来就这么厉害嘛?


在此之前,鲜有中国的互联网公司参与提案。


除了客观指标排名考前,圣地亚哥的那场会议以及之后2018年7月在卢布尔雅召开的会议上,腾讯多媒体实验室联合负责人刘杉被指定为标准文本的联合主编,李翔被指定担任VVC参考软件联席主席。


经过十次“华山论剑”,腾讯多媒体实验室一共提交了300多篇技术提案,被录用100多篇。而且在2018年7月的那次会议,《王者荣耀》的视频片段被录用为“标准测试序列”之一——相当于把《王者荣耀》的视频片段作为一道考题,来验证一个编解码方案好不好。


“王者荣耀视频片段被选为标准测试序列,可以保证新一代标准对典型游戏场景的压缩性能,对电竞产业核心技术有极大的促进作用。”李翔告诉我,同时,这也是中国企业在国际标准制定中话语权提高的一个体现。


2020年7月,新一代H.266/VVC视频标准正式定稿,但战斗远没有结束。




李翔和朱斌告诉我:“标准的发布仅仅是个开始,一个视频编解码标准的成功与否,不仅仅取决于其本身压缩效率等性能指标,还要看其是否能被工业界广泛采纳,并得到包括内容生产、分发、播放在内整个生态链的支持。”


简而言之,大家愿不愿意用,会用脚来投票。


如何让那些还不熟悉H.266/VVC标准的视频服务提供商、多媒体系统集成商和视频应用开发者们尽快上手?腾讯多媒体实验室的答案是:开源播放器。


“对!就从播放器和解码器开始做起,而且一定要开源!”李翔说。


在标准讨论期间,腾讯多媒体实验室的朱斌博士就开始动手研发基于新一代标准的视频播放器,并且紧紧盯着标准制定会议上的每一个“风吹草动”。


JVET第20次会议上,朱斌博士和同事们向标准组织JVET递交留论文,这款播放器内置了腾讯自研的H.266/VVC软件解码器,支持高清、超高清以及屏幕内容分享等场景的实时解码,开发者们基于此可以快速H.266/VVC标准格式在其产品中的嵌入,大幅降低新标准应用的技术门槛。



尽管新标准的普及还需要时间,但他们相信它就像一颗嫩芽,只要悉心浇灌,总有一天会长成参天大树。


中国公司也必将在视频编解码技术领域扮演越来越重要的角色。

 

道路是漫长的,但前途是美好的,我们需要一些耐心。








最后再介绍一下我自己吧,我是谢幺,科技科普作者一枚,日常是把各路技术讲得通俗有趣。想跟我做朋友,可以加我的个人微信:xieyaopro不想走丢的话,请关注【浅黑科技】!(别忘了加星标哦)


↓↓↓


在这里读懂科技

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存