英特尔:视频行业最佳“合伙人”
本文转载自申耀的科技观察
过去几年,视频行业的创新一浪接着一浪。从最早的搜狐视频、爱奇艺和优酷为代表的点播平台,到花椒、映客和斗鱼为代表的直播平台,再到快手、抖音为代表的短视频平台。可以说,“群雄逐鹿”已成为视频行业的主旋律。
根据CNNIC最新发布的《中国互联网络发展状况统计报告》显示,截至2019年6月,中国网络视频用户(含短视频)规模达7.59亿,较2018年底增长3391万,占网民整体的88.8%。其中长视频用户规模为6.39亿,占网民整体的74.7%;短视频用户规模为6.48亿,占网民整体的75.8%。
毫无疑问,视频行业之所以能够快速爆发,最核心的原因还是源于技术的成熟。例如,自2015年以来4G用户迅速增长,流量资费逐步下降;中国H.265编解码的技术商用在全球处于领先;中国的云服务能力的不断提升;中国基于CDN网络的技术创新不断涌现等等。
在此过程中,作为中国视频产业一路发展壮大的的见证者,参与者和赋能者,面对视频行业的巨大变化,英特尔也始终站在技术与应用的最前沿,并随着环境和客户需求的变化而不断的迭代和进化,为推动视频行业的不断创新带来了更多的可能性,并真正成为了他们的最佳“合伙人”。
日前,笔者也首次走入搜狐视频和快手两家公司,并聆听他们和英特尔在联合创新中的幕后故事,由此更近距离感受到了技术创新给整个视频行业带来的巨大“驱动力”。
搜狐视频:全方位联合创新
如果要论资排辈的话,搜狐视频绝对算的上视频领域的“老前辈”。不过,和其他视频网站的战略不同,过去两年搜狐视频逐步退出了疯狂的天价头部版权剧市场,战略上转移为精品自制剧和PGC自媒体的制作。而《法医秦明》、《无心法师》这样口碑与流量俱佳的作品,也令搜狐视频在激烈的厮杀中找到了自我成长和发展的独特路径。
在搜狐大数据中心负责人王帅看来,随着视频行业逐渐进入全平台、全媒体化后,视频行业的数据也出现了“指数级”增长,因此对计算能力和平台的可靠性、可管理性也提出前所未有的要求。
在此背景下,搜狐早在2011就与英特尔共同成立了联合实验室,双方每年都会有十多项的合作项目,涉及领域包括AI、算法、转码等方面,同时英特尔最新的硬件、软件以及前沿技术也会率先引入搜狐,真正满足了搜狐视频在不同发展阶段的需求。
首先,在视频转码领域,我们知道,视频转码本质上是一个先解码,再编码的过程,是指将已经压缩编码的视频码流转换成另一个视频码流,以适应不同的网络带宽、不同的终端处理能力和不同的用户需求。
王帅告诉我:“转码并不复杂,但是它的挑战是搜狐视频是全国布网,因此需要第一时间分发到全国各地,并且要确保低延时,这对平台的稳定性要求就很高。此外,转码有不同的格式,有不同的清晰度标准,同样也对平台的性能有着严苛的要求。”
基于这样的考量,搜狐视频在视频转码系统中使用了英特尔第二代至强可扩展处理器和英特尔傲腾固态硬盘,不仅提高了视频转码的效率,还大大加速了视频上线速度,更提升了用户的使用体验。
“目前我们正在使用代号为Skylake的英特尔6130系列处理器,最新的Cascade Lake的6240系列处理器也正计划使用。目前搜狐线上视频全部采用CPU进行转码,发挥了英特尔处理器很大的优势,因为英特尔处理器的很多指令级优化是GPU上完全没有的。此外,SSD硬盘我们也全部使用英特尔,主要也是因为英特尔SSD在多年使用过程中稳定性非常高,故障率特别的低。”王帅说。
其次,在深度学习领域,搜狐视频也正在通过AI的技术来优化转码系统,并展开包括超分辨率、HDR、老剧重生等方面的研究。
在超分辨率方面,搜狐视频正将深度学习技术与视频编码技术相结合,开发了全新的基于深度学习的视频超分辨率转码系统,实现将现有的蓝光视频到4k视频的无损转换,可以提供大量的高质量4k视频源。而在HDR方面,搜狐视频自主研发的HDR转码系统,则能实现将现有的视频转换为HDR视频,从而明显提高主观效果和视频VMAF评价指标,弥补了HDR视频源不足的缺点。
搜狐视频HDR优化前后对比图
在老剧重生方面,搜狐视频同样也正利用人工智能技术与搜狐线上转码系统相结合搭建了一套全自动的老剧翻新转码系统,对老剧进行翻新,去除了老剧的模糊,噪声大,颜色泛黄等种种缺点,极大的提升了老剧画面质量。
据了解,无论是超分辨率、HDR还是老剧重生,搜狐视频同样和英特尔展开了很多的联合创新,比如英特尔不但在硬件方面对搜狐视频进行支持,在软件和人工智能等方面也与搜狐一起进行合作;此外,搜狐视频还与英特尔在软件定义存储性能优化、语音识别应用和推荐系统的加速与优化、DPDK网络负载均衡加速等方面也有很多的探索,这对加速搜狐视频在深度学习领域的应用发挥了重要的价值。
最后,在私有云领域,搜狐也将英特尔的产品和解决方案广泛应用于自身私有云平台的建设中,这也为搜狐新闻客户端、狐友、通行证、视频统计、广告、手机搜狐等业务提供了重要的支撑。
例如,在对象存储的应用中,英特尔至强可扩展处理器帮助搜狐利用虚拟化技术,增加对象存储平台的服务节点。测试数据显示,在部署英特尔英特尔至强可扩展处理器之后,单个宿主机建立的虚机数量比原来提升了15%,单个节点的整体QPS提升在20%左右,由此进一步降低机房和机架成本。
王帅表示:“为了达到极高的性能,搜狐和英特尔在此过程中也做了大量的优化工作,最大化的发挥了英特尔在计算、存储、网络带宽等领域的优势,今天搜狐所有主要数据中心机房互联都实现了百G以上的互联,而且可以完成快速扩容,这些都为搜狐的私有云平台打下了坚实的基础。”
由此可见,正是对搜狐视频在基础设施升级和转型中痛点的精准把握,以及在产品中坚持不断的创新迭代,英特尔不仅赢得了搜狐视频的充分的信任和认可,更推动了搜狐视频将技术实力转化成更为广泛的行业生产力。
快手:异构计算驱动AI落地
短视频,目前也成为了跟微信一样普及的国民应用,堪称过去两年互联网行业的“现象级”爆款产品,而快手更是其中的“佼佼者”。
数据显示,2018年,快手短视频App日活达到2亿人次,日播放量达200亿;大约每7个中国人中就有一个快手的内容生产者,日均新增作品超过1500万个;同时,有1600多万人通过快手App获得收益,总体收入超过200亿。
同样,短视频也是一个典型的技术驱动型的行业,而AI技术则是其中最为重要的环节。因此,作为一家AI加大数据驱动的公司,快手也洞察到了这一新的变化,并通过积极拥抱异构计算,走在了AI技术应用的最前沿。
据快手异构计算架构师钟辉介绍,人工智能需要大量的样本进行训练,但随着人工智能的应用越来越广,训练数据的样本量越来越大,对并行存储容量和带宽都提出了新的要求。
“目前CPU的性能提升每年是3%,但是数据的增长率是30%,所以供需之间有一个巨大的缺口。如果我们简单采用单一处理器的方式必然在成本、功耗上,在机架位,以及散热等方面会带来很多部署的挑战。”他说。
那么,解决这一问题唯一途径就是硬件采用特定域的架构(Domain Specific Architecture),这就是异构计算。目前,异构计算包括GPU、FPGA和ASIC三种方式,其中FPGA因低功耗、低延迟、高性能、可编程等特点,如今已成为线上推理平台的重要选项。
钟辉认为:“一方面GPU在线下的训练领域取得了很大的成功,但它不太擅长实时推理的应用场景;另一方面,FPGA相对GPU还有一个独特的优势,那就是它具备网卡口,在通信领域能够发挥更多的价值,因此FPGA在异构计算时代一定大有用武之地。”
目前,快手本着“从业务中来到业务中去”的原则,基于英特尔FPGA提供的PAC A10、E3S10和PAC S10板卡,已经构建出了三大类型的异构计算平台。
其中,基于英特尔PAC A10,它的峰值算力可以达到1.366TFLOPS,构成了片上的分布式存储,可以提供6MB的SRAM;更关键的是,区别于CPU和GPU,它的片上的SRAM采用分布式的方式,可以提供最高达8TB/s的并行带宽;而PAC S10算力更强,存储的容量更大,资源更丰富,这些板卡可以非常高效的满足深度学习模型的需求。
此外,英特尔E3S10,这是一个更大的加速卡,这个大加速卡上面是E3的CPU,视频编解码能力非常强,同时还有专门的GPU,然后再加上S10的FPGA,就构成了一个比较齐全的异构加速卡,这里面既有CPU又有GPU还有FPGA,可以很好的实现视频和AI的应用结合。
不仅如此,钟辉表示:“传统的FPGA开发有一个非常大的问题,那就是开发周期非常长,但现在英特尔推出了OpenCL的开发语言,更好的降低了开发难度,虽然还不能像软件一样去做硬件,但是对于有一定硬件背景设计人员来说,开发难度和周期非常明显的降低了。”
事实上,从快手基于OpenCL的定制化开发案例来看,其在数据中心部署FPGA的挑战可以归结为既要“上天”又要“入地”。
一是,“上天”是指FPGA是部署在云上的,所以快手需要解决的首要问题是需要在数据中心找到合适的业务场景,能够提供有价值的解决方案,它需有一定的通用性和规模化的。
二是,“入地”则指的是部署,包括在成本上一定要有竞争力,这样业务才有动力去采购;同时部署的可靠性、稳定性、能耗比上也要有竞争力。更重要的是,规模化部署,容器化也是必需的,这样才能够好的解决资源的弹性部署。
钟辉说,以DRN(Deep Ranking Network)加速为例,当时快手商业化部门的排序网络在业务高峰期出现了抖动,需要采用异构方案来做加速。考虑到其中以计算为主的工作负载占到了CPU负载的50%,所以团队把计算这一块Off-loading到了FPGA上去。”
而在硬件设计上,快手的技术团队通过将矩阵乘算法映射到FPGA的阵列结构上。但由于用了上千个乘法单元,运行达到几百兆,DDR根本无法满足计算带宽。所以快手采用了Systolic Array(脉动阵列)结构,把输入数据放到分布式的SRAM上,从而提供了这个应用要求的算力和带宽,同时降低了功耗。
最终通过对FPGA的定制化开发,快手的FPGA方案与CPU方案相比,延迟降低了约1.5倍,最大吞吐大概提升了1.7倍左右,功耗有接近5倍的降低,从功耗效率来说更是提升了近8倍。
“目前快手已经在数据中心规模化部署FPGA,用于承载商业化业务场景,从FPGA在数据中心落地的角度来讲也是属于业界比较领先的。通过双方一系列的合作创新,我们能充分感受到英特尔FPGA在数据中心领域更具前沿,相关工具链比较成熟。未来我们也会积极结合业务需要探索更多基于英特尔FPGA的应用。”钟辉最后说。
不难看出,通过英特尔FPGA提供的可定制化的开发能力,为快手在人工智能领域的应用插上了“腾飞的翅膀”,同时更让快手在AI领域的探索和创新起到了很好的助推价值和作用。
英特尔:视频行业最佳“合伙人”
从搜狐视频以及快手的案例中,我们也能看到,在这背后不仅是英特尔与时俱进、响应用户需求的最新举措,更是它始终洞察整个视频行业市场需求变化,在技术和业务上保持高强度自我迭代和进化的重要印证,具体来说:
第一,英特尔在技术创新方面深度、广度和强度,保证了它在技术上的领先性,这为赋能客户提供了强大的支持。
可以看到,英特尔除了和快手在FPGA领域展开合作之外,还为其提供了OpenVINO、英特尔傲腾数据中心级持久内存、英特尔第二代至强可扩展处理器等技术,并通过MKL-DNN(数学核心函数库)、高性能编译器、人工智能框架优化方案等,使得快手的推荐系统使用的AI算法效率大幅提升,而这正是得益于英特尔强大的技术创新能力提供的“技术底座”支撑。
第二,英特尔的优势不仅建立在对技术的不断创新与研发上,对视频行业用户需求的深刻理解和洞察,又为英特尔的不断突破提供了新的驱动力。
在搜狐视频的合作中,英特尔深知CSP对于降低TCO成本的诉求。为此,每年升级换代的处理器都做到了“加量不加价”,如王帅所言:“英特尔每一代的产品升级尽管性能提升很多,但在成本方面并没有给我们带来太大的压力,而如果规模化的采购,其性价比的优势还会得到更大的凸显,这也让我们难以拒绝。”
第三,英特尔还始终以“场景优先”为导向,通过不断的技术和场景的联合创新,英特尔更帮助了视频行业用户更好的应用了新技术。
例如,利用英特尔的技术,搜狐视频很好的展开了针对超分辨率、HDR、老剧重生方面的研究;再如,快手日均新增超1500万部作品,在这背后越来越大的算法模型无疑都为存储、传输和计算带来了巨大的挑战,而通过英特尔FPGA提供的异构计算平台的支撑,快手不但轻松化解了所面对的一系列挑战,更加速了自身在AI领域的探索和落地。
总的来说,视频行业是一个技术驱动的行业,但也要看到并非每一个视频平台都能够在专注于业务创新的同时,还能够有足够的能力走向技术创新,这需要一个在技术上非常领先的合作伙伴,而英特尔强大的技术能力以及对视频行业的深刻洞察,无疑就是视频平台走向未来的最佳“合伙人”。
本文仅代表媒体观点
文中图片等素材的版权归其所有者拥有
相关资讯
你在看吗?