查看原文
其他

App怎么知道你会不会唱歌?

一萌 果壳硬科技 2022-05-21

2004年9月30日,哈佛大学桑德斯剧院里,第14届搞笑诺贝尔奖欢乐开场。这一年的和平奖颁给了日本人井上大佑,以表彰他“发明卡拉OK,向人们提供了能互相宽容谅解的新工具”。(For inventing karaoke, thereby providing an entirely new way for people to learn to tolerate each other.)[1]


2004年井上大佑在搞笑诺贝尔和平奖颁奖典礼上丨Improbable Research@YouTube


因为卡拉OK,井上大佑获得的荣誉可不止于此——1999年,在人类即将跨入新千年之际,《时代周刊》将井上大佑列入“20世纪最有影响力的亚洲人”,认为政治伟人们改变了亚洲的白天,而井上的卡拉OK则改变了夜晚[2]。井上发明的卡拉OK唱机Juke 8诞生于1971年,首批只有11台[3],一开始卡拉OK机用的是8音轨盒带机和盒式磁带,后来历经CD、VCD、DVD等形态,随着技术进步,它转为数码流媒体和移动化形态。K歌改变的,也不止是夜生活。


一萌丨作者

放大灯团队丨策划


1988年1月,中国大陆第一家卡拉OK在中国广州的东方宾馆开门迎客[4]。此后,新生代年轻人用了一个更简洁的词:KTV,来替代“卡拉OK”。K歌也从此成为几代人重要的闲暇娱乐项目。


中国互联网的快速发展,将KTV这种娱乐方式也带到了线上。“K歌”这种休闲娱乐方式以更低成本、更高密度的形态进入生活。2020年《中国在线K歌社交娱乐行业发展洞察白皮书》显示,在线K歌行业在短短数年间迅速积累起庞大的用户流量规模,网民渗透率已超50%。其中全民K歌月活跃设备数占在线K歌行业总数量的77.7%,日活跃设备数占比达81.5%,目前已成为在线K歌行业增长的头部App。[5]


在刚过去的一个月,放大灯团队应腾讯音乐娱乐集团音乐技术交流活动主办方邀请,参加了“TME科技乐享季”,并与全民K歌技术团队聊了聊,听他们讲如何制造出一款万千用户“自由歌唱”的产品。


智能修音:就像P图,既要好听,又要自然


早期的线上K歌App并不能修音。全民K歌技术副总裁傅鸿城回忆道:“你唱得好就是唱得好,跑调是没办法纠正的。”随着智能修音功能上线,线上K歌与线下KTV逐渐拉开距离。


所谓“智能修音”,即对用户唱歌的声音音准和节奏做自动化编辑、调整,使用户的歌声变得更准确、悦耳修音就像P图,既要好听,满足基本的“遮丑”需求,使修音效果更接近原唱;又要自然,满足不断变迁的大众审美


“表面上看是单一的修音功能,背后涉及多项复杂技术。”全民K歌基础架构中心高级总监胡鹏告诉放大灯团队,上线至今修音功能已经实现了三代进化。现有版本的修音功能,至少包含“录音—歌声基频提取—歌声语音识别—模板比较—节奏对齐—歌声变调变速—最终合成”等步骤。


一个简单的修音过程丨放大灯制图


当前智能修音功能优先覆盖大部分热门曲目,胡鹏解释说,这是由用户的聚集度和受众面决定的。


全民K歌的用户日常倾向于唱流行歌、老歌、红歌等大众歌曲。对于传统戏曲、Rap等小众音乐,曲风区别较大,流派繁多,内容生产量少,较为细分,修音技术也会面临更多的挑战。


智能修音的本质是对用户歌声的评估和处理,这只靠后期处理就行吗?其实不是。


就整个录唱体验来说,前期音频采集、混音和合成发布都会影响最终修音作品的效果,“平台能做的就是用更普适的指标,做到让大家普遍觉得不错。想要更好的效果,是下一阶段努力的方向,好的作品需要全链路合作。”其中用户端的音频采集是最不可控的因素。


例如一部分用户使用蓝牙耳机伴唱,这会给修音带来一些困扰。


一方面,蓝牙延迟会影响到唱歌的用户对节拍的感知。通过蓝牙听到伴奏,到用户唱歌,再到硬件采集,会让延迟较为明显。由于K歌需要较为严格的时间对齐,这种歌声与伴奏的延迟会明显影响用户的体验。“少则几十毫秒,多则上百毫秒。”另一方面,最初蓝牙耳机的录音功能主要是为了通话场景设计,因此有些使用蓝牙麦克风的场景中,其音频采样率、码率和位深等指标对于唱歌场景并不友好。


针对蓝牙造成的延迟,全民K歌设计了智能调节功能,能保证句子级别的对齐。“随着新一代蓝牙协议的升级,相信问题在未来会得到缓解。”胡鹏说,接下来全民K歌会和硬件厂商保持联动,让蓝牙收音效果更好。当前的K歌的一个小技巧就是“提醒用户使用手机麦克风收音,效果更佳”。


智能修音技术已不甘于做“修修补补”的工作,而希望用户在较少甚至不参与的情况下,能生成真人唱歌的效果,这样“修”的结果会更加容易控制。


全民K歌团队已经实现学习特定人员的声音音色,通过智能方式合成,模仿其本人歌声。傅鸿城是全民K歌团队的“麦霸”,因此技术团队以他的音色与唱腔为原型,模仿合成他唱歌的效果。胡鹏非常自信地表示,修音3.0技术合成傅鸿城的声音,“很多人听不出来是合成作品,真就像他本人唱歌一样”。


对全民K歌的技术团队来说,歌声合成技术的未来绝不止于此。“未来不仅是翻唱,还有可能是智能作曲。”胡鹏告诉放大灯团队,国内外很多高校和音乐科技团队已经在着手研究,一些研究机构已经可以做到自动生成旋律,但悦耳度和自然度依然不够,还需要人工参与。真正要做到在商业市场上取得成功,预计还需要较长时间打磨,“颠覆性的创造需要更长时间,但一些重复性的、风格类似的歌曲,实现速度会相对较快。”


推荐算法:你和谁唱了同一首歌?


算法几乎是内容平台的标配技术。


放大灯团队曾在《一发入魂的音乐,如何来到你的耳边》中解析了网络音乐播放器的算法,K歌App也有自己的算法。“全民K歌的所有功能有推荐相关的应用。”全民K歌数据和算法中心总监黄昕告诉放大灯团队,首页有关注、推荐、附近,点歌台有“猜你喜欢”……


不过,虽然同为推荐算法,音乐播放器和K歌平台的算法差异却不小


两者内容池有根本性差别。播放器的资源是专业生产内容(PGC),经过了唱片公司、版权公司的筛选,质量较好,水平较稳定;K歌平台资源绝大多数由用户上传(UGC),唱功、风格不同,内容质量参差不齐。内容源决定了K歌算法难度更大。


基于内容池的差异,相应的筛选机制也会不同。全民K歌每天发布的新歌有数百万首,通过系统评分(先验分),将内容池筛选到100万,放入流量池体系进行推送,反馈越好的作品,会进入级别更高的“流量池”,从而获得更高播放量。


要解决这个难题,重在精确算出内容—用户之间的关联度


内容关联度。最基本的做法,是找出内容库中的音乐共性:系统通过判断音乐风格、标签是否一致,是否有相似歌手的作品,对歌曲进行归类。


内容—用户关联度。相对复杂,需要系统、内容和用户的互动获得:①根据用户听歌偏好、唱歌能力与偏好等信息,系统会做出综合推荐——通常会推荐热门内容,如果用户没有喜欢的,就换一批。通过反馈,适时调整推荐结果;②如果是冷启动用户,系统会通过让用户选择感兴趣的音乐人,做进一步发散,筛选并推荐内容;③如果许多用户都唱了某几首歌,那么系统将判断这几首歌之间的关联度,唱的人越多,关联性越强。


推荐算法准确度如何?平台自己需要一杆秤。黄昕以全民K歌“猜你喜欢”模块的推荐算法为例,介绍了判断算法精准度的关键指标:


  • CTR(用户点击率):系统推荐列表,用户点击情况如何;

  • 点唱率:看用户点开推荐列表后的动作,是唱某一首歌,还是什么也不做,直接退出;

  • 发布率:当用户点开列表且唱了歌,是否发布到平台。


平台还会综合总点唱量和发布量等规模性指标作出调整,每一个指标的变化,都会影响用户下一次点开的推荐结果。


如今,K歌平台系统已经足够聪明,它甚至可以通过用户的行为,判断人们唱一首歌曲的难易度:如果很多用户可以拿到较高的评分,那么系统将判定这首歌难度较低;系统甚至可以通过判定一首歌的Key值,来确定其难度。黄昕举例说,邓紫棋的歌曲CTR比较高,但演唱难度很大,用户即便唱了也不一定发布。


“这是一个权衡的过程,既要推用户可能点的歌,也要推他可能会发布的歌,但其实用户既会点唱又会发布的歌可能会很少很少。”黄昕说,“所以就要综合几个预估的分数,给出一个综合排序。”


从更高维度来看,算法更考验一个技术团队的综合能力与中台处理能力。傅鸿城回忆道,在TME正式成立之初,刚加入的酷狗音乐、酷我音乐与QQ音乐、全民K歌的标准不同,“听多久算完整播放”的标准都还没来得及统一。而现在,中台将集团数据统一治理,接入TME统一的SDK,对数据口径进行规整,可以做统一学习和处理。


中台最直接的作用是实现“降本增效”,如果一个人已经是QQ音乐或酷我音乐的用户,那么全民K歌做增长投放时就不必到其它平台推广,增长成本将大幅降低。傅鸿城认为,未来可开发的功能可能是“提升体验”:“在获得用户隐私同意后,酷狗、QQ音乐等播放器听过的歌,可以很方便地在全民K歌上点唱。”


不过,大数据和推荐算法也有其边界,更是这两年技术监管的焦点。今年8月底,国家网信办起草的《互联网信息服务算法推荐管理规定(征求意见稿)》,对用户隐私和算法作出了详尽规定[6]。傅鸿城表示,全民K歌已成立数据安全合规专项团队,保证数据存储和分发合规。


全民K歌技术团队也对算法表现得相当克制。黄昕表示,任意一个推荐系统,都是越做越倾向于将流量分给效率最高的作品。但他的技术团队更希望有一个普适的推荐系统,保证长尾作品能获得一定曝光量,并从社交角度推荐一些作品,避免马太效应。“我们并不只是一个消费内容的平台,更多的还是用户唱歌的平台。所以我们做大消费流的同时,也要激发我们创作者的热情。”


智能评分:你唱得好不好,App知道


你“会不会”唱歌,唱得好不好,K歌App全知道。


智能评分可能是最吸引K歌用户的核心功能。智能评分需要乐谱,乐谱以MIDI形式表示。早期,MIDI由人工制成,较为费时,后来则利用人工智能批量转译,并进一步生成打分模板。


全民K歌的打分原理是:平台使用深度学习技术,提取歌曲主旋律中每个音符的音高和起止点,将歌曲主旋律转为音符序列,从而得到初步的MIDI文件;再将全民K歌优质用户清唱数据与主旋律的初步MIDI文件融合,修正音符序列中的多音、少音和八度错误,从而得到更加准确的MIDI文件,作为模板评价用户演唱一首歌的得分。


一个简单的智能评分流程示意图丨放大灯团队制图


早期,全民K歌1.0版打分功能只有一个维度:音准;结果也较简单,最高级为SSS,随后依次为SS、S、A、B、C,即SABC评分法。


单一维度很难全面体现用户歌唱的特质。“以音准评价为主的评分体系比较单薄,难以全面客观展现用户唱歌的个性化差异。”全民K歌业务研发中心高级总监黄斯亮表示,2.0版在音准的基础上,增加了节奏、情感、气息、技巧,称“多维打分法”。随着K歌的不断迭代,人工智能不仅可以利用多维打分模型,给用户唱歌打分,也可用来判断一首歌曲的难易度。



至此,智能打分已不再是简单的工具,更增加了社交和趣味性,机器打分激起了不少用户拿高分的欲望。


以往很多用户在大量摸索后,发现了在全民K歌拿高分的一些小窍门,并自发在社交平台建议想拿高分的歌友们“声音不要太小,尾音要长,节奏把控要好”。“这一定是深度用户,体验非常细致到位。”黄斯亮表示,逐句打分,最后加总,确实是1.0版本的打分模式,但在新的版本系统中,声音大小,尾音长短,在打分系统中的比重很低,刻意关注这些技巧并不一定能获得高分,新版本引入了全局性的歌唱评价标准。


高分直接意味着更多流量资源,与用户受推荐程度和社交密切相关。唱功评分超过80分,就有机会进入精选池,而精选池则有机会进入全民K歌的广域推荐池。即便评分没那么高,也可以进入用户自己的私域推荐体系,仅与用户有社交关系的人可见。


智能评分功能的审美真的在线吗?


实际上,全民K歌技术团队曾在线下做过实验:在全民K歌校园星歌声全国总决赛、全民K歌年度盛典等音乐赛事活动上,全民K歌尝试使用智能评分系统,与专家评委的打分比较,令傅鸿城欣慰的是,机器打分的结果,总体与评委非常接近,“这也验证了我们整个技术在AI唱功评价方面的实力。”


K歌改变了什么?


最初,卡拉OK只是解压工具。20世纪70年代,日本经济不景气,井上大佑回忆说:“随着卡拉 OK 机在神户、大阪、东京乃至整个日本流行起来,人们似乎开始更加享受生活,并且能够忘记一些压力。”[3]


如今,KTV兼具了更多技术和社会意义。


前瞻研究院的数据显示,受疫情等多方面因素影响,到2020年,中国线下KTV业态场所总数为4.7万家,市场规模为807亿元,业态营收596.9亿元,同比下降53.3%。[7]


至于目前萎缩的线下KTV行业,傅鸿城认为只是暂时现象,未来还会复苏,他们也能为这些线下店提供技术帮助:“我们可以为线下KTV提供技术介入,内容开放生态会提供更多伴奏,帮这些实体行业持续发展下去。“ 目前,智能评分、算法推送和修音等新技术已不限于线上,与线下K歌形成1+1>2的合作效果。全民K歌组建了硬件开放平台,开放API和SDK,与麦克风等KTV设备硬件公司合作,接入搜索、歌词、伴奏和智能打分等功能,


不论场所和形式如何起伏变迁,人始终有“歌唱”的需求。


正如同诞生之初的卡拉OK为彼时的人们带来释放与快乐,如今,线上K歌伴随着技术的进步,在新的环境下发挥了更强大的社会作用。


在疫情影响下,在线K歌也有了特殊的意义。2020年湖北疫情期间,湖北广电总局找到全民K歌团队,希望后者开发一款适合电视机顶盒的K歌应用。傅鸿城回忆道,隔离在家的全民K歌10人技术团队花了近两周时间,开发了一款改进版本上线。成功实现手机与电视大屏互动,手机即可作为麦克风使用,让湖北群众在家里也能尽情欢唱,从精神层面填补了娱乐空缺。


诚如傅鸿城所说,有歌声的地方就有全民K歌。


关于“TME科技乐享季”:

腾讯音乐娱乐集团(TME)特别开设“TME科技乐享季”公开音乐技术交流系列直播活动,旨在分享音乐的核心算法能力的建设经验,了解技术背后的黑科技,力求为技术从业者、技术爱好者和音乐爱好者创造交流学习的最佳空间。同时,也为搭建开放的音乐技术从业者交流环境与招聘通道,助推音乐行业效率持续提升与数字化加速发展。目前活动已举办四期,涵盖推荐算法、音视频技术、搜索架构与NLP技术等前沿音乐科技与热门话题。


关于腾讯音乐娱乐集团(TME)的技术故事:

TME始终将科技作为重心,持续强化在定向分发、场景推荐、智能交互、定制服务等方面的技术努力,以此连接用户、音乐人、合作伙伴等各产业环节,在持续为行业输送优质内容和用户服务。



References


[1] Marc Abrahams:A favorite Ig Nobel moment: The prize for inventing karaoke,Improbable Research 官网,2014.8.5
https://www.improbable.com/2014/08/05/a-favorite-ig-nobel-moment-the-prize-for-inventing-karaoke/

[2] Pico Iyer:Daisuke Inoue,TIME杂志,1999.8.23
http://content.time.com/time/world/article/0,8599,2054546,00.html

[3] Daisuke Inoue,Robert Scott:Voice Hero: The Inventor of Karaoke Speaks,The Appendix,2013.12.3(Topic Magzine,2005)
http://theappendix.net/issues/2013/10/voice-hero-the-inventor-of-karaoke-speaks

[4]《四十年四十个第一》 20181214 第一家卡拉OK厅,CCTV节目官网,2018.12.14
https://tv.cctv.com/2018/12/14/VIDE89PON2PzvyvvBY2nw8OP181214.shtml

[5] 艾瑞咨询:中国在线K歌社交娱乐行业发展洞察白皮书(2020年)
http://report.iresearch.cn/report_pdf.aspx?id=3556

[6] 国家网信办:关于《互联网信息服务算法推荐管理规定(征求意见稿)》公开征求意见的通知,2021.8.27
http://www.cac.gov.cn/2021-08/27/c_1631652502874117.htm

[7] 前瞻行业研究院:2021年KTV行业发展蓝皮书,2021.9.29
https://mp.weixin.qq.com/s/OobtjORvvmWj5G3RrPZXPg



《【万字长文】如何从零造一台风力发电机

《在环球影城,只有麻瓜看不到5G基站

《商汤到底亏了多少钱?》


- 果壳商业科技传播部出品 -

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存