音频表征大模型在音乐冷启的应用
导读 本文将分享腾讯音乐天琴实验室基于音频表征大模型的实践与应用。
主要内容包括以下几大部分:1. 音频表征背景
2. 通用音频表征发展
3. 表征模型应用
分享嘉宾|江益靓 腾讯音乐 高级研究员
编辑整理|玉辉
内容校对|李瑶
出品社区|DataFun
音频表征背景
1. 一个例子
2. 音频表征发展的转变
丰富:表征内容丰富多样,不再局限于单一维度,而是涵盖了歌手、乐器、旋律等多种特征,能够全面反映音频的多元属性。这种多维度的表征方式使得音频信息得以更完整地保留和呈现。
高效:通用音频表征有助于下游任务的快速迭代。在天琴实验室,我们拥有强大刻画音频属性的能力,涵盖了音乐节奏类、基础类、结构类等多个方面。以往,迭代这些模型需要人工标注大量数据,并经过繁琐的建模、预测、纠错和训练过程。而现在,借助通用音频表征,我们可以利用少量的标注数据快速适配下游任务,大大提高了工作效率。
精确:通用音频表征通常是通过自监督方式训练的,这种方式能够充分利用大量的音乐音频数据,通过无监督学习的方式自动提取音频中的关键特征。由于积累了大量的音乐音频知识,通用音频表征在一些任务上能够达到更加精准的效果。
3. 天琴实验室的能力
通用音频表征发展
1. 音频表征的发展趋势
2. 业务研究调研
3. 无监督学习-simCLR
4. 无监督学习-Token
5. 无监督学习-BYOL
6. 无监督学习-MAE
7. 自监督学习-MLM
8. 数据集与模型大小
9. 音频X 文本模态表征-CLAP
10. 音频 X 更多模态表征
表征模型应用
1. 歌声鉴伪
2. 辅助搜索排序与歌声内容理解
3. 音乐的理解讨论
分享嘉宾
INTRODUCTION
江益靓
腾讯音乐
高级研究员
江益靓,腾讯音乐天琴实验室高级研究员,硕士毕业于复旦大学,主要负责智能歌唱评价与音乐信息检索技术的研发与应用。参与多项 MIR 技术的落地,推动音频内容理解技术应用在全民K歌、酷狗唱唱、QQ 音乐多个场景发挥业务价值。致力于用音乐科技帮助用户更好地享受音乐。
活动推荐
往期推荐
直播预告|我们在策划一件大事
大模型时代知识图谱赋能高血压智能诊疗实践
字节跳动系统智能运维实践 | DataFun大会分享回顾
实时智能全托管-云器Lakehouse重新定义多维数据分析
Blaze:SparkSQL Native算子优化在快手的深度优化及大规模应用实践
数据赋能实战:企业产品与业务的升级之道!
Spark 内核的设计原理
LLM+Data:大模型在大数据领域应用新范式
沐瞳指标管理与智能分析
信贷场景广告投放优化实践
点个在看你最好看
SPRING HAS ARRIVED