其他
苹果收购AI音乐公司,音乐人工智能将迎来新机遇?
编者荐语:
Mixlab和FashionHack共建了一个AI音乐社群,欢迎加入~~
以下文章来源于FashionHack ,作者李笛
预计阅读时间:8 分钟
Intro
苹果在近日收购了一家名为 AI Music 的初创公司,该公司提供的服务正是利用人工智能技术来个性化定制音乐。
音乐人工智能这个名词听着仿佛距离我们的生活很遥远,但是实际上,它已经渗透到我们的生活当中。比如:各个公司相继推出的虚拟歌手,从初音未来到微软小冰都深受广大年轻人的喜爱;当你在电台里听到一首好听的歌曲时,你可以使用听歌识曲应用来找到这首歌曲……
以下将从音乐人工智能的概念、子课题、应用、相关期刊会议四个方面进行介绍。
近年来,在音乐及计算机领域出现了音乐人工智能(Music AI)这一名词。音乐人工智能是一个相对模糊的概念,可以看作人工智能在音乐领域的垂直应用。包括音乐生成,音乐信息检索,以及所有其它涉及AI音乐相关的应用例如智能音乐分析、智能音乐教育、乐谱跟随、智能混音、音乐机器人、基于智能推荐的音乐治疗、图片视频配乐等应用。音乐人工智能属于音乐科技的一部分。[1]
早期的音乐信息检索(Music Information Retrieval, MIR)技术以符号音乐如MIDI(Musical Instrument Digital Interface)为研究对象,后续以音频信号为研究对象,研究难度急剧上升。如今MIR技术已经不仅仅指早期狭义的音乐搜索,而更广泛地包含了音乐信息处理的所有子领域。我们根据自己的理解,将MIR的几十个研究课题归纳为核心层和应用层共9个部分。核心层包含与各大音乐要素(如音高与旋律、音乐节奏、音乐和声等)及歌声信息处理相关的子领域,应用层则包含在核心层基础上更偏向应用的子领域(如音乐搜索、音乐情感计算、音乐推荐等)。[1]
音乐信息检索(MIR)的研究领域[1]
2.1 钢琴转谱
接下来将以钢琴转谱这个子课题为例进行进一步的介绍。
钢琴转谱,顾名思义就是将一段钢琴音频通过技术自动转化为MIDI等符号音乐表示,是自动音乐转谱(automatic music transcription,AMT)在钢琴这一乐器上的子任务。
钢琴转谱可以分为单音高和多音高,当音频每一时刻都只有一个音符在发出声音就是单音高,当音频中存在多个同时发声的音符时就是多音高。
在单音高识别上,在2018年Jong Wook Kim等人提出的《CREPE: A Convolutional Representation for Pitch Estimation》是一篇影响力非常大的论文,刷新了当时的指标。该模型的输入直接采用原始音频信号片段,经过六层一维卷积层和一层全连接层,输出360维向量,其中每一维分别代表对应音高的概率。最后该模型对于音高的估计能够实现HZ级别的精度。
钢琴多音高检测的里程碑是谷歌团队Google Magenta提出的《Onsets and Frames: Dual-Objective Piano Transcription》。这个模型开创性地在音高检测时加入了琴键按下时间(onset)的信息大大提高了音高检测的准确率,全方位刷新了当年的指标,甚至在note-with-offset的F1 score的指标上超过之前模型成绩的一倍,达到了50.22%。
目前在多音高钢琴转谱领域的 SOTA ( state of the art,当前最优模型 ) 由字节跳动的孔秋强博士等人保持,他们在《High-resolution Piano Transcription with Pedals by Regressing Onset and Offset Times》一文中写到他们将钢琴按键在时间上的精度缩小到 1 毫秒这个量级,还对钢琴按键力度、钢琴踏板等多个信息进行了检测和标注。
除了intro中提到的应用以外,近年来音乐人工智能的应用越来越广泛。
清华大学墨甲乐队。“墨甲”机器人乐队是中国首支具有中国文化特色的机器人表演团体。2019年4月27日,机器人音乐舞台剧《墨甲幻音》在清华大学上演。[3]
2022年1月,网易推出一站式AI音乐创作平台天音。用户可在“网易天音”小程序中输入祝福对象、祝福语,10秒可产出词曲编唱,还可以选择小冰框架内的何畅、陈水若、陈子渝等AI歌手进行演唱。[4]
相关期刊会议
1.IEEE International Conference on Multimedia and Expo (ICME)2.International Society for Music Information Retrieval Conference (ISMIR)3.IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)4.International Conference on Spoken Language Processing (Interspeech)5.Journal of The Acoustical Society of America(JASA)6.IEEE Transactions on Audio, Speech and Language Processing(TASLP)……
Outro
当前相比于NLP和CV以及语音领域的快速发展,音乐人工智能仍存在较大发展空间,苹果这一举动让更多的对于这一方面感兴趣的人了解到这一领域,对于该领域的发展能够起到一定的促进作用。而在国内,这一学科得到了越来越多的重视。2019年,中央音乐学院音乐人工智能与音乐信息科技系创建。复旦大学的李伟教授预测,今明两年将是国内音乐科技从萌芽、起步、进化到加速发展的转折点,音乐家主导的从上到下的学科框架设置,以及理工科同行主导的从下到上的知识体系构建有望在中间相遇。[8]
参考文献:[1]李伟,李子晋,高永伟,“理解数字音乐-音乐信息检索技术综述”,复旦学报(自然科学版),2018,57(3):271-313.[2baijiahao.baidu.com/s?id=1606162308984311497&wfr=spider&for=pc[3]news.sina.com.cn/c/2019-04-27/doc-ihvhiewr8563419.shtml[4]www.jiemian.com/article/7047190.html[5]Kim J W , Salamon J , Li P , et al. Crepe: A Convolutional Representation for Pitch Estimation[C]// ICASSP 2018 - 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.[6]Hawthorne C , Elsen E , Song J , et al. Onsets and Frames: Dual-Objective Piano Transcription[J]. 2017.[7]Kong Q , Li B , Song X , et al. High-resolution Piano Transcription with Pedals by Regressing Onsets and Offsets Times[J]. 2020.[8]音乐人工智能不再冷门, https://mp.weixin.qq.com/s/aMR9hBikULDnEAJr9XWaeg.
点个在看你最好看