查看原文
其他

第四届“马栏山杯”国际音视频算法大赛圆满结束

由湖南省委网信办和湖南省教育厅主办、中国(长沙)马栏山视频文创产业园和芒果TV联合承办的第四届“马栏山杯”国际音视频算法大赛线上赛已圆满结束。

本次大赛在赛程设计、赛题范围、人员选拔等方面实现全面升级,大赛分设趣味编程和算法创新两大板块,覆盖视觉、推荐搜索、趣味算法等领域。

此次常规赛道的参赛队伍覆盖全球学术界、工业界,有来自UCL、佐治亚理工学院、纽约大学、北京大学、清华大学等众多海内外知名学府的队伍;也有世界互联网行业头部企业的身影如阿里、腾讯、ZOOM、百度美团B站DataRobot等;还有部分知名国企参赛。

本届大赛作为马栏山芒果节的一环,激发着新时代青年们的创新热情,引领了一波又一波的开发者后浪奔腾向前。


国内外开发者齐聚一堂,青少年编程新星涌现


国际化与对青少年编程群体的关注,是本届大赛的新特点之一。

今年,马栏山杯的视野逐渐面向全世界:算法创新赛首次引入国际赛道,IVW和LTV两道赛题分别加入了ACMMM和IJCAI国际顶级会议。该赛道面向海内外算法领域专业人员,致力于汇聚国际顶尖技术人才。全新赛制、优质命题、平台赋能,国际顶尖技术人才汇聚于此,参赛人数创历史新高,是历届算法大赛参赛队伍总数的5倍。23027支国内外队伍齐聚一堂,聚焦音视频行业前沿难题,不断探索,在竞赛中激流勇进,攻坚克难,突破自我。

同时,随着少年编程教育在中国的迅猛发展,越来越多的孩子开始接触和学习编程语言、算法和创意思维。在线学习平台的开放课程,也使得更多的人群了解并使用编程工具。在这个知识开源的时代,编程不再是科班人员的专利,还有更多的人是兴趣使然,为爱发电。

在此大环境下,大赛面向非科班编程爱好者,创造性的增设了针对青少年的“趣味编程”活动。芒果TV作为长沙的本土企业,也致力为青年提供优质的编程土壤,在寻机头命题选手以湖南省份为主,有效赛队覆盖率为17.3%

值得一提的是,在趣味编程赛事中,南京市聋人学校两名选手取得第29和第39的优异成绩,他们敲下一串串代码去感受算法的灵动。才华横溢的青少年开发者们,在此次赛事中初露锋芒,期待他们能成为一股强劲的后浪,推动行业不断发展。

算法创新竞技,前沿问题聚焦


赛的常规赛道汇聚了当前音视频领域的三项前沿问题,分别是“空间音频”赛ACM MM国际顶尖会议收录的不可见视频水印”赛道IJCAI国际顶尖会议收录的多任务和多模态的用户未来价值预估问题”赛道

一、不可见水印

不可见水印的选手们面临三个重要的挑战。第一个挑战是鲁棒性:如何找到一种稳定的方法,使得水印在面对各种攻击时不容易被破坏?这些攻击包括图像的旋转、缩放、拼贴、剪切、压缩和涂抹等。优质的水印技术,能够抵御这些攻击,保持水印的可靠性和完整性。

第二个挑战是保证视觉质量。我们希望在保护版权的同时,不影响图像和视频的视觉效果。也就是说,我们希望水印在嵌入时不会对图像和视频造成明显的视觉质量下降,同时水印的鲁棒性也要得到保证。该如何保持图像质量和鲁棒性的平衡?这是一个待以攻克的技术难点。

最后,我们还需要提高算法的执行效率。高质高效的处理图像和视频数据,能够确保水印技术在实际应用中更加具有可行性和扩展性。在不可见水印赛道中,我们鼓励参赛者发挥创新思维,推动不可见水印技术的发展。我们期待参赛者能够提出更加稳定、高质高效的水印方法,为音视频领域的版权保护和内容安全做出重要贡献。

二、空间音频

空间音频技术通过计算声音,让我们感受到真实世界的立体空间,从而得到身临其境的视听体验。空间音频赛题的成果不仅能够让我们更普惠地享受双耳声节目的声音,还能为元宇宙概念中的沉浸式音频技术提供重要的基础。当前,三维声、双耳声等制作资源稀缺且昂贵,我们面临一个挑战:如何通过算法,在视觉信息的引导下,将单声道或伪立体声转化为令人耳目一新的双耳音频?这项工作是为了进一步创造能够根据用户头部方位动态追踪的双耳音频。当我们正在欣赏一部电影或者玩游戏时,通过空间音频技术,你能清晰地感受到声音的位置和距离。这不仅会提升你的沉浸感,还会带来更加逼真的视听体验。而"马栏山杯"国际音视频算法大赛正是为了鼓励那些有创新思维的参赛者,他们将努力解决空间音频领域的难题,为我们带来更加逼真、震撼的声音空间感,辅助创造一个更加沉浸的虚拟世界。

三、多任务和多模态的用户未来价值

多任务和多模态的用户未来价值预估问题赛道专注于解决LTV(终身价值)问题。LTV值反应了用户对于流量变现的无穷潜力,用户留存率和活跃情况与LTV之间,存在着强正相关关系。在这个赛道中,选手们面临的挑战是预测用户在7天内的行为:留存率、视频观看次数以及总时长。此赛题具有非常强的实用意义,它关乎着用户的忠诚度、使用频率和未来的贡献。

竞赛方案还限制了选手的机器选择和时间资源,以模拟更加真实的实操环境挑战加码,选手的热情却毫无退却,比赛共有着1376名选手的参与,是以往参赛选手的两倍,这正是大家对这个炙手可热问题广泛关注的最好证明。参赛选手将探索数据的奥秘,追寻隐藏在数字世界背后的价值宝藏。他们将挖掘深层模式,开发出能够准确预测用户未来价值的算法,为企业提供宝贵的洞察和策略支持。这是一个令人激动的冒险,以数据为驱动,开辟着数字时代的未来之门。


术大牛云集,成果精彩纷呈


此次大赛中,算法创新赛题吸引了国内外一流高校和企业背景人员参赛。头部名次的竞争显得尤为激烈。

空间音频赛题中,一位跨界选手的表现令人惊喜,他来自南方医科大学临床医学专业,凭借在医疗AI及计算机辅助医疗方向的学习研究背景和对赛题方向的个人爱好,通过两个月的努力,其最终方案对数据组织、网络结构、训练策略等方面进行了改进,通过coarse to fine逐级分层融合,大幅提升了视觉信息在双耳分离中的引导作用,最终以0.7452分的总成绩(STFTL2 0.6470 / Envelope 0.0982)获得了B榜第一名,该分数也大幅领先于学术界SOTA方法在该应用场景下的成绩。

不可见水印的提交方案中,采用深度学习的方法对三大挑战平衡处理的作品更为优秀。比赛结果表明,深度学习在不可见水印领域具有巨大的潜力,并且在解决传统方法所面临的挑战方面有显著的突破。基于深度学习的不可见水印具有更好的高鲁棒性和隐蔽性。深度学习模型可以学习和提取图像的特征,使得不可见水印能够在图像经过压缩、旋转、裁剪等操作后仍然能够被准确提取出来。同时,该类模型也可以学习到更加隐蔽的特征,使得不可见水印可以被嵌入到图像中而不容易被察觉,不会对原视频造成明显的质量破坏。在具有GPU资源的情况下,也具有高效的处理速度。

回看LTV(lifetime value)问题的相关作品,传统的GBDT(xgboost/catboost/lightgbm)模型依旧大放异彩,部分选手使用基于深度学习模型结合GBDT方法在本次比赛中也取得了非常好的效果。本次大赛最核心要点,依旧在于特征工程,优胜选手采用的构造特征的手法可谓精彩纷呈,其中包含各种业务统计类特征和各种embedding类特征以及通过嫁接学习(迁移学习)生成的特征等。特征工程不仅仅是一门技术,更是一门艺术,想做好这一点,必须要对数据和业务进行深入的研究和探索,再配合自己丰富的想象力方能得以实现。最终比赛结果也表明,得特征者得天下,只有充分的理解了数据和业务,方能立于不败之地。在工程实现方面,本次选手大规模使用Polars,对比于以往老牌的数据挖掘和数据分析开源框架Pandas,使用Polars做特征计算速度远超Pandas(10倍以上)。最终本次大赛的成果显著,选手作品大幅度的超越了已有的基线模型。

产、学、研机构汇聚一体,国内外选手友好竞技,优秀的开发者不分行业、不分国界,在此次大赛中齐聚一堂,让我们看见了音视频算法发展的条条大路与新兴的曙光。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存