CVPR 2021 Homage Genome Action 比赛,让我们聊聊淘系冠军背后的故事,以及“视频交互关系检测”这个CV领域的未来新趋势。
“ 第一次提交榜单的时候,我们队排名第4,和第一名数据还差了十个点。”
“ 当时只剩下5天就截止比赛了,要是没拿到成绩,我决定装作这一周什么都没发生过。”
正是眼前这个带着点羞赧笑容的男人,一周后带领着他的3人队伍,以远超出第二名8个点的成绩,拿下了 CVPR 2021 Homage Genome Action 首届比赛的冠军。
接受我们采访的冠军张爱喜(花名:少麟)
他是张爱喜(花名:少麟),来自阿里巴巴淘系技术多媒体算法团队,这支团队支持着淘宝直播、逛逛、点淘等内容业务,在高层语义理解的技术领域一直有着持续的探索。
这次斯坦福大学李飞飞教授课题组重点推动的 Homage Genome Action 比赛,也是高层语义理解的方向,着眼于探索视频结构化的信息与交互,在传统的画面识别基础上,更多地探索视频中人与物的关系推理,从而实现更有效的算法推荐和分发。
作为 CVPR 去年的冠军选手少麟,今年“玩”得更刺激了点:报名时距离比赛截止还剩9天。(正常情况下,一般选手的备赛时间是1-3个月)
这是不是很像学霸考试前说自己没复习的凡尔赛?
“就试试咯,我们参加比赛,一方面是因为这个方向我们在尝试推动业务落地,另一方面,我们也希望通过打比赛来检验一下技术的先进性和通用性。”
彼时,少麟刚刚冲刺了两个多月递交了一篇相关领域的 paper,趁着这股热乎劲儿,搞搞数据集,改改方案,他感觉还能冲一把。
相比于论文大多数专注于某一个技术点,比赛考验的是多种算法的综合能力和整体方法的创新能力。Homage Genome Action 今年是第一届举办,这意味着没有往年的方案和数据参考,对于创新思考的要求更高。要在有限的时间内完成冲刺,最关键的是要看比赛的这支队伍如何高效协同,实现精力资源的最优分配。少麟的队友主要有2个,一个是 paper 的合作者,目前正在北航读计算机视觉方向博士的廖越;另一个是他的老板,大学时拿过ACM金牌,有着一把技术热情的咏亮。这次比赛提供的是一个室内监控数据集,任务要求准确判断每一组人体和物体之间的动作关系和空间关系。他们梳理了数据集特点和比赛流程后,认为检测和关系判断在比赛中最关键,并迅速做出了明确分工。廖越负责检测模型,咏亮负责模型融合,少麟则负责关系判断模型和全流程整合,三人之间的结果互相依赖,每天上午和下午保持实时跟进,并迅速迭代着各自的方案细节。“这就像阿里绩效管理OKR的思路,我们确定了O以后,把每个人的 KR 列的清清楚楚。廖越呢,各种想法比较多,我是工程实现能力比较强,咏亮很执着,我们在协商好的 KR 下推进得非常有条理。”
本科北航,硕士香港科大毕业的少麟,一直都是个喜欢突破自己、突破边界的“不折腾不舒服”青年。他原来学的是集成电路设计,在外企捣鼓了一阵儿半导体软件开发后,悄悄瞄上了深度学习。通过自学,16年他开始做计算机视觉方向,从人物静态的脸部识别,到如今动态高层的语义理解,他始终活跃在开疆拓土的最前沿,享受着自己作为一颗嫩芽冲破泥土层的爽感。
距离比赛还剩5天截止时间的时候,他们提交了自己的第一版结果,榜单出来后一看排名妥妥前三开外,和第一名差了近乎十个点。主管咏亮试图宽慰他,“你也拿过冠军,投了 paper,从个人绩效角度而言这个比赛也无增益。”这段时间,3个人都是近乎没日没夜地投入。一直有着早睡早起习惯的少麟,连着一周多都是5点起床,遛完家里的两只狗狗后,7点就到了公司,一边跑模型,一边打开钉钉回复凌晨来自咏亮的一串问题反馈。
5点被遛完的狗:补个觉,谢谢
“我是队伍的主心骨,比赛也是我提议打的,我不能说不行。”深知队友的付出和努力,少麟表示没有问题,只要在千丝万缕中剥离出方案的改进点,他们依然有希望获得质的飞跃。
6月7日,下午3点。坐在工位上的少麟,突然蹦了起来,一溜烟跑去跟咏亮大声汇报:其他不明真相的同事诧异地看着眼前这个手舞足蹈的男人。原来,由于参赛时间太紧,少麟一直悄悄咪咪在参加比赛,打算要是没希望就做个鸵鸟,把头埋进去当做什么都没发生过。就在前两天,他们终于找到了方案中的问题所在,他们拆分了验证集,解了一个bug,也完成了最新方案的coding,重新梳理了整个流程结构,完成一系列操作后,单个 demo 的提交结果显示已提升20个点。回想起来,那是个比收到最后冠军结果邮件还要高兴的时刻。之后的策略调整就更像打通了任督二脉,每尝试一个策略,数据都会提一点点,喜悦越来越多地飞上少麟的眉梢。最后一次,实际上也是第二次提交完比赛数据后,他们抱着一把梭哈的心态,少麟和咏亮开心地去公司附近撸了个串,并已然当做过去式在讨论以后的技术规划了。
Home Action Genome Challenge 第一名获奖证书
“视频交互关系检测”这个方向,少麟打从去年10月就开始自发地在研究和探索了。它和单纯的视频理解识别不一样,要求提取画面中结构化的信息,并能够训练机器自主识别人与物实体的交互关系。这个方向目前还处于比较早期的阶段,尚未出现大规模的应用场景。但是该方向已连续在 ECCV,CVPR 和 ICCV 计算机视觉领域三大顶会上举办了workshop,未来在安防和监控领域能够帮助人高效提取需要的信息,极有可能是CV领域接下来一段时间的热点方向。从淘系业务的角度,少麟希望这个技术的使用,能够帮助算法在商品的推荐和投放上效率更高,计算机能够通过计算和关系判断,智能地将正在直播的淘宝主播或者需要的商品,适时推荐给需要的用户。“可能用户的直接感知并不强烈,但这个算法技术能够为淘宝直播大大提效。”
既是队友又是小主管的咏亮,在打比赛这件事情上态度非常明确:鼓励同学们尽可能参加。
阿里并不是一家可以“躺平”的公司,技术人始终面对着行业环境和业务需求的不断迭代,但任何时候都不能缺失对于技术的敏感度和钻研的追求。对于一名有技术追求的人来说,应该去挑战那些崇山峻岭。
咏亮的团队目前是淘宝多媒体算法分支里竞赛成绩最好的,以少麟为代表,这支来自爱奇艺、小红书、京东、百度等不同文化的小分队,逐渐克服自己的路径依赖和信心不足,慢慢发现,同时做到业务需求开发和技术钻研挑战,并没有想象中那么困难。
蝉联了两届冠军的少麟,特别”凡尔赛“地表示,明年再打比赛就是自己的舒适区了。比赛是方案和技术的综合,论文是更偏单点的创新。下一步地突破,他希望今年能中CCF-A类的一作文章,明年能中 PAMI 和顶会的 oral ,将自己在业务场景上的思考提炼成基础的学术问题,能够更加形成技术壁垒。
“始终做团队的突破点是很爽的,来阿里之后,发现更难了,因为大家都很优秀。如果以后能持续产出顶会paper ,成为行业某个领域的标杆的解决方案,就是那种面试的时候,大家会提到说‘哎那个谁写的论文里’的,这种美好愿景想一想就很激动。”
他喜欢《三体》,更因为罗辑这个人物读了三四遍。罗辑这个承载着人类命运重压的普通人,在参透黑暗森林法则的真理之路上,不断突破着认知与精神的极限。少麟认为,不停地探索未知区域应该是种持续的追求,大到人类,小到个人都是如此。
张弛有度,打完比赛,少麟休了一周假,从成都-乐山-西安一路吃喝睡了下去。(家里的两只狗狗表示:谢谢你,我终于不用5点起来被遛了。)作为一个东北黑龙江人,四川的冷锅串串钵钵鸡、麻辣火锅、跷脚牛肉、毛血旺散发着椒麻的鲜香,瞬间从味蕾治愈到了大脑。一只硕大的黑白胖子把自己挂在树上,几乎承受不住重量的树枝已经被压成了月牙弯。少麟掏出手机,心里暗暗想着,我可一定要拍到它掉下来的那个瞬间。结果这一站,就是半个多小时。“耐心这事儿,搞技术的人一定要有的。不然怎么憋得住探索未知的苦闷呢。”
大熊猫:兄弟,我稳得很
🍊橙子说
彩蛋时刻
你猜大熊猫最终有没有掉下来?
哈哈哈哈哈哈哈
评论区写出你有趣的灵魂,
被票选最高(点赞数最多)的前三条留言,
点赞前3送加湿器一台!
(活动截止至7月19日17:00)
作者|淘系技术
编辑|橙子君
出品|阿里巴巴新零售淘系技术