阿里巴巴淘系开源首个多模态直播服饰检索数据集
淘宝直播“边看边买”效果示例,借助PixelAI 商品识别算法,可以从该直播的商品库中识别出直播中主播讲解的商品,并在直播中通过商品卡片形式推荐给消费者。
为了提升直播中商品匹配识别的效果,我们依托淘宝直播海量数据,构建了业界最大规模的多模态视频商品检索数据集Watch and Buy (WAB)。
该数据集包含70,000个由直播视频片段和对应讲解商品构成的匹配对,具有规模大、标注全、模态多、功能广的特点。
我们抽取视频片段若干关键帧和商品的全部商品图进行了实例框级标注,商品id数达82,173个,标注图像数达1,042,178张,检测框实例1,654,780个。
框级标注信息丰富多样,包括商品的检测框、类别、视角、展示方式、同款编号等。除了视觉标注,我们还对主播讲解语音进行了人工文本转录,同时提供了商品的标题文本信息。该数据集可用于物体检测的算法、商品重识别算法、主播意图识别、跨模态检索和多模态检索等多种算法的研究。
为什么需要 Watch and Buy?
当前开源的服饰检索数据集都存在一些不足,无法满足真实视频场景中服饰实时识别的应用和细致研究。
首先,已有开源数据集均为静态图片的数据集,而真实视频直播场景中还存着运动模糊、遮挡等问题;通过针对视频场景的数据集能够有效对上述问题进行研究和解决。
其次,已有开源数据集的图片多为网上收集,数目少、噪声大且标注维度不全,我们依托淘宝网和淘宝直播的真实业务场景,能够获取大规模、高质量和全面的商品信息。
最后,现有数据集多为单一的图片数据集,我们还提供了主播语音翻译文本、商品图标题文本等多模态的信息,进行多模态商品检索的研究,能够更加贴近真实场景。
我们相信 Watch and Buy 数据集的这些特性将会持续激发视频多模态检索领域的技术创新研究。
淘宝直播商品识别大赛简介
为了方便学术界广泛参与,我们将业务问题抽象为视频库和商品库之间的多模态视觉检索问题。在评价指标上,提出了片段级、帧级和检测框级评价标准,全面衡量选手算法效果。
为了保证选手算法既能快速迭代又能有效赋能线上真实业务,我们在初赛、复赛和决赛的赛题中逐步引导选手从技术贴近业务,其中,初赛为万级视频片段的检索问题,复赛则加入了真实场景中存在的商品缺失问题,决赛则是将选手方案部署到真实线上场景,直接评价完整直播视频的算法效果。
大赛由淘系技术部内容社交互动平台和天池竞赛平台共同举办, 发布了业界最丰富的7W规模多模态视频检索数据集,用于进行算法模型的训练和效果评测,并且提供了24W的比赛奖金奖励优秀参赛者,考虑到疫情期间高校参赛者的资源困难,额外提供了GPU机器进行模型在线训练,最终吸引到1945支队伍参赛。
选手来源中,30%的队伍来自高校,26%来自公司,个人参赛有6%。选手学历分布为,40%的选手拥有硕士学历,24%的选手为本科,博士选手占6%。最终,来自中科院计算所和吉林大学的逐星团队以超越Baseline方案20%的成绩夺得本次比赛的冠军,另外多位来自高校的参赛同学表示已经在数据集上进行算法研究,并保持于主办方密切联系。
淘系技术的算法同学对优秀方案吸纳并补充到淘宝直播线上场景中,实现更好服务于淘宝直播商品识别业务。
附录:
淘宝直播商品识别大赛链接:https://tianchi.aliyun.com/competition/entrance/231772/introduction
Watch and Buy数据集开源链接:
https://tianchi.aliyun.com/dataset/dataDetail?dataId=75730
请投递简历至邮箱:yangjiang.yj@alibaba-inc.com