如何做一个“实用”的图像数据集
目录
引言
一、探究数据的“用途”
二、梳理专业的“知识”
三、数据与知识“迭代”
四、确定性能的“指标”
五、总结
鸣谢、文献
编者序
大家都说这是一个大数据的年代,人工智能的落地需要数据, 深度学习更需要海量数据。于是, 出现了一个流行的口号:“数据就是新的石油“(Data is the new oil)。这个比喻很形象,但容易把问题简单化。首先,对于人工智能的应用来说,数据顶多只是原油( crude oil),就是那种黑糊糊的液体, 要变成可以用的汽油, 还需要复杂的取舍和提炼过程。其次,汽油对各种汽车是通用的,而人工智能的需求非常广泛, 任务各异,往往根据不同任务,要精炼不同的汽油。更复杂的是,对于一个行业或者产品来说, 它的任务定义往往是模糊的。那么“数据”和“任务”需要一个长期的迭代过程,这个过程成本是相当高的。
本文作者贾梦雷是中科大毕业的,其带领的阿里巴巴“图像和美”团队开发计算机视觉在时尚领域的应用,花了7年时间迭代数据与任务。非常感谢他与我们分享他们在第一线“炼油”的心路历程, 以及各种洞见。
引言
近年来AI受到各界关注,公司、政府及民众对于AI落地都充满期待。在媒体的描述中,各种AI落地的场景呼之欲出。不过在我们看来,目前AI算法在很多数据集上的成功多是学术意义上的,距离商业落地还有一段较长的路要走。如今众多科研人员从学术界走向工业界,大量在校学生投入AI领域。当前正是时候和大家探讨AI落地中的数据挑战。本文的目的在于分享经验与同行探讨。
我们在阿里巴巴图像和美团队探索将AI用于时尚领域,已经有七个年头。我们希望开发的AI产品对衣服的理解不只限于照片和文字,而是可以理解衣服本身,进而理解时尚穿搭之道、理解流行风向;我们希望这样的理解可以作用在阿里巴巴数以亿计的商品上,从而影响大众、改变行业。
让AI懂得时尚,且不说商业落地,仅从技术上听起来,就有点天方夜谭:时尚是如此主观,人都很难理解,何况机器?其实,做时尚AI的魅力也就在此——“如何客观地看待主观世界”——需要我们把严谨的科研态度和行业洞察力、想象力结合在一起,才能为机器打造一颗“时尚之心”。
让机器理解衣服,核心是制作服饰图像数据集。我们在本文分享“时尚之心”项目中最基础也最有挑战的部分:如何制作一个“实用”的图像数据集?这里的“实用”指的是能够达到商业落地的程度。构建一个图像数据集,即是在一定的“用途”目的下,将“知识”与“图像”做关联,并给出评价算法的“指标”。
文章结构也是按照以上四个关键词来组织的:文章第一部分是对“用途”的探讨,第二、三、四部分围绕着“知识”、“数据”和“指标”来展开,最后是总结。
一、探究数据的“用途”
十几年前我读研究生时,方向是机器人。有朋友问起:“你做的机器人是干什么用的?”我一时语塞,还有点气愤。那时我做机器人,硬件从零做起,用于研究探路算法、发表学术论文。零基础、缺经费、加上学生的目标是纯粹做研究,我压根没想过自己的机器人真能派什么用。做学问嘛,怎么能图“有用”呢?
一方面觉得被拷问“用途”是受辱,一方面又觉得朋友问得对。后来我常拿“做什么用”来问自己,提醒自己这个世界另有期待。毕业后我从事计算机视觉的工作。做图像算法比研究机器人探路更接近现实应用。要让算法走向实用,首先要让数据集走向实用。图像数据集在计算机视觉研究中的的作用,好比实验对象在科研工作中的作用。实验对象的采制是否严谨合理、距离实际有多远,直接决定了科研成果是否可靠、是否能用于实际。可以说,实验对象在相当程度上决定了科研活动的水平。
计算机视觉发展的时间还不长,人们像呵护孩子一样,鼓励新想法、包容不完美。过去学术界对图像数据集的要求实际是比较低的,数据量大一些大家就满意了。如果按一个成熟的科研方向来要求的话,过去二十年业界所出现的数据集,远不能让人满意。绝大部分数据集,内在结构松散,外在用途不明,距离指导算法落地还比较远。
在过去的几年,深度学习的兴起使得计算机视觉的工具有了长足进步。随着媒体热炒、资本涌入、政府重视,人们对于AI落地有了热切的期望。AI算法要落地实用,首先是要数据集能达到落地实用。目前学术界的论文和竞赛所依赖的数据集,距离其所宣称的作用和意义相去甚远。这点也是业界心照不宣的共识。
中国古代用“性、相、用”来分析一个事物,即通过“性质、显现、用途”来认识一个事物。套用在数据集上:“性”是制作数据集的方法和原则,“相”是数据集的具体内容,“用”是数据集的用途。
在过去,论文往往着重介绍数据集的“性”和“相”,即制作方法和具体内容,而对数据集的“用”描述过于简略。也难怪,过去的数据集基本用来验证方法本身(如分类方法、检测方法),是从学者的视角出发,而不是从实际问题出发。业界衡量一个数据集是否成功,往往只用被引用次数、影响力大小,而忽略数据集的内在逻辑结构和外在实用价值,有点像自说自话。
我们关心AI算法的落地,就必须关心数据集的用途。图像中的内容,可分为两大类:“自然的”和“人造的”。自然的如风景、动物,人造的如汽车、文字。内容为自然事物的图像,例如人脸照片,是证件照还是监控摄像头拍照,差异巨大,这是由其使用场景——用途——直接决定的。而对于人造事物,“用途”的重要性更甚:事物的形态往往是其功能的体现,人们是通过“用途”去认识这类东西的。
2017年我去UCLA拜访朱松纯老师时,聊起当年莲花山项目在图像标注上遇到的困难。朱老师举例说,比如标注“杯子”,杯子形态各异、难以穷举,甚至聚拢手掌也可以是杯子:人是通过“盛水”这一功能去认识杯子的,而不是具体形象——“用途”先于“表相”;而同一个杯子,也可以有不同用途,在使用者眼中有不同的理解方式。 因此标注再多图像,识别效果也未必好。称“用途”,是从工具角度来看;从使用者的角度来看,则称为“任务”。人总是在一定任务背景下去理解事物、操作工具。用途和任务,属于人的认知领域,这启发他,要解决视觉问题,先要去研究综合各种感官、心理、记忆在一起的认知问题。
可见,强调“用”不仅是出于实用价值,也是加深对研究对象的理解的内在需要。在制作数据集的过程中,“用途”作为制作者做取舍的依据,其作用会体现在各个环节、不同层面上。接下来我们首先看到的,就是重视“用途”对于数据集中“知识”的影响。
二、梳理专业的“知识”
2.1忽视专业知识,无法做出有用的数据集
我们把一个特定场景下的经验和规则,称为专业知识。制作一个实用的图像数据集,即是将特定场景下的知识与该场景下的图像做关联。如同制作一个工具,制作人员事先对于工具的典型使用场景必须有所了解,设计上有对该场景的考虑。如果缺乏特定场景的经验,数据集就无法指导实践。
例如,LFW Face Database[1]是一个知名的数据集,包括13000张标注好的人脸图像。作者的目的是制作一个“非限制条件下”的数据集,用来评价模型的人脸识别能力。实际上,这批图像主要是采集自网络的欧美名人的正面照片,与摄像头监控、证件识别等实际场景中的照片相去甚远。很多技术团队在此数据集上做激烈的竞争,但这些数字指标对于揭示他们的模型是否能在实际场景中发挥作用,并无太大的参考价值。要评价模型在实际场景中的能力,需要使用特定场景的数据和知识。
有的制作者虽然使用了特定领域的数据,但缺乏专业人士的指导,只是沿用学术界惯有的方法,想当然的把一些专有名词与图像做了关联。这样制作出的数据集可能与实际情况有很大偏差。
例如,ChestX-ray8[2]是2017年发布的一个胸部X光数据集。制作者使用自然语言处理的一些手段对X光图像的报告单进行了文本挖掘,得到一系列疾病标签,把这些标签和对应的图像关联起来。专业人士LukeOakden-Rayner医生[3]指出:部分疾病标签并非通过观察医疗影像得出的,而是结合其他诊断信息综合得出的……实际上(报告单的内容是),观察影像的医生在通过影像回答另一位医生的问题,对同一张图像的不同提问,可能有不同、甚至相反的回答。因此,疾病标签和图像的关联很可能不符合实际情况。当然,数据集的制作者也充分认识到了这个局限性。他们基于900张报告单做了一个专家对比实验,实验表明文本挖掘得到的疾病标签准确率远未达到100%。
再举一例。DeepFashion[4]是2016年发布的一个服饰图像数据集,包括了超过80万张时装照片,被归到50个类别里。这50个类别标签来自制作者从两个服饰网站的查询词中抽取的名词,这些标签被声明是互斥的,但实际情况并非如此。例如毛衣(Sweater)和龟领(Turtleneck)这两个标签,毛衣属于“材质”的范畴,而龟领属于“领子设计”的范畴,两个标签在概念上并非平行对等,不能并列作为服饰的两个类别。如图1,“龟领”类别的衣服,同时也是“毛衣”。这类错误在DeepFashion数据集中并不少见。
图1.DeepFashion中的“龟领”标签下服装
显而易见,如果用于指导标注的知识没有被很好的梳理,那么数据集必然质量不佳,很难期望能产出好的模型;即使模型在评测中表现良好,在实际中使用也会很糟糕。
2.2 原有知识体系往往有局限
即使能获取到专门的数据,有专业人士的帮助,数据集制作者在“知识构建”上仍需付出巨大的努力。这是因为,知识的“用途”发生了变化。
一个领域的专业知识,原本只在该领域的专业人士之间流通,是为了人和人的沟通的;而制作数据集的目的是把人的经验传递给机器。直接把原有知识体系照搬到机器学习中来,往往行不通,主要问题就是“不完备”和“二义性”问题。
这里的“完备”,指的是上层概念所覆盖的范围,要能被下层概念完全覆盖。例如“中国人”可以被“南方人”和“北方人”覆盖。如果无法完全覆盖则称为“不完备”。这里的“二义性”,指的是同层级的两个概念,覆盖的范围有一定的重合,例如会有一部分“中国人”归属到“南方人”或“北方人”都说得通,是模棱两可的。专业知识往往来自于人的日常经验,天然具有一定的不完备和二义性。例如医疗影像中的疾病种类,是无法完全枚举的。
人去处理沟通中的“不完备”和“二义性”,问题不大,因为人既有生活常识、也经过一定的背景训练,可以根据经验来纠错。而机器不行,机器就如同白纸一张的婴幼儿,接收到的往往只有标注数据,告诉他什么就是什么,辨别能力或者说容错能力非常低。当然我们可以像训练婴幼儿一样,用多种数据训练一个有一定推理纠错能力的模型,这属于探索性的尝试,对于当下绝大部分的商业应用来说并不现实。因此,有必要对原有知识体系做出修正,减少不完备性和二义性,以适应机器当下的学习能力。
若观察原有知识体系,可以看出它们多是从一个个实例出发、自底向上构建的,因此难以避免不完备和二义性的缺陷。如果换个方式,一开始就注意避免不完备和二义性,自顶向下构建知识体系,这可行吗?答案是否定的。我们虽然可以从逻辑上规避二义性,但实际层面的二义性一点不少。例如,我们把“商品图”分为“模特图”和“非模特图”,简单理解,就是有人的图,和没有人只有商品的图。这在逻辑上没有二义性,但实际情况例如图2,图中是穿在脚上的一双鞋,这算是模特图还是非模特图呢?
图2.穿在脚上的一双鞋
遇到这种情况,需要拆分概念,将“模特图”拆分为“手模图、腿模图、假模图、半身模特图、全身模特图”等等,如图3所示,而拆分又必然导致不完备:这些分类能穷尽模特图的所有情况吗?显然不能。但为了在实际中让标注人员容易理解,又不得不拆分。我们只能根据实际情况,做一个权衡。
图3. 依次为:平铺图、假模图、手模图、腿模图、全身模特图
对于“不完备”,还有一类普遍情况,值得重视。如图4所示,我们要标注裙长,但图中无法展现裙子的全长,这属于“无法判别”的情况。
图4. 裙子被截断的图片
学术界的通常做法是抛弃这类样本,数据集里只保留可以清晰判别的样本。这种减少二义性的措施可以理解,不过,在实用中,这种例子是不能抛弃的。因为在实际中模型必然会碰到这种不可判别情况,没有人会为你挡驾,模型需要具备对这类情况“说不”的能力,准确的说,是打上“无法判别”标签。因此,制作数据集时,我们要保留这部分数据、设立为“无法判别”的分类,这个措施也可看作是为了知识的“完备性”而做的努力。
以上还是专业知识来自单一人群的情况,如果是多类人群对于同一知识点有不同理解,就更复杂了,需要做跨角色的知识重建。
2.3跨越多种角色的知识重建
在实际中,“专业人士”可能并非单一的人群,而是在一件事的不同环节上的多种角色,他们视角不同,使用的知识体系也不同。
例如,服装的“颜色”属性,就有“计算机的颜色空间”、“潘通色卡”、“服装营销色彩”等不同知识体系。在计算机的颜色空间中,一个点可以代表一种颜色,如在“RGB空间”中,一个(R,G,B)三元组就对应一种颜色,这可被计算机理解,但无法用于日常沟通。“潘通色卡”是国际上通用的纺织、印刷、塑胶、绘图等领域的色彩标准语言,其中国际纺织服装的版本包括2310种颜色。这么细的划分,很难被消费者理解,服装商通常会建立一套大众可以理解的颜色标签,即“服装营销色彩”,粗分有8到10种色系,细分有上百种颜色。以“红色”为例,如图5所示。要将算法模型付诸实用,我们就要打通这三套颜色体系、做知识连接。
图5. 红色在不同颜色体系中的值
以上是简单的例子,更复杂的例子是服饰的“风格”属性。在电商服饰的生产流通中,有“生产商”、“电商平台”、“零售商”三个角色,三者各自有一套“女装风格”体系:
生产商的风格体系,是设计师和服饰企划人员用的,用的是工业设计语言,这个体系相对完备和稳定。
电商平台的风格体系,是平台运营人员用的,用的是运营语言,用于管理货品、组织卖场,体系的稳定性介于生产商和零售商之间,是二者的桥梁。
零售商面对消费者,用的是营销语言,风格体系要根据时尚趋势和消费热点而变化,特点是灵活发散,易于消费者理解和联想。
我们可以通过图6获取三者的直观印象。
图6. 三种角色各自的风格体系
生产商的风格体系,有四个相对独立的维度,每个维度用代表该维度两极的词汇来表示,例如“男性化,女性化”是其中一个维度,其他三个维度是“经典,前卫”、“民族,现代”、“活泼,优雅”,这构成一个四维的设计空间,在服装企划人员的眼里,每件衣服都对应着这个空间中的一个位置。例如图6中的连衣裙将落在“女性化、现代、前卫、活泼”这个象限里,服装企划人员会给出一个具体的位置。
而在电商平台风格体系,是由“欧美”、“复古”等12种标签组成的一个平铺结构,我们依此训练了模型,来给任意一件女装打标。当一件衣服来的时候,模型会判断衣服与这些标签的匹配程度,按概率大小取前三名(一件衣服可能兼容多种风格)。例如图6中的连衣裙被判为“甜美”的概率为79.38%,其次是“田园”和“欧美”。
零售商的风格体系是在日积月累中形成的,主要出于营销目的。假设最近市场上流行“波西米亚”风,营销人员就找一部分有相似理念的衣服,打上“波西米亚”的标签;过一段“小清新”风盛行,就给相似理念的衣服打上“小清新”标签。这是一种打补丁的标签积累方式,不太注重标签之间的内在逻辑。例如图6中的连衣裙,按营销知识体系会有“乡村”、“日系”、“小清新”等标签。
做一个实用的风格体系,意味着要能贯穿从生产到营销的全过程,我们要建立一个“层次式”的知识体系,如图7所示:以稳定的工业设计知识为基底、平台运营知识为桥梁、大众营销知识为上层,用技术将其打通,使得上层的任一概念可以在下层有投影。这样的体系,对下连接到海量商品,对上承接消费者需求,把以前分散在各个环节的、主观的、零散的行为,转化为一件系统性的工作。这是理想化的结构,我们也在探索中。
图7. 层次式的风格体系
综上所述,要制作一个实用的数据集,需要制作者在专业人士的指导下做知识重建,这是一个需要制作者亲力亲为、勇于付出的过程,难以讨巧、无法回避。从更大的视角来看,AI落地的过程,实际是一个促使生产的各个环节加强沟通、重建知识体系的过程,是知识从各自的孤岛走向整体的过程。这个过程需要所有环节的人一起努力,而当中AI从业者应肩负起主要责任。
三、数据与知识“迭代”
3.1 数据制作的流程
如上一章介绍,知识需要被重建,因为知识的用途发生了变化:从专业人士之间的沟通到人和机器的沟通。同时,知识的载体——数据——也发生了变化:从日常经验的数据到有组织采集的大量数据。例如,以前服装陈列师对风格的认识,是经年累月从门店、杂志的商品中得来的,而今天算法人员会通过搜索引擎定向收集成千上万的相关图片,这是服装陈列师所没见到过的。
将采集来的大量图像与知识做关联,就是图像数据标注。知识和数据的关系是一体两面:知识是数据的抽象,数据是知识的载体。这个关系反映在数据集制作过程中,就是:知识会指导数据的采集和标注,而在数据的采集和标注过程中,知识又会被修正,这是一个彼此影响、反复迭代的过程。这个过程按次序可以大致分为四个步骤:
A. 算法人员和专业人士探讨学习,做知识的转译和重整。
B. 算法人员根据知识点采集图像。
C. 标注人员学习标注规则,对图像做标注。
D. 将标注好的图像输入机器,做训练和评测。
下面按顺序介绍每个步骤中的挑战和应对,我们将看到数据和知识是如何反复迭代的。
3.2 第一步:知识的转译和重整
首先,算法人员要消化专业知识,在专业人士指导下整理出可以标注的规则和图例解释。在这个阶段,挑战主要是:如何对知识点做取舍。
以“领型”为例,圆领的“颈线设计”分为四类,如图8所示。
图8. 四类领线设计
在专业人士眼中,这四类颈线区分很大,但是对算法人员以及标注人员(有时这两种角色是同一个人)来说,很难把握其间的差别。在实际图片中,衣服颈线的圆弧形依照深度和宽度的不同有各种形态,我们看过大量图片也很难选出符合标准定义的样本。考虑到这四类颈线设计对于衣服的整体设计风格影响不大,我们合并这四类颈线为“圆领”。
又如女装的“西装领”,如图9。
图9. 西装领的分类
“西装领”的子类从视觉上难以区分,标注人员即使努力学习,标注准确率也达不到50%。同时9个子类也意味着,投给机器的训练样本量要增加9倍,一方面是标注成本会高很多,另一方面知识粒度过细还会导致采集不到足够多的图像样本。由于女装样式丰富,视觉刺激点较多,“西装领”子类的差别不太影响整体效果,我们取消子类的划分,都归到“西装领”。
3.3 第二步:根据知识点来收集图像
在上一步“确认知识点”的过程中,会先采集少量图像;当知识点确认后,就进入大规模的图像采集。由算法人员采集到的大量图像,将用于第三步的标注。标注好的图像将用于模型训练和评测。要让模型达到识别效果,对每个标签都需要一个最少的训练样本量,例如2000张,这个量同任务和数据都有关系,可以由经验或实验来确定。第二步图像采集的主要挑战是:样本稀缺,即某个标签下的图像过少。
图10是我们的采集流程。以“深V领”为例,我们用初始查询词“深V领”搜索图片,再由人工筛选出符合标签描述的图像,即“深V领的衣服图片”。如果经人工筛选后,样本充足,就完成“深V领”的采样。如果样本不足,就使用同义词、近义词如“低V领”、“大V领”、“鸡心领”,继续搜索,直到样本充足,或者始终仍无法获取足够多的样本。
图10. 数据采集流程
在无法获取足够多样本的情况中,有一类是由于标签用语过于专业,不会出现在在图片的日常描述中,对这种情况我们使用“类似描述”来扩充查询词。例如“鼓肩袖”是一个专业术语,在图片描述中很少见,我们会用“肩部折叠”、“袖子褶皱”、“肩部褶皱”、“肩部蓬松”等来发起查询。
如果始终采不到足够多的样本,可以考虑知识点合并或抛弃。例如,淘宝后台的风格标签中曾有“宫廷风”一项,在实际中“宫廷风”的衣服极少;又如在设计师语言中,袖型有“郁金香袖”一项,实际商品过少,对这些情况我们都做了抛弃。这即是对知识体系的略微修正。
如果某标签很重要,但专家认为不能抛弃,比如某些前瞻性的设计要素,我们还可以为该标签做“悬赏”:在众包平台发布付费任务,由大众来收集图像。使用众包平台来完成数据标注和采集任务,近年来发展迅速,已逐步进入实用。
当引入各种手段来获取数据时,要警惕一种情况:结构化噪声。
什么是“结构化噪声”呢?要从数据采集说起。数据采集都是“有组织”的获取数据,从信息论来说,“有组织”意味着系统性的引入了新的信号,这种信号可能是噪声。例如某些网站的每张图片都有该网站的Logo,网站Logo对于数据集就是一种“结构化噪声”——称其为“噪声”,是因为这类信号与想要的知识无关;称其“结构化”,是因为噪声信号是由采样方式引入的,是一种带有结构的系统化引入。将带有结构化噪声的数据投给机器,模型会学到错误的相关性,是我们要努力避免的。
例如,斯坦福大学的Novoa博士讨论过一个“肿瘤”和“尺子”的例子[5],当皮肤科医生在怀疑一种病变是肿瘤时,会借助尺子来准确的测量大小,尺子会留在照片里,见图11;模型会学习到“尺子”和“肿瘤”具有相关性,而这种相关性在实际情况中显然是不存在的。
图11. 包含有尺子的皮肤病变照片(图片来自网络)
结构化噪声的引入并非都显而易见。例如,在购物引擎里搜索“圆领”的衣服,夏天搜到的可能多是T恤,而在冬天搜索得到的多是毛衣,不留意的话,“圆领”标签下就都是同一季的衣服;又如,在使用众包收集图像时,贡献者可能偏向某个特定的网站,该网站图片的特定样式就被带进了数据库。
因此每当引入一种采集数据的手段时,都要小心观察所获取的图像的共性,分析这个共性部分与标签的相关性。如果相关性很强,则不是噪声,例如采集“翻领”时使用“外套”做扩展,因为翻领是在衣服的开襟上设计的,而开襟的衣服一般都是外套,“翻领”和“外套”有强相关性,所以不是噪声。如果相关性很小,例如网站Logo,则显然是噪声,我们可以对图像做处理,去掉Logo区域。如果实在无法去除,可以考虑放弃这种采集方式。
此外,我们还会在第四步建模环节利用模型来检测结构化噪声,将在下文介绍。
样本稀缺还有一种典型的情况,例如文字识别领域的生僻字。全体汉字超过一万个,常用字有3500个,其余的称为生僻字。生僻字在普通语料中极少出现,如果对语料做均匀采样或随机采样,将出现样本量越大、生僻字比例越低的情况,用来训练模型,生僻字的识别能力反而下降。在这种情况下,“采集”的方式已经失效,需要用“生成”的方式:用机器制作生僻字的“人工合成”图像。我们用“生成”方式来制作样本始于三年多前,最初用规则式的生成,即把生僻字的各种形变写成规则由机器来模拟;后来在一年多前开始尝试“对抗生成”[6]。这个方向称为“少样本学习”或“小数据学习”,最近一两年开始被普遍关注,这里不展开讨论。
3.4 第三步:采集好的图像与知识点做关联
在第三步,标注人员学习规则,对采集好的数据进行标注。如果资源有限,算法人员也往往就是标注人员。对一些简单任务,上一步中图10里的“人工筛选”就已经完成了实质的标注工作。
这一步主要要考虑标注人员的学习成本和标注效率。通过标注人员的反馈,算法人员一方面改进规则、补充图例,对标注人员反复出现疑问的地方,考虑知识修正;另一方面,改进标注工具,包括流程、交互、预处理等,以提高标注效率。
经过第一步和第二步,知识体系中不合理的地方已经大部分得到解决。如果在第三步中标注人员仍有困扰,往往困扰的地方可以引发我们深入思考、产生对数据更深的理解。
例如,我们需要判别图12中这件毛衣是“七分袖”、“九分袖”还是“长袖”。仅看最左的平铺图的话,只能得出衣长和袖子的比例,无法判断确切的袖长;而如果单看最右这张模特图,袖子是撸起来的(这在针织衫中常见),我们也无法判断袖长;直到看到中间这幅图的上身效果,我们才能判断是“长袖”。
图12. 毛衣的三种照片
这启发我们思考商家做如此拍摄的用意:拍摄平铺图是用来展示衣服的物理属性,而拍摄模特图是用来展示穿着方式和穿搭理念——这两方面的知识对于理解衣服都是必要的,模型都要学习到。
我们再审视袖长的命名方式:“七分”、“九分”都是相对胳膊说的,人体是天然的尺子,在人体上才能得到准确测量。我们要给出成对模特图和平铺图,标注人员才能做准确标注。回想上一节中“结构化噪声”的例子,活检照片中的尺子,在那里是噪声,而在这里是合理的:因为衣服是为人服务的。
再举一个例子,见图13,我们要标注这件衣服的“下摆左右端点”和“衣长”。可这是“一件棕色针织衫内搭一件白色衬衣”呢,还是“一件有白色衬衣下摆的棕色针织衫”?
图13. 一件“假两件”的上衣
这种“假两件”衣服并不少见,一度是标注人员的困扰。如上文所述,我们认识到衣服展示有“物理属性”和“穿搭理念”的差别,就“假两件”来说,经过仔细讨论,我们认为这类图片意在表现穿搭理念,应从整体视觉效果考虑,把“假两件”判为一件,衣服下摆的左右点在白色部分,而衣长是“正常”。
经过第三步,我们对知识和数据的理解更深了。
3.5 第四步:利用模型做迭代
好消息是终于走到了最后一步,坏消息是还要走回头路。
在第四步,算法人员把标注好的数据投给机器,做模型的训练和评测。假设算法人员的建模调参的手艺没问题,那模型就该在一定程度上反映数据集的质量好坏、哪里有缺陷,如同一面能隐约成像的镜子。以模型为
鉴,就可以迭代改进数据集。如下图所示。
图14.四个步骤的迭代示意图
(1)从D到C的迭代,关键词是“校验”,校验的是标注人员的标注质量。通常我们不会把所有数据都标注完才投给机器去训练,而是分批次标注。假设有10000个样本,我们会分2000、3000、5000三个批次。前一个批次的样本投入训练,如果模型的训练准确率达到满意,说明标注质量合格,才进行下一个批次的标注;否则要总结经验、重新标注。这样可以减少标注的试错成本。
(2)如果标注质量始终不过关,要检查数据采集中的问题。实际上,我们正是利用从D到C再到B的迭代,来应对数据采集中的“样本稀缺”和“结构化噪声”问题。如下图所示。
图15. 利用建模来采集稀缺样本的流程图
我们会模拟真实使用场景,进行随机采样,这样得到的样本于环节A和B无关,我们称之为“真实场景采样”。我们把“真实场景采样”放到训练好的模型中去运行一遍,这个过程称为“预测”。预测结果经过人工审核后,如果效果达到满意,就说明模型被训练得不错(即训练数据不错),数据集的“结构化噪声”得到了较好的抑制;如果预测效果不佳,说明数据集中欠缺某方面的训练样本,那把错例补充回数据集,继续训练,并更新真实采样后再做预测,直到效果满意为止。
这个过程既是克服“结构化噪声”的过程,实际上也是一种补充稀缺样本的方法,已成为我们采集数据的常规手段之一。
(3)如果需要回溯到环节A,说明知识体系中的问题跨过了第二步“采集”和第三步“标注”,直到第四步“建模”才暴露出来,这即是人的隐藏很深的认知缺陷,由机器映照出来。这种例子很少,我们在女装“风格”数据集的建设中遇到过。
“风格”是最重要的女装属性维度之一。如上一章介绍,生产商、电商平台、零售商各有其风格体系。我们最初拿到的是平台运营的风格体系,当时就认识到这套体系有诸多不合理、受主观因素和个人影响很大。
这体现在标注过程中,一位服饰专家在第一天标注1000张图,第二天再标注同样的1000张图,结果就差异很大:同一件衣服第一天标“欧美风”,第二天就标“高贵风”。即使身为专家,她也从来没有集中式看过这么大规模有组织的数据;而前后结果的差异表明,当在数据的标注过程中,人的印象被重塑了。
但也没人能告诉我们,合理的风格体系应该长什么样子,只有以这套充满问题的风格体系为起点,采集、标注、建模,通过模型暴露问题,再反馈到专业人士,思考讨论、加深理解,修正体系甚至推倒重建。
从环节D回溯到环节A,这个过程很长,要几个月时间。我们经过了三次大的迭代,花了一年半的时间,才得到一个勉强可用的风格体系。而建设第二章中理想化的层次式风格体系,是大得多的挑战,我们才刚刚开始。
我们的体会是:知识并非生来严谨,而是从混乱中走来。人的认知缺陷,可以通过机器映照出来、加以改正,人和机器在彼此学习,这是AI时代之前不曾见到过的。
四. 确定性能的“指标”
数据集是用来训练和评测模型的。数据集标注好之后,还应有一套用来评测模型的方法,就是“指标”。知识、数据、加上指标,才是一个完整的数据集。好的指标也体现了对于“实用”数据集的追求。
最基础的指标是准确率(P)和召回率(R),常用在搜索和分类任务中。假设模型找回的8个结果中有4个是正例,而数据集里总共有10个正例,则准确率P=4/8=50%,召回率R=4/10=40%。P和R是一对相互制约的指标,共同刻画模型的能力。
一对(P,R)值对应是模型在固定一组参数时的表现。通过调整模型参数,可以得到一系列的点,就连成一条“P-R曲线”,该曲线可以更全面的体现模型能力,人们用一个值“AveP”来表征,可以把AveP简单理解为“在一个纵轴为P,横轴为R的坐标系里,P-R曲线下方的面积”,面积越大越好。目标检测比赛VOC从2010年后采用的指标就是AveP。
在搜索和分类任务中,识别结果就是一个实例,正例就是识别的标签与标注的标签一致。在有些任务中,如目标检测,识别对象是一个区域,这时要多一个指标IoU。IoU描绘了识别区域与标注区域的面积重合情况,数值上就是二者交集与并集的面积比。IoU高于一个阈值则是正例。业界通常选取IoU>0.5,例如ImageNet比赛[7]就使用IoU>0.5。在我们的一个商用的图像搜索系统中,选择的是IoU>0.7。
当识别对象是一个序列时,如字符串,由于次序本身也是信息的一部分,就需要更精巧的指标。在文字识别和语音识别中,普遍采用“编辑距离”作为指标,即一个字符串经过多少次“增”、“删”、“改”的操作可以变化为另一个字符串。例如,“aboc”和“obac”之间差距为2次“改”,编辑距离为2;“真图像和美”和“图像与美好棒”差距1次“删”、1次“改”、2次“增”,编辑距离为4。如果简单统计字符出现次数的话,“aboc”和“obac”的准确率和召回率都是100%,显然和实际不符。
评测指标还有很多,例如搜索中的R@N,这里不赘述。另一方面还要根据情况划分难度,例如目标检测中按照图像背景复杂度分档,文字识别按照拍照质量分档等。业界在评测方法上有很多经验,也在寻求越来越贴近实际情况的做法。在最近的比赛COCO[8]中,一方面会考察模型取不同IoU阈值时获得的AveP值,另一方面也会根据检测物体大小的不同而区别对待。这些做法使数据集被更合理的结构化了,也可视为数据集建设的一部分。
这里补充一些我们的经验。有的服饰属性维度如“领型”,包括“圆领”、“方领”等标签,识别结果的对和错,就是1和0的关系;而有的属性维度如“袖长”,从短到长有7个标签,加上前文提过的“不可判别”,一共8个标签:“不可见,杯袖,短袖,五分袖,七分袖,九分袖,长袖,超长袖”,如图16所示。我们对
“袖长”的评测方法做了两步细化。
图16.袖长的标注标准示意图
首先,在“是(Y)”和“否(N)”之外,还设立了“模糊(M)”。如果一件衣服出现在图16中黑点的位置,那么对应上面的8个标签,标注结果会是(N,N,N,N,N,N,Y,M)。这使得对边界点的判别更加合理。
进一步观察,把“九分袖”错判为“七分袖”,和错判为“短袖”,错误程度是不同的,应区别对待,我们就引入了标签距离,把标注结果细化为(0,0,0,3,5,7,10,8),这样更贴近实际情况。
可以看出,指标体系的丰富和细化,其实是知识的一层更精细的表达,数据集要走向实用,要重视这些细节。
五、总结
综上所述,我们介绍了如何做一个“实用”的图像数据集。
我们首先强调了“用途”的重要性:用途是看待事物的视角,是取舍的依据。
其次,我们讨论了数据集建设的三个方面:
知识:专业知识的引入是必要的;知识的用途发生了变化,制作者要和专业人士一起来重建知识。
数据:从知识到数据,是反复迭代的过程;知识重建贯穿到了采集、标注、建模等所有环节;机器参与到知识重建的过程中来,这是前所未有的新情况。
指标:指标可以承载知识的一些更精细的层面,好的指标应在细节上更贴近实际。
制作实用的数据集,不仅是为了AI走向落地,也是计算机视觉自身发展的需要。以我曾接触过的图像技术领域,人们在很多有潜力的议题上浅尝辄止,这其中有工具不得力的原因,另一大原因是研究的基础——数据集——制作不严谨,基础不牢靠,让后来者难以为继。也难怪,倒回去十年,从事计算机视觉的人,吃饭都困难,学生毕业后往往要转行,何谈做一个实用的数据集。
今天情况已经不同,工具发展了,资源丰富了,计算机视觉在走向一门成熟的学科。科研无外乎两件事:1. 制备实验对象、做观测;2. 分析总结、抽象出理论。计算机科学从诞生始,不被视为“科学”,而是“工程”。今天计算机视觉火了,而工程的味道比过去更浓,因为现在正处于工具——深度学习——大发展的时代。长远来看,学科要发展,制作数据集上必然走向更严谨,AI从业者应更有勇气、承担责任,才不负时代的期望。
作者介绍
贾梦雷,1998年至2005年就读于中国科学技术大学,取得本科及硕士学位。毕业后曾任职于微软亚洲研究院和搜狗。于2008年加入淘宝,创立了阿里巴巴最早的图像技术团队,构建了阿里集团内部应用广泛的图像技术基础设施,外部知晓的产品有图片保护产品“八载”、文字识别产品“读光”、以及时尚与AI结合的 “时尚之心”(FashionAI)。
本文谈及的经验基本都来自 “时尚之心”。大家在年内可以在手机淘宝上用到“时尚之心”支持的应用,并可以去线下体验FashionAI门店。FashionAI全球挑战赛也在如火如荼的举行中,大家可以从以下网址获取FashionAI数据集:
http://fashionai.alibaba.com/datasets
鸣谢
感谢阿里巴巴“图像和美”团队的全体成员,尤其是“时尚之心”项目的同学,包括段曼妮、孔祥衡、曹阳、石克阳、王从德、王永攀等,都参与了写作。此外,感谢香港理工大学的黄伟强教授及邹星星同学,在时尚专业知识方面对项目及本文多有贡献。
文献
[1] LFW人脸数据集:http://vis-www.cs.umass.edu/lfw/
[2] ChestX-ray8医疗影像数据集:https://arxiv.org/abs/1705.02315
[3] Luke Oakden-Rayner的博客:https://lukeoakdenrayner.wordpress.com/2017/12/18/the-chestxray14-dataset-problems/
[4] DeepFashion数据集:http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html
[5] “肿瘤”和“尺子”的例子:https://amp.thedailybeast.com/why-doctors-arent-afraid-of-better-more-efficient-ai-diagnosing-cancer
[6] 对抗生成学习:https://arxiv.org/abs/1511.06434
[7] ImageNet数据集:http://www.image-net.org/
[8] MS COCO数据集:http://cocodataset.org/