“化学民工”面临被AI抢饭碗,这个时代不狂奔就会被luo奔!
【研究背景】
目前大量的化学实验仍然需要人类研究员进行操作。因为移动,混合,蒸馏萃取等常规操作都需要人类视觉分辨实验容器和材料。人类可以凭借视觉观察判断材料种类,填充程度,不同相的混合以及组成(液体,固体,泡沫,悬浮液,粉末等)。而这些人类的常规操作对机器来说还存在着较大挑战。因此机器视觉系统的开发研究对实现自动化实验室系统十分重要。
迄今为止,经典的计算机视觉算法主要依靠边缘或颜色来识别物体和材料。尽管这些方法在简单的条件和受控的环境中可以取得良好的结果,但在复杂的实际场景中却失败了。近年来,卷积网络(CNN)彻底改变了计算机视觉领域,引导了从无人驾驶到医学成像等众多新应用的开发。理论上来说,对CNN进行大量特定任务的示例训练后,可以实现近似人类级别的物体和场景识别。
近日,Sagi Eppel, Haoping Xu, Mor Bismuth和 Alan Aspuru-Guzik等人在ACS central science期刊发文表示创建了一个针对化学实验室视觉识别的数据集Vector-LabPics。该数据库包含了实验室环境中常见的2187张图像,每个图像都有对应的材料及区域注释。同时,在此基础上训练出了三种不同的神经网络:Mask R-CNN,GES和FCN。
Vector-LabPics数据集
创建大型的带注释的数据集是为特定任务训练深度神经网络的关键部分。用于图像识别的数据集要保证图像多样性,反映尽可能多的不同情况。数据集越多样化,在该数据集上训练的神经网络越有可能能够识别出不属于数据集的新场景。Vector-LabPics数据集的图像来源包括Youtube,Instagram和Twitter的化学实验视频。另一个来源是作者在各种日常环境中拍摄的图像。如图1所示,每个实例段可以重叠,如固相浸入液相,两相重叠。数据集还包含不重叠的简单状况,在这种情况下,每个像素只能属于一个分割。
图1.(a)重叠的实例分割。在重叠的情况下,重叠区域标记为正面(绿色)或背面(红色)。(b)非重叠实例分割:每个像素只能属于一个分割。
图2. 来自Vector-LabPics数据集的互斥实例分割图。分割由三个通道组成:容器,材料相和容器部分。同一通道不能重叠。
实例数据集包含三个通道:容器(烧杯,量筒),材料和容器的部分相(标签,瓶塞,零件等)。同一通道中的相不能重叠,但材质和容器之间可能会重叠。更细的说,每个图像不作为实例看待,而是分为几类,每类具有对应的二进制映射包含了该类的所有像素。该语句具有一个缺点:不能分离同一类的不同实例,如相邻的容器或者相分离的两种液体。
图3:来自Vector-LabPics数据集的语义分割图示例。每个类别都有一个二进制分割图,覆盖了属于该类别的所有像素。缺点是不能分辨同一类的不同实例。
语义和实例分割
为了克服上述问题,可以使用语义或实例分割来找到图像中不同物质相的区域和类别。实例分割涉及了将图像分为不同对象的区域,从而可以分割不熟悉的材料。Mask R-CNN 和GES 即是其中的两种类型。Mask R-CNN是根据几乎所有主要基准进行实例分割,GES网络是用于实例和全景分割的另一种方法。
语义分割是预测图像中与该类对应区域的二进制图。这种基于类别的分割方法的主要局限性在于,它无法从同一类别中分离出不同的相或对象实例,例如相分离的液体或相邻的容器(图3)。但该方法更容易训练和运行。
图4.(a)使用Mask R-CNN进行单步分割,以同时找到容器和材料实例;(b)对物料实例进行分层分割。
分层与单步细分
另外还可以通过单个步骤中找到容器和材料,再通过第二个系统查找容器内的材料来完成识别,该方法即为单步细分(如图4)。分层图像分割方法包含三步:1. FCN语义分割一般区域;2. GES网络分割实例;3. 在2中找到使用另一个GES分割(图4b)。
分割和细分结果
图5. 语义分割的结果。预测(Pred)结果标记为红色,而实际(GT)注释标记为绿色。
图6. 实例细分的基础事实和预测结果。
图5显示了语义分割的结果。对于图像中的容器区域,填充区域和液体区域的分割,该算法实现了良好的精度(IOU> 0.8),而对于固体分割,则为中等精度(IOU = 0.65)。这些结果在各种材料,容器,角度和环境中都是一致的,这表明在学习识别这些类别时,网络能够实现较高的概括性。对于其余的子类,算法的准确性较低(IOU <0.5)。这归因于子类的训练实例数量少,以及不同子类之间的视觉相似性高。图6中显示了实例感知分割的结果。对于大多数类型的材料,该算法在识别和分割方面都取得了良好的性能。即使对于相对罕见的类别(例如气相和颗粒相),也是如此,这意味着该算法能够识别和分段,因此它不依赖于特定的材料类型。
【结论】
在本文工作中介绍了一套针对化学物质和Vector-LabPics数据集量身定制的计算机视觉方法。在该数据集上训练了几个卷积神经网络后,该网络在各种系统中对容器以及液体和固体材料的分割和分类都具有良好的准确性。但是,仍然存在识别细粒度的材料子类(如悬浮液,粉末和泡沫)的能力相对较低,精度有限。因此,为了提高精度,需要不断扩大数据集的样本数,最终实现常规条件下对实验室场景的完全识别。
Sagi Eppel, Haoping Xu, Mor Bismuth, and Alan Aspuru-Guzik. Computer Vision for Recognition of Materials and Vessels in Chemistry Lab Settings and the Vector-LabPics Data Set. ACS Central Science, 2020, DOI:10.1021/acscentsci.0c00460