NPJ Digit Med｜一种基于AI的数据标注系统，用于生物数据注释

Original 智药邦智药邦 2022-06-15

为AI模型获取大规模带有高质量注释的数据仍然具有挑战性。

2021 年 10 月 7 日，npj digital medicine杂志发表文章，介绍了一种数据标注系统，该系统基于AI，可以减少注释者的工作量，同时提高注释的质量。

以下是全文主要内容。

摘要

生物学已成为部署深度学习和人工智能(AI)的主要领域，这在很大程度上是由该领域所能产生的海量数据集所促成的，大多数AI任务的关键是可用来训练AI模型的足够大的标记数据集。利用显微镜等技术很容易生成包含数百万个细胞和结构的图像数据集。然而，为AI模型获取大规模带有高质量注释的数据仍然具有挑战性。

为此，研究者提出人类增强的标注系统（Human-Augmenting Labeling System，HALS）的概念，HALS是一种人参与其中的数据标注体系。它从未初始化的情况下开始并实时学习人类的注释。HALS使用由三个深度学习模型组成多重AI模型，仅从几个示例中学习，可以及时减少注释者的工作量，同时提高注释的质量。本研究利用4个常见的细胞和两个组织染色类型，结合7名生物标本显微分析领域的病理学家专家的实验数据，展示了HALS体系如何减少90.60%的工作量，并且将平均数据注释质量提升了4.34%。

前言

组织、细胞和其他相关生物样本的显微成像是许多生物学和医学研究领域的关键。人们围绕生物成像开发了高度复杂的工具和工作流程。例如从基础研究到医学诊断都在使用的分子染色方案，它可以选择性对不同组织进行化学染色(如细胞类型、结构、类器官等)。此外，样品制备在许多领域已高度标准化(例如组织病理学分析中的制片)，从而实现了数据的大规模数字化。

数字化推动了使用多种技术分析数据的计算方法的进步。深度学习方法在最近十年的兴起，推动了那些能够产生丰富数据领域的进步。视觉生物学（Visual biology）是部署基于深度学习的计算机视觉（computer vision, CV）技术的重要领域。CV在组织切片上显示了医师级的诊断性能，远超经典技术的细胞分割性能，具备像化学染色一样精确地对原始显微图像进行虚拟染色的能力。

监督学习（Supervised learning）一直是CV在生物学上成功的典型，它利用数据点(如组织病理学图像)训练计算模型和数据注释。生物学家具有能够产生大量数据的显著优势，单个显微图像可以产生千兆字节的视觉数据供算法学习，然而却无法有效的对数据进行完整的注释。ILSVRC（ImageNet Large-scale Visual Recognition，一项标注比赛）针对的是对象分类、定位和检测，它给挑战者提供了来自1000种对象的约1百万的图像数据，这使得其可以使用来自成千上万的非专家用户的数据注释信息。相比之下，计算生物学竞赛通常只提供数百到数千个标记实例，关键的瓶颈是注释者需要具备一定的专门知识水平，而且注释比传统的领域需要更长的时间，因此很难获得大量的注释数据。

在这里，研究人员提出了一个人类增强的基于AI的标注系统HALS，在这个系统中，最初未经训练的深度学习模型从人类演示中学习并且训练自己，同时也帮助增强人类的标注能力。其效果是在保持注释质量的同时，减少了用户的整体工作量，使以前受到成本过高限制的数据集能够得到注释。该系统由三个不同的AI模型组成，它们协同工作，很容易集成到任何基于图像的标记工具中。

在具有挑战性的和普通的标注案例中，研究人员证明了HALS可以显著提高标注速度，并适度提高标注质量。首先，他们配置了一个数据标注界面，它包含三个深度学习模型（分割模型、分类器和主动学习器），它们同步工作可以完成一些任务（1，学习注释器提供的标签。2，向注释器提供建议，以提高其速度。3，确定下一个最佳的数据标注，以提高注释的整体质量，同时最小化总的标注负担）。这些模型在不需要人为干预的情况下被动工作。基本上，一个不精通计算的生物学家也能够训练他们自己的个性化AI，以支持工作流和下游AI开发。

为了建立人类增强的近似下限，我们与训练有素的专家合作，对具有挑战性的任务进行实验。具体来说，我们选择了在组织图像上进行细胞注释的任务，一个高度重复、时间密集型的任务，它在生物学的各个领域有着广泛的运用。同时研究人员选择了病理学家作为注释者。我们认为，如果这种方法能够在具有挑战性的任务上进训练有素的专家注释，那么在较简单的任务中，它很可能也能推广到训练较少的注释者。

研究人员用两种染色方式H&E和IHC对四种不同的细胞进行标记任务，与美国斯坦福大学和加州大学旧金山分校( UCSF )的7位病理学家合作开展实验。研究表明，HALS系统可以将注释者的工作量平均减少90.6%，且轻微提高了（提高了4.34%）数据注释的有效性。有效性是将基于HALS标注数据的人工智能训练的准确率的AUC值，与未经人类增强训练的人工智能的AUC值进行比较来确定的。这项研究贡献的不是一个新的界面，而是一个可以整合到标注界面的人工智能系统，用于增强人类的能力。

结果

系统框架

研究者构建的HALS系统框架如图1所示。给定一个大的显微图像，如组织病理学全滑片图像，注释器将从小区域内的点标记开始。然后，一个未经训练的分类器就会开始对注释进行训练。一旦分类器看到足够的数据每个类的10个数据点被注释，它就开始执行两个函数。

首先，它向注释者提出建议，注释者可以接受或更改这些建议。实践中，我们发现，随着分类器精度的提高，建议与注释者提供的标签变得不可区分，注释的速度明显加快，注释者可以扫描一组建议，赞成/不赞成的速度远远快于他们可以单独注释每一点。

其次，分类器将带标记数据点的方形图像块转换为特征向量，并将其输入到主动学习模型中。主动学习器将这些特征向量连同图像中剩余单元格的外接方格中的特征向量一起用于确定下一个最佳的标注补丁。这两种模型的净效应实质上是引导注释者围绕图像，从多样且具有代表性的点进行集中快速采样。与剩余的系统架构一起，它们形成了包含人类的AI系统，从人类演示中学习并且进一步提升了人类的注释性能。

图1. HALS：基于人工增强的AI标注系统。作为人类注释器标注数据，一种主动学习算法通过识别下一个最佳视觉特征来进行标注，将注释器穿梭于图像周围。同时，其他人工智能提出标注建议，旨在显著加快标注速度。

HALS中对一幅图像进行注释所需的具体技术步骤被分解成两个部分：(1)数据预处理步骤，为增强注释做好图像准备；(2)通过AI增强的注释接口进行人类的注释。本系统的结构如图2所示。

HALS的系统架构(图2b )是通过一个配备了两个深度学习算法的显微镜标记界面构建的，一个分类模型和一个主动学习模型。我们使用SlideRunner开源标签界面，利用PanNuke数据集进行预训练ResNet网络作为我们的分类器，用Corese方法进行主动学习。Reset网络和Coreset都是图像分类和主动学习中最先进的模型，PanNuke是具有205343个注释细胞的数据集，能足够有效地预训练本次任务。

这些组件中的每一个都是完全模块化的，并且可以很容易地用不同的标签界面替换。一旦注释器开始标记数据点(绿色和蓝色边界框，图2b )，系统将这些数据点与未标记数据池一起存储，并在这些标签上进行微调分类器。一旦有足够多的点被注释(在我们的例子中，大约30个点)，分类器就开始在界面( 淡蓝色和淡绿色包围盒 ,图2b )中呈现预测，注释者可以接受或拒绝。

此外，分类器对所有数据进行前馈传递，并将其合成的特征向量（细胞的高维表示）反馈给主动学习器。然后，该模型从未标记集U中确定一个未标记子集S，它是最大多样性的，并且期望能最大程度地提高在L + S上训练的模型的性能和泛化能力，其中L是标记数据。子集被送回标记接口，该接口选择包含S最多点的补丁作为下一个区域补丁进行注释。

图2. HALS系统架构（a）数据预处理。数字图像首先通过一个深度学习模型(HoverNet)进行预处理，该模型对每个单元格进行分割并生成包围盒。然后通过一个带有两个AI模型的标记接口，实时地使用图像和包围盒来增强和加速专家标记。(b)实时AI增强框架。

实验

为了分析HALS对数据注释的影响，我们进行了两个实验，来测试HALS对注释工作量的改进以及注释数据的有效性。

注释工作量。在这里，专家被要求在图像中搜索一个包含约200个细胞核(30×放大倍数)的组织块，这些组织块的类别大致平衡。每个注释者随机选择一个不同的补丁。他们如上所述用AI增强来注释补丁，修正了AI预测的一小部分。修正后的分数定义了他们的工作负载。在工作负载=1的限制下，这相当于没有人工智能的支持，所有的标注都由人工完成。相反的在工作量=0的限制下，这相当于没有注释者执行任何注释。

注释有效性。在本实验中，专家开始标注每类20个单元格，以初始化分类器。然后他们开始标记细胞，跟随并修正分类器的建议，同时被主动学习器引导到图像周围。作为对照，他们在同一界面上重复这个实验，但所有深度学习模型都被取消。

对于案例的每个实验，我们测试了来自斯坦福和UCSF的7位病理学家 (见图3)的结果：

图3. 实验案例。由于细胞注释具有高度的重复性，且难以完成数据注释，例如组织切片中可能含有90万个细胞。4个用例突出了该方法跨越染色类型和细胞类型的可推广性。由左至右：由注释者确定的肿瘤浸润淋巴细胞( TILs )、肿瘤细胞、嗜酸性粒细胞和任意大小的Ki-67染色细胞。上行显示指定类型的示例单元格(正)，下行显示其他所有类型的示例单元格(负)。

1 .肿瘤浸润淋巴细胞[H&E]：足够密度的TIL的存在可以提供预后信息，并有助于测量对治疗的反应。

2 .肿瘤细胞[H&E]：量化组织样本中肿瘤细胞的比例是一项具有挑战性的任务，受到病理学家的影响，对治疗决策和诊断具有价值。

3 .嗜酸性粒细胞[H&E]：嗜酸性食管炎是一种慢性免疫系统疾病。量化嗜酸性粒细胞对于诊断是必要的。

4 . Ki-67 [IHC]：Ki - 67染色是细胞增殖的标志。肿瘤细胞阳性与阴性的比例可以有预后意义。

在每个案例中，注释器标记两类细胞：(1)感兴趣的细胞类型和(2)组织中的所有其他细胞。所有四个用例图都是具有诊断价值的真实案例。前3种染色采用[H&E]染色，第4种染色采用[IHC]染色，选择性地显示不同染色类型的可推广性。

这些实验结果汇总于图4a的表中。使用HALS时，整个病理学家的工作量减少幅度从66%到100%不等。平均工作量减少90.6%。直观地说，在两个类之间视觉差异较大的任务上，减少的工作量更大。嗜酸性粒细胞(减少83.1% )是一种具有多巨分叶核、颗粒状嗜酸性胞浆的白细胞，易与红细胞混淆。相比之下，肿瘤细胞(94.9%)、TILs (91.3%)和Ki-67细胞(93.3% )都倾向于在各自的背景中脱颖而出。跨案例的个体工作量如图4b所示，在每个案例内都可以观察到一些变异性。

图4.实验结果。（a）所考虑的四个用例( TIL、肿瘤细胞、嗜酸性粒细胞和Ki - 67细胞)的平均工作量减少和效率提高，共平均减少90.6 %的工作量和4.34 %的效率提高.（b）对来自斯坦福大学和加州大学旧金山分校的7名专家的工作量结果。（c）有效性结果。

在使用HALS时，病理学家的有效性提高幅度为1.38%~6.43%，平均为4.34%。标注数据集的有效性定义为使用该数据集训练的模型的验证精度与训练样本数(N < 200)的曲线下面积(AUC)。这样一条曲线的AUC可以直观地衡量数据集在多快的时候变得足够的质量来学习手头的任务。AUC越高，一个模型收敛速度越快，学习恰当分布所需的数据点越少。该值对在注释数据集上训练的模型精度提高的确切影响是AUC曲线的各个形状的函数。

图5. 精度衡量曲线以及AUC比率

图5显示了一个带有HALS注释的数据集与一个没有HALS注释的数据集的比较图，他们的AUC比率为5.3 %，用HALS的50、75和100个训练样本训练的模型模型精度分别提高了11%、11%和5%。鉴于相对较小的数据集规模，这种性能提升受到噪声的影响。结果表明HALS适度提高了数据注释质量，同时显著改善了注释工作负载。

讨论

本研究提出了HALS体系，旨在实时地向人类数据注释者学习，同时反馈并增强他们的注释能力，提高他们的注释速度和注释效率。它采用模块化设计，易于集成到标准的图像标注界面中。使用4个高重复性的二分类案例，并与专家病理学家注释人员合作，我们展示了HALS平均减少90.6 %的标记工作量和平均提高4.34 %的标记有效性的能力。

尽管这些实验集中在二分类案例上，但并没有限制使用该方法可学习的类数。未来的工作可以探讨增加类数可能对注释工作量和有效性的影响。此外，该系统中的分类器可以替换为检测或分割模型，以扩展超出分类的任务类型。该方法的一个关键限制是依赖于实时学习精确的对象分类，这要求图像包含足够多的感兴趣对象的示例。对于大型或罕见的图像工件，如完整肿瘤等可能需要在系统中集成小样本学习的额外技术。

HALS减少数据标注的时间和成本，使得以前无法涉及的重要领域能够跨越障碍，进行AI模型的开发。HALS可以为生物学家提供数据分析服务，使他们能够以最少的计算知识在特定的案例上收集高质量的数据集，用于人工智能模型的训练。未来在该方向的工作将涉及跨任务和图像类型扩展系统的能力。这可以通过处理更复杂的生物靶标，不同的染色类型，或三维图像来实现。最后，在HALS的基础上增加计算层，使其成为一个分布式的自动ML风格的平台，可以自动检测感兴趣的任务，选择最佳的预训练模型和模型类型，并同时向多个注释器学习。随着这种类型的技术在研究社区的成熟，减少数据注释的时间和成本，生物学的更多领域将开始受益于人工智能数据分析。

参考资料

van der Wal, D., Jhun, I., Laklouk, I. et al. Biological data annotation via a human-augmenting AI-based labeling system. npj Digit. Med. 4, 145 (2021). https://doi-org.xjpgl.80599.net/10.1038/s41746-021-00520-6

----------- End -----------

感兴趣的读者，可以添加小邦微信（zhiyaobang2020）加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或

姓名-学校-职务/研究方向。

- 历史文章推荐 -

【药物设计】

●JMC｜用于从头药物设计的生成模型

●Drug Discov Today｜人工智能增强的药物设计和开发：迈向计算型精准医学

●Drug Discov Today｜用于从头药物设计的图神经网络GNN

●Nat Commun｜AI结合基因表达特征，从头生成类苗头化合物

●BioRxiv｜基于表型和化学结构预测化合物活性

●Drug Discov Today综述｜分子从头设计和生成模型

●Nat Comput Sci综述｜生物分子建模在技术时代蓬勃发展