查看原文
其他

数据与人工智能(一):合成数据的特点及其应用

CFIEC 数据信任与治理
2024-09-16


  编者按 


据Gartner估计,到2024年,在人工智能和分析项目中,60%的使用数据将由合成产生。到2030年,在人工智能模型中,合成数据的使用将超过真实数据。



在人工智能时代来临的背景下,数治君对“合成数据与人工智能”进行系列研究,本文作为第一篇,旨在分析合成数据在人工智能中的使用场景和优势、风险与防范等基础背景。在下一篇中,我们将介绍合成数据的产业与市场现状、发展趋势以及对现有规则和技术的挑战等议题。




1

合成数据的概念及类型
合成数据是人工生成的信息,而不是由真实世界的各类自然事件产生的信息,其与从自然事件中收集的真实数据相对应。合成数据通常由算法创建,并通过计算机程序生成。
合成数据旨在为软件开发人员和研究人员提供类似于真实数据的数据,人们通过部署合成数据来验证数学模型、训练机器学习模型以及测试软件应用程序,并且以上操作不会损害真实的个人数据。

1.2. 合成数据的通用类型

一般而言,合成数据有三种类型,分别是虚拟数据、基于规则生成的合成数据、人工智能生成的合成数据。

1.2.1. 虚拟数据/模拟数据

虚拟数据,又称模拟数据,即随机生成的数据。例如,通过模拟数据生成器产生的数据。因此,原始数据中的特征、关系和统计模式,不会在生成的虚拟数据中保留和再现。与原始数据相比,虚拟数据的代表性最小。

1.2.2. 基于规则生成的合成数据

基于规则生成的合成数据是由一组预定义的规则生成的数据。预定义的规则可能是用户希望获得具有最小值、最大值或平均值的合成数据。用户希望在基于规则生成的合成数据中重现的任何特征、关系和统计模式都需要通过预先定义来实现。
基于规则生成的合成数据会产生一定挑战。首先,合成数据只能捕获一组有限的规则。此外,当设置多个规则时,通常会导致规则的重叠和冲突。再者,用户无法掌握所有相关的规则。因此,有可能存在用户不知情的规则。最后,规则定义需要花费大量的时间成本,进而导致解决方案效率低下。

1.2.3. 人工智能生成的合成数据

顾名思义,人工智能(AI)生成的合成数据是由AI算法生成的合成数据。AI模型在原始数据上进行训练,以学习所有特征、关系和统计模式。在此基础上,AI算法能够生成全新的数据点,并对这些新数据点进行建模,从而重现原始数据集中特征、关系和统计模式。这就是我们所说的“合成数据孪生”。
AI模型模仿原始数据生成合成数据孪生,可以像原始数据一样使用,并解锁了各类应用场景。AI生成的合成数据可作为存在一定敏感性的原始数据的替代方案,并用作于测试数据、演示数据或者分析数据。

2

合成数据的应用场景


合成数据具有广泛的用途,因为它几乎可以应用于任何机器学习任务当中。合成数据的常见应用场景涵盖了自动驾驶车辆、安全监测、机器人、欺诈保护、医疗保健、新产品测试,以及最基础的模型验证与训练,以下对几类典型应用场景进行介绍:

2.1. 自动驾驶应用场景
合成数据最初用例之一就是自动驾驶汽车,即在难以获得真实的道路训练数据情况下,为汽车创建训练数据。例如,在极端天气的情况下,获取真实路况数据非常困难且极其危险。开发自动驾驶汽车的企业通常利用合成数据来检测性能。
总而言之,在所有的驾驶场景中,有太多的变量需要考虑,所以不能仅依赖于在道路上使用真车进行现场测试,合成数据比人工采集的数据要更为安全和便捷。

2.2. 医疗保健应用场景
由于患者数据的敏感性,医疗保健是采用合成数据的首选行业。医疗团队可以利用合成数据捕获所有患者类型的生理信息,帮助其更快速、更准确地诊断疾病。例如,Google曾建立黑色素瘤检测模型,即通过使用肤色较深个体的合成数据建立起模型,该模型能够适用于所有肤色的个体检测。


2.3. 安全监测应用场景

合成数据促进了组织安全性的提升。如在面部识别当中存在深度伪造品(Deepfakes),即人工创建的人脸图像或视频。企业可以通过创建深度伪造品,来测试自己的安全系统和面部识别平台。视频监控还可以利用合成数据,以更低的成本和更快的速度来训练模型。

企业还需要通过安全可靠的方法来与他人共享训练数据。合成数据的另一个用例是在将数据集提供给他人之前,隐藏个人身份信息(PII)。这被称为合成数据的隐私保护,可用于共享科学研究数据集、医学数据、社会学数据,以及其他可能包含个人身份信息的场景。


3

使用合成数据的优势


着像TensorfFlow和PyTorch这类机器学习框架变得更简洁易用,以及用于计算机视觉和自然语言处理的预先设计的模型变得更加普遍和强大时,数据科学家必须面对的首要问题是数据的收集和处理。企业通常难以在给定时间范围内获取大量数据,完成精确的模型训练。同时,手工标记数据是一种昂贵、低效的数据获取方式。使用合成数据可以帮助数据科学家和企业克服这些障碍,并以更高效的方式开发出可靠的机器学习模型。

使用合成数据有许多优势:

3.1.可以按需大规模生成数据集

使用合成数据最明显的是使数据科学减少从现实自然事件中获取数据的要求,因此,与依赖于真实自然事件的数据集相比,它可以更快地生成数据,并构建起数据集。这意味着合成数据可以在短时间内生成大量数据,创建出可用于不同目的(例如,测试、培训或验证)的大型、多样化数据集。

对于模拟小概率事件来说,合成数据也具备优势。合成数据可以从真实的小概率事件数据样本中,模拟出更多的数据。

除此之外,合成数据还可以在生成时自动标记,从而大大减少标记数据所需的时间。


3.2.可获取边缘案例的训练数据,满足特殊场景的定制化需求

因为合成数据是由计算机算法生成的,所以可以对其进行调整,以创建与原始数据相似但具有不同特征或属性的数据。例如,可以生成与原始数据具有不同分布、相关性或模式的合成数据,用于测试不同场景下数据驱动模型的性能或稳健性。

此外,合成数据还可用于获取边缘案例的训练数据,这些案例可能不常发生,但对训练数据成功至关重要。


3.3.减少隐私风险,克服监管限制

合成数据集可以最大限度地减少隐私问题。尝试匿名化数据可能是无效的,因为即使从数据集中删除敏感、可识别数据,在于其他数据组合后,数据也可以被识别。但合成数据不存在这类问题,因为它自始至终都不是基于真人或真实事件生成的。合成生成的数据由全新的人工数据点组成,与原始数据没有一对一的关系。因此,没有一个合成数据点可以追溯到或反向追溯到原始数据。

合成数据比真实数据最重要的好处是,它避免了对真实数据的监管限制。合成数据可以复制真实数据的所有重要统计属性,消除了对隐私法规的担忧。故合成数据不受GDPR等隐私法规的约束,可作为解决数据隐私问题的解决方案。


3.4.增加成本效益

合成数据可以比真实数据更具成本效益。当然,创建合成数据并不是免费的。合成数据的主要成本是建立模拟的前期投资。然而,真实数据在每次需要新的数据集或修改现有的数据集时,都会财务成本。

4

合成数据的风险防范


4.1.异常值可能会丢失

原始数据中的异常值,虽然经常从训练数据集中被删除,但它们的存在是训练真正可靠的机器学习模型所必需的。但在创建合成数据时,可能无法涵盖原始数据所具有的部分异常值,进而降低模拟训练的真实性。


4.2.模型的质量取决于数据源

合成数据的质量与输入数据和数据生成模型的质量高度相关,因此,合成数据的质量可能存在不稳定性。合成数据通常由输入数据或种子数据生成,数据质量很大程度上取决于输入数据的质量。如果用于生成合成数据的数据存在偏差,则生成的合成数据可能会延续此偏差。


4.3.需要通过输出控制以校准数据

合成数据还需要对输出数据结果进行质量控制,即对人工注释的数据进行检查。特别是在复杂的数据集中,确保输出准确性的最佳方法是将合成数据与真实数据或人工注释数据进行比较。


4.4.用户接受度更具挑战性

合成数据是一个新兴概念,目前来说,用户和市场的接受度不高。这是合成数据由研发转入市场化、商业化后,亟需考虑的要素之一。


4.5.合成数据生成需要时间和成本

虽然合成数据比实际数据更容易创建,但也需要花费一定时间成本、人员成本与费用成本。

5

小结



由计算机自动生成的合成数据能够创建出用于不同应用场景的多样化数据集的同时,还能极大地降低企业经营成本。最为重要的是,由于合成数据是人工生成的信息,而且,相比匿名化与隐私增强等技术,合成数据能最大限度地减少隐私问题,进而消除了对隐私法规的监管风险。
考虑到合成数据的众多优势,现阶段如何规避合成数据在利用过程中,发生如异常值丢失、模型质量受制于原始数据质量、输出控制等问题,成为合成数据由研发阶段投入商业化市场进程中的重中之重。



END


会议报名 | 国际数据流通技术高峰会议

“数据空间论坛暨汽车数据流通研讨会”是“国际数据流通技术高峰会议”系列活动之一,本届论坛由下一代互联网国家工程中心联合国际数据空间协会组织,旨在研讨建立一个面向数据空间的国际合作和发展平台,形成标准、可信和安全的数据流通技术方案,并在汽车数据等领域开展实践研讨,推动数据要素市场化进程。


本届“数据空间论坛”将于2023年4月14日在北京举办


数据空间论坛暨汽车数据流通研讨会




报名通道





前瞻研究

01



专题报告

02



中心动态

03




继续滑动看下一个
数据信任与治理
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存