数据与人工智能(二)合成数据市场实践
编者按
合成数据是指通过人工或机器算法生成的数据,其应用范围广泛,包括计算机视觉、自然语言处理、语音识别等领域。在训练 AI 模型时,开发人员通常需要大量、准确标记的数据集。然而,收集和标记这些具有数千甚至数百万个对象的大型数据集可能非常耗时且昂贵。相比之下,合成数据可以显著降低生成训练数据的成本,且可生成罕见场景,对模型训练至关重要。例如,一张训练图像如果来自数据标签服务,成本为 5 美元,如果人工生成,成本可能低至 0.05 美元。数治君此前发布了数据与人工智能(一):合成数据的特点及其应用,本文为系列文章的第二篇。
01
目前有哪些获取合成数据的方式?
*(除手工合成)
使用模拟器:通过模拟器模拟真实场景,获取模拟数据。例如,在无人驾驶领域,可以使用模拟器模拟各种路况和行车场景,获取模拟数据。
使用生成算法:使用生成算法来生成合成数据,如GAN、VAE、卷积神经网络等。这种方式依赖于算法和模型的能力和智能,可以大规模生成高质量的合成数据。
生成对抗网络(Generative Adversarial Network, GAN):GAN 是一种深度学习框架,主要用于合成数据生成。它由一个生成器和一个判别器组成,通过对抗学习的方式不断地提高生成器的生成能力,最终生成质量较高的合成数据。
变分自编码器(Variational Autoencoder, VAE):VAE 也是一种深度学习模型,通过将输入的数据压缩成低维空间中的潜在表示,然后再根据这个潜在表示生成与原始数据相似的新数据,从而实现合成数据生成。
随机森林(Random Forest):随机森林是一种集成学习算法,可以用于生成合成数据,以及进行分类和回归等任务。它是基于决策树的一种算法,通过对多个决策树模型的聚合来提高模型的准确性和鲁棒性。
卷积神经网络(Convolutional Neural Network):卷积神经网络是一种广泛应用于图像识别等领域的深度学习模型,也可以用于合成数据生成。通过构建适当的卷积网络结构,并针对具体应用场景进行优化训练,可以实现高质量的合成数据生成。
数据增强:利用同一份真实数据进行扩增和变换,以获得更多、更丰富的数据集。例如,图像数据可以通过旋转、加噪声、平移等手段进行数据变换和扩增,以获得更多的训练数据。
02
目前,市场上的竞争主体可分类结构化合成数据服务提供商(表格和测试数据)和非结构化合成数据服务提供商(图像、声音和视频)的两大类别。
(1)结构化合成数据服务提供商
下图提供了国外部分结构化合成数据生成服务提供商的名录:
(2)非结构化合成数据服务提供商
下图提供了国外部分非结构化合成数据生成服务提供商的名录:
以下为几家代表性国外合成数据生成服务初创企业的业务介绍:
Syntho(https://syntho.ai/)
Syntho是一家专注于提供高质量、高度定制化和具可操作性的合成数据的公司。其数据集涵盖了多个领域,包括图像识别、文本生成、语音生成等。
Syntho合成数据的方式主要是通过基于AI的自助式合成数据生成平台Syntho Engine对真实数据进行模拟,从而生成孪生合成数据。Syntho Engine在提供合成数据服务的过程中依然需要获取原始数据,但优势在于能够相对准确地保留原始数据的关键特征。
Syntho Engine可部署在用户的安全环境中,可以实现端到端连接原始数据所在的源环境和用户希望写入合成数据的目标环境。Syntho称,Syntho Engine是完全自助服务,Syntho 永远不会看到数据,永远不会处理数据,永远不会访问数据,并且没有与部署环境外部的连接。
Datagen(https://datagen.tech/)
Datagen是于2018年成立的一家以色列初创公司,是一个结合了深度学习和图像处理技术生成合成数据的SaaS公司。Datagen的主要合成数据服务包括图像、深度数据、LiDAR数据等多个方向。Datagen提供的数据主要包括以图像和视频的形式生成面部、全身人体和运动中人体的合成数据,包含自然 3D 骨骼跟踪,可在虚拟现实 (VR)、增强现实 (AR) 或物联网 (IoT) 环境中实现交互。这些数据非常逼真,可以帮助汽车、机器人、物联网等行业进行模型开发和测试等任务。
Synthesized(https://www.synthesized.io/)
Synthesized的合成数据服务使用基于深度学习、图像处理和生成对抗网络(GAN)的技术来生成数据支持多个行业和场景,例如金融、电信和医疗保健等。使用GAN可以生成高度真实的数据,这些数据可以用于测试、训练和评估机器学习模型。Synthesized的合成数据服务可以生成各种类型的数据,例如文本、图像、视频等。此外,他们还支持自定义数据集生成和数据可视化等功能,以满足不同用户的多样化需求。
除了提供高质量的合成数据之外,Synthesized还提供了一些先进的功能,例如数据增强、噪声注入和隐私保护等。数据增强可以帮助增加数据的样本量和多样性,以提高模型的性能和稳定性。噪声注入可以模拟现实世界中的噪声和干扰,从而使模型更具鲁棒性。
03
通常来讲,合成数据可以减少个人身份信息泄露的风险并提高数据安全性,但在有些情况下,合成数据本身也存在一些隐私保护风险。例如,使用合成数据时,需要确保生成的数据集的质量、属性和分布等都与真实数据集相符,否则可能会影响分析结果的准确性和可靠性;但如果合成数据集过于接近原始数据集,攻击者可能会使用这些数据进行个人身份信息识别或还原操作,从而导致数据泄露和隐私侵犯。特别是在需要使用真实的原始数据通过模拟器生成合成数据或者需要将合成数据与原始数据结合使用时,原始数据的使用也会产生个人信息保护风险。在前述合成数据服务提供商的实践中,我们观察到以下两种个人信息保护的实践:
(1)在合成数据生成服务中实现Privacy by Design
前述Syntho公司在提供合成数据生成服务的同时,还为客户提供PII SCANNER—一个扫描包含敏感个人身份信息(PII)的文件和文档的工具。PII Scanner使用机器学习技术来自动识别和分类敏感信息,包括社会安全号码、信用卡号码、银行帐号和地址等。用户可以在其中上传和扫描文件,还可以设置扫描结果的处理方式,如标记或删除敏感信息。Syntho的PII Scanner还可与其他工具和流程集成,以确保企业的数据安全性和合规性。
(2)与隐私管理软件服务提供商合作,降低隐私风险
在隐私保护方面,Synthesized与全球领先的隐私管理软件服务提供商BigID合作,集成并实现数据发现、敏感数据的去标识化处理等功能。
未来,合成数据市场将为实现数据共享和技术创新提供更广阔的空间,同时也需要在数据隐私和安全等方面得到完善的保护。在未来的市场实践中,合成数据服务提供商将如何与已有的数据保护及隐私管理服务提供商发生碰撞和开展合作,值得继续关注。
(完)
前瞻研究
01
专题报告
02
中心动态
03