查看原文
其他

合成数据和真实数据对比:各有千秋

信息化观察网 信息化观察网 2024-01-09


大数据


合成数据会成为快速训练AI算法的解决方案吗?合成数据中的优缺点并存,然而很多的技术专家认为合成数据是让机器学习大众化、加快测试AI算法以及将AI算法融入到我们日常生活中的关键。





合成数据




什么是合成数据?


合成数据指的是由计算机使用人为手段生成的数据,而不是从现实世界的环境中测量和收集的数据。这一数据是匿名的,并且是基于用户指定的参数而创建的,因此可以尽可能地和现实情境下的数据有着相同的特征。


创造合成数据的方式之一是使用真实数据,但是需要去除数据集中能够识别出个人信息的方面,如姓名、邮件地址、社保号码和地址,从而确保数据是匿名的。生成模型(generative model)能够从真实数据中学习,并能创造和真实数据极为相似的数据集。随着技术的进步,合成数据和真实数据的差距也在缩小。


在很多的情况下,合成数据都是很有用的。研究人员会使用合成材料来低风险从而完成实验,数据科学家则采用了类似的方法,即利用合成数据来最大限度地减少时间、成本和风险。有时候数据集的数量不足以用来高效地训练机器学习算法,因此就创建了一个能够确保综合训练的数据集。在其它的情况下,出于对隐私的考虑,真实数据不能用于测试、训练或者保证质量,因为这一数据很敏感,或者是只适用于受到高度监管的行业。


合成数据的优点


深度学习机器和人工智能算法有望解决非常棘手的难题,而驱动它们的正是庞大的数据集。谷歌、Facebook和亚马逊等公司在业务方面每天都能创造出很多的数据,因此这也算是他们的竞争优势。合成数据让任意规模和拥有任意资源数量的公司可以利用由深度数据集驱动的学习,并最终通过深度数据集将机器学习大众化。


在很多情况下,创建合成数据要比收集真实数据的效率更高,并更有成本效益。合成数据也能够与真实数据进行互补,即使在真实数据集中没有很好的例子,但是也能够对每一个可想象变量进行测试。这能够加快企业对系统性能的测试以及对新系统的训练。


当使用伪造的假数据时,使用真实数据来学习和测试的限制就会减少。近期的研究表明,使用合成数据产生的结果有可能和使用真实数据集产生的结果一样。


合成数据的缺点


创建高质量的合成数据,尤其是当系统复杂的时候,是很有挑战性的。创建合成数据的生成模型很好,或者说生成的数据会被影响,了解这一点很重要。如果合成数据和真实数据集大相径庭,那么它就能够影响到基于数据所做出的决策的质量。


即使真实数据确实很好,但仍然是真实数据集特定特征的复制品。模型会寻找趋势来进行复制,因此可能会忽视一些随机的行为。


合成数据的应用


每当隐私问题成为金融和医疗保健等行业的问题时,或者需要大量数据集来训练机器学习算法时,合成数据集都能够推动发展。下面是合成数据的一些应用:


●医疗组织能够使用合成数据(记录数据)来保护病人的隐私,同时为护理协议提供信息。模拟的X射线结合了真实的X射线来训练AI算法,从而识别病人的健康状况;


●在不需要公开个人财务记录的情况下,就能够对欺诈行为检测系统进行测试和训练;


●DevOps团队使用合成数据来测试软件,并保证质量;


●机器学习算法通常是使用合成数据来训练的;


●Waymo通过让自动驾驶汽车在真实的道路上跑800万英里,以及在模拟道路上跑50亿英里的方式对汽车进行测试。其它的自动驾驶汽车生产商使用了《侠盗飞车》等电子游戏来辅助其自动驾驶技术。


合成数据并非“万金油”,但是由于收集真实数据的成本太高,而且真实数据也会因为隐私问题或者不完整的问题而无法访问,因此合成数据也是增强机器学习算法的重要工具。


原文作者:Bernard Marr


编译:信息化观察网




往期回顾


AI的信任危机:不仅仅是时间问题

高效的数据管理也能推动电子商务的增长?

开源平台的下一风向——Spinnaker

机器人时代来临:应如何保护人类工作







继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存