查看原文
其他

给AI准备训练数据时需考虑的三个关键因素

Will Freiberg 开放隐私计算 2024-01-09



基于像ChatGPT这样的创新生成式人工智能(AI)工具,业界分析师预测企业对AI和机器学习(ML)技术的投资将迅速增长。据国际数据公司(IDC)预测,今年的支出将达到1540亿美元,较去年的投资增长了近27%。

值得注意的是,开发生成式AI工具的组织通常得到资金充足的投资者支持,拥有庞大的数据集,并采用成熟的数据管理实践。要从头开始培训一个大型语言模型的成本对于大多数企业来说是不可承受的。正如微软在其“GPT现状”视频中所解释的那样,这是一个复杂的过程,需要数百万美元的投资。

因此,对于正在考虑AI/ML计划的大多数企业来说,更实际的方法是对已存在的基础模型进行微调。以生成式AI和语言模型为例,如果一家公司希望微调一个模型,就需要投入时间和资源来评估特定格式的培训数据,并不断迭代,以使其与其首选叙述保持一致。这需要将干净的源数据输入到语言模型中。

节省时间和简化数据评估的三个因素

在准备AI/ML计划时,有三个关于数据的关键因素,项目领导者还应确保所有参与者清楚了解目标,并理解从一开始就所需的流程和标准。

  1. 数据可访问性:许多公司都会面临一个常见挑战,即数据分散在多个不同系统中,或以多种不兼容的格式存储,导致数据难以访问。这种情况通常出现在公司通过合并和收购不断壮大的过程中,因此信息可能存储在多个云中并采用不同的架构进行管理。将这些数据聚合并标准化为单一格式通常是一项艰巨的任务,这会妨碍有效利用数据进行ML扩展。

  2. 数据质量:领域特定的生成式AI的兴起突显了高质量、策划精良数据的重要性。在AI/ML项目中,“垃圾进,垃圾出”的原则非常适用,如果企业从未专门设计用于分析的系统中提取数据,可能会出现问题。为了适应分析,项目领导者可能需要将其与其他来源的数据混合使用,然后必须随时间监测以确保数据保持有效,以避免“数据漂移”或“模型漂移”的问题,即AI/ML工具训练的数据不再与模型的目标相符。因此,策划和维护高质量数据对于确保准确可靠的AI/ML结果至关重要。

  3. 数据数量:与第二点相关,企业经常会使用来自多种外部来源的数据来增加内部数据的量,包括供应商提供的数据和免费的公开信息数据。从第三方来源构建数据时,质量和频率问题可能会成为挑战,这些数据可能具有时间差距或不同的格式。外部来源的数据还必须转换为标准格式,并在持续监测,以确保数据保持新鲜、可用并与AI/ML计划相关。

数据集成工具可以帮助将信息汇总到单一数据仓库中,以便项目团队可以开始塑造数据。此外,还必须考虑数据存储的法规影响以及应用哪些标准,因为不同的司法管辖区有不同的规则。

朝着成功的AI/ML数据项目前进

为了确保AI/ML数据项目的成功,Gartner预测,到2025年,80%尝试扩展其数字业务的企业将因缺乏现代数据治理标准而失败。为了避免在AI/ML项目中出现数据问题,必须明确定义目标并获得组织内的支持,为该项目设定明确的目标,并在组织的中层管理层建立对价值的共识。每个人都必须理解公司将获得什么,以及该项目将如何使不仅是高层管理层,而且是组织内的所有利益相关者受益。

此外,还必须专门评估数据质量,以确定其适用于AI/ML项目。项目领导者需要确保数据不仅具有分析项目所需的核心质量属性,而且足够完整、准确、及时等,以用于模型训练。从数据发现的角度来看,项目领导者可能会找到内部和外部的数据目录,列出数据类型,但信息还必须以适合下游用户的格式提供。

项目领导者应考虑的另一个因素是项目规模的资源可用性。熟练的数据工程师需求量大,因此对于许多企业来说,与合作伙伴合作可能更有意义,而不是在低级别数据交付和转换任务上浪费宝贵的时间,这可能会分散注意力,从而远离高价值的分析。投资于可以自动化最手动和乏味的任务的数据工程工具,或者与数据准备专家合作,可以帮助企业更快地实现其AI/ML项目的价值。

数据项目通常是一项团队工作,因为企业越能专注于洞察力,而不是交付可用数据所涉及的细节,就越有可能快速实现价值。这在生成式AI项目中可能尤为真实。这项技术令人兴奋,但要实现价值,也需要密切的人工监督。

作者:Will Freiberg

原文:https://www.datanami.com/2023/08/09/three-critical-factors-to-consider-when-preparing-data-for-generative-ai/

END

热门文章:




隐私计算头条周刊(9.04-9.10)


零知识证明的三个典型案例


漫画科普丨隐私计算如何实现数据可用不可见?


好书相赠 | 《元宇宙进化逻辑——用确定性的逻辑诠释不确定的未来》


加入我们丨OpenMPC社区招募实习生

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存