AI数据之困,美国商务部就开放数据资产寻求公众建议
数据资产
主要内容美国商务部(以下简称“商务部”)致力于在生产和传播高质量公共数据方面引领潮流。商务部的数据资产促进了美国的科学发现、创新和经济增长,成为国家的宝贵资产。在其为美国公众发布数据的使命以及实现“通过数据扩大机会和发现”的战略目标中,商务部致力于随着新技术的出现不断改进其创建、策划和分发数据的过程。此信息征集请求(RFI)旨在了解如何改进商务部开放数据资产的创建、策划和分发方式,以促进生成性人工智能等人工智能技术的发展和进步。
作为一流的数据提供者,商务部拥有适应技术变革的悠久历史。在过去的40年中,商务部已经将数据发布工作转移到电子形式,而在过去20年中,这包括提供数据服务和工具,以支持对商务部数据的发现和探索。在最近五年中,《基于证据的政策制定基础法案》的第二标题,通常称为开放政府数据法案,开始了商务部致力于以机器可读格式传播开放数据资产的承诺,即“以计算机能够轻松处理而无需人为干预,同时确保不丢失任何语义含义的格式”的数据。
如今,随着人工智能技术的出现,商务部正面临一项新的技术变革,这些技术为用户提供了改进的信息和数据访问。商务部特别对生成式人工智能(GenAI)应用感兴趣,这些应用消化来自不同来源的文本、图像、音频、视频和其他类型的信息,以产生新内容。GenAI和其他人工智能技术为数据提供者(如商务部)以及包括其他政府实体、工业界、学术界和美国公众在内的数据用户,既带来了机遇也带来了挑战。人工智能已经为包括医疗、金融、教育和交通在内的许多行业带来了变革性的变化,而生成式人工智能(GenAI)则承诺通过使普通人能够以前所未有的方式与数据互动,来实现数据访问的民主化。最近的GenAI工具允许用户输入简单的提示,与这些工具从包括商务部公共数据在内的广泛来源收集的内容进行互动。作为权威数据提供者,商务部面临的挑战是确保这些新的人工智能中介能够适当地访问其数据,同时不失去数据的完整性,包括数据的质量。人工智能工具需要大量的可靠信息,以准确响应用户的需求。随着人工智能应用变得更加复杂,并日益融入日常生活,高质量数据的作用变得越来越关键。商务部承认,作为一个关键的数据生产者,为了让人工智能系统使用其数据进行训练和即时数据检索,其数据可能需要重新配置为易于消费的格式。人工智能工具越来越多地用于数据分析和数据访问,因此商务部希望确保这些工具使用的数据不仅“机器可读”,而且“机器可理解”。因此,此信息征集请求(RFI)探讨了如何为新兴的人工智能技术实现更好的数据完整性、可访问性和质量。像生成式人工智能(GenAI)这样的新兴技术的独特之处在于,数据的解释和使用不再仅仅由人类专家(例如科学家、工程师、软件开发人员)来执行,这些专家在处理商务部数据时带入了自己的知识和理解。这种人类理解基于共享的学科知识和商务部随其发布的数据提供的人类可读文档。目前的人工智能系统缺乏常识和使用这些知识进行活动的能力。尽管这些系统表现出了流利和智能,但它们的输出往往是由上下文预测而非更高层次的推理能力驱动的。最近的人工智能系统是在大量数字内容上进行训练的,并根据该内容的上下文属性生成响应。然而,这些系统并没有真正以有意义的方式“理解”文本。尽管正在不断改进,但今天的人工智能系统基本上受限于它们对广泛的非结构化数据存储的依赖,这些存储依赖于底层数据而非基于理解进行推理和判断的能力。鉴于此,商务部寻求坚持其“通过数据扩大机会和发现”的战略使命,通过以人工智能就绪的格式传播公共数据,同时确保不丢失任何语义含义。为了应对挑战并抓住这些新技术所提供的机会,重要的是商务部要使人工智能系统能够正确且负责地访问和使用其公共数据资产。此信息征集请求(RFI)寻求来自行业专家、研究人员、民间社会组织以及公众的反馈、建议和意见,内容涉及商务部创建、策划和分发旨在特别促进生成性人工智能(GenAI)等人工智能技术发展和进步的数据资产。到目前为止,商务部已经通过结构化的应用程序接口(APIs)努力公开其公共数据,并正在开发丰富的元数据标准来描述其数据资产。迄今为止,商务部的元数据主要集中在促进数据资产的发现上,而不是这些数据资产在人工智能系统中的使用,但商务部认为改变这一重点具有价值。商务部希望进一步了解如何使其数据资产准备好用于人工智能。特别是,商务部希望探索以下方面:1. 使用知识图谱进行变量级别元数据,允许系统更好地将人类术语链接到数据元素;2. 采用标准化的本体论,如schema.org或NIEM;3. 使用基于标准化本体论的知识图谱协调和链接我们的内部本体论和词汇表;4. 收集现有数据产品的内部和外部书面文档:为元数据协调和链接挖掘术语;或以原始格式发布,用于训练人工智能模型;5. 采用允许丰富元数据的数据格式,同时为CSV或SAS等更传统的格式生成元数据“边车”;6. 使用能够链接到知识图谱的开放标准API;7. 改进关于适当数据使用和许可的指导和元数据,用于研究分析、文本和数据挖掘以及人工智能系统摄取等目的。商务部寻求对上述主题的评论,并回应以下4个问题:
Q1: 数据传播标准
1. 商务部应采用哪些数据传播标准,以支持人类可读和机器可理解的公共数据?
2. 应优先考虑哪些格式、元数据和文档,以促进人工智能应用?
3. 在元数据标准方面,原始数据(例如来自传感器网络的数据)与派生数据(例如美国人口普查局的统计数据)有何不同?
4. 商务部应考虑哪些数据许可实践、标准和使用考虑,以支持对其数据集和元数据的广泛、公平和开放访问?
5. 目前存在或正在开发哪些标准,商务部应考虑采用,以明确表示其公共数据可供人工智能系统使用(或表明对所述数据的任何附带条件或限制)?
Q2: 数据可访问性和检索
1. 商务部的数据资产如何变得更易于访问,并对人工智能社区更有价值(例如,改进API访问、网络爬虫等)?
2. 商务部如何开发直观易用的数据门户,以便于轻松导航和检索数据集?
3. 商务部在传播人工智能就绪数据时应考虑哪些用户?商务部应确保考虑哪些非典型用户?
4. 可以采取哪些措施鼓励用户友好的界面,包括清晰的标签和易读格式,用于商务部的在线数据资源?
5. 商务部如何更好地了解用户对其数据的需求,以及在使数据更适应人工智能方面的投资回报?
Q3: 合作伙伴参与
1. 行业和学术利益相关者如何与政府合作,共同设计和传播人工智能就绪的开放数据?
2. 潜在的合作领域是什么,行业和学术界如何为提高数据质量、完整性和对人工智能用途的有用性做出贡献?
Q4: 数据完整性和质量
1. 行业采用了哪些最佳实践来增强公共数据在人工智能应用中的完整性和准确性?数据验证和验证的最佳实践是什么?在人工智能应用中使用的数据进行定期审计和质量检查的最佳实践是什么?
2. 我们如何共同应对与真实性偏见、隐私、数据质量、公平性和道德使用相关的挑战,同时保持透明度和问责制?
3. 可以开发哪些安全协议来减轻未经授权的数据访问和篡改的风险?
4. 商务部如何促进数据来源和处理方法的透明度,以增强信任和可靠性?对其数据质量的报告有何期望,我们如何确保这些信息将被传递并呈现给最终用户?
5. 可以建立哪些验证流程来维护和验证数据的准确性和一致性?
6. 商务部如何促进全面和透明的数据文档化,以便于复制和分析?
Q5: 数据伦理
1. 需要采取哪些步骤来建立清晰的法律和道德指导方针,用于人工智能数据使用,确保隐私权、保护财产权,并专注于公平结果?
2. 商务部可以实施哪些类型的政策来识别和减轻人工智能算法中的偏见,包括确保多样化的数据代表性?
3. 优先考虑数据完整性和准确性的道德数据收集、处理和存储的最佳协议是什么?
『数据观·知识服务平台』
扫码获取最新行业研报及信息
▐ 风口洞察
▐ 行业报告
▐ 国际要闻
▐ 数据观出品