"垃圾进,垃圾出"是编程中常见的格言。但在人工智能(AI)和机器学习(ML)领域,这句话尤其适用,因为模型性能往往取决于训练数据的质量和相关性。
AI和ML开发人员使用准备好的数据集来训练他们创建的模型和算法以生成输出。这些输出可以是对数据的详细分析,反映趋势和见解,或者(例如ChatGPT等工具)是一个承诺可以回答用户关于似乎无限范围的主题的问题的平台。
考虑采用AI工具的商业领袖应该意识到,有大量的数据集可用作输入,涵盖领域包括医疗保健、汽车和自动驾驶汽车(AV)制造以及金融和银行业。用于训练AI模型的数据集的范围很广,数据必须既相关又具有足够的质量,以满足最终用户的需求,特别是在生成式AI时代。
"数据质量从古至今一直在数据科学、机器学习和AI领域非常重要,"企业MLOps平台Domino Data Lab的数据科学战略负责人Kjell Carlsson说。"但现在越来越多的人在生成式AI的背景下意识到它,也在讨论它。"
尽管诸如特征工程和集成建模等技术可以部分弥补不足或不足的训练数据,但输入数据的质量通常限制了模型潜在性能的上限。因此确保数据质量对于业务AI和ML项目的成功至关重要。"显然,你可以用高质量的数据制作一个非常差的模型,"Carlsson说。"但是你的数据质量将限制你能够用模型做什么。"六个数据质量维度:准确性、完整性、一致性、一致性、完整性和及时性。公司使用AI模型有特定的原因,这意味着企业模型需要使用定制的、相关的数据集进行训练。因此,在评估要获取和使用的数据时,考虑将使用该数据的终端系统是很重要的。"在弄清楚要使用数据做什么之前,你怎么知道你要达到什么样的质量?"Carlsson说。由于数据的相关性和特异性至关重要,因此对于企业用例来说,流行但非常通用的模型,如GPT-4,不一定总是最适合的选择。在大规模但不特定的数据集上训练的模型不太可能具有特定行业或组织工作流程所需的那种对话、任务和数据的良好代表样本。与其将数据视为客观好坏,不如将数据质量视为一个相对的特征,与模型的现实世界目标密切相关。即使一个数据集本身是全面的、独特的和结构良好的,如果团队无法使用它来进行计划用例所需的预测,那么实现组织期望的结果可能会变得不可能。作为一个例子,Carlsson回顾了他在以前一个电子病历平台项目中的经验。尽管有关医生如何使用该平台的大量数据,但他的团队发现他们无法预测何时会有客户离开该服务。决定切换服务是由实践经理做出的,他们不直接使用该平台,这意味着他们的行为没有被跟踪。"所以,你可以拥有非常高质量的数据,但对于我们想要使用的用途来说,它是低质量的,"Carlsson说。"对于我们想要使用的目的来说,这是糟糕的质量数据。"专门的数据集适用于广泛的行业
尽管为组织有效地训练AI模型对资源和时间要求高,但行业特定的数据集本身已经变得很容易获得。在金融领域,网站如Data.gov和美国经济学会提供了有关美国就业、经济产出、贸易和许多其他相关主题的宏观经济数据。与此同时,国际货币基金组织和世界银行官方网站有关全球金融市场和机构的数据集。在Data.gov庞大的目录中,可以找到特定的数据集,如"汽车销售"和"食品价格展望"。这些类型的数据集由美国交通部和农业部等提供,对于金融行业内的某些业务用例非常有用。这些数据集中的许多都可供企业免费使用。与ChatGPT是通过从各种网站、文章和在线论坛中提取的文本进行训练一样,企业可能会在网上和数据市场上寻找信息,以使其模型能够跟上发展的步伐。
伦理和隐私考虑是确定数据质量的一部分
但随着组织寻求整合外部数据集和模型,数据收集实践也受到越来越多的审查。"挑战在于,当我们谈论AI时,生成的模型是否是根据未经同意的信息生成的?"隐私管理平台DataGrail的首席执行官Daniel Barber说。ChatGPT的创建者OpenAI已经开始因其使用个人数据而面临诉讼。在评估是否使用或收集来自组织外部的数据以及如何使用时,组织需要从一开始就有条不紊地考虑数据伦理和隐私方面的考虑。"确保你的企业采取正确的方法的第一步是制定一项关于如何使用AI运营业务的伦理政策,"Barber说。这个内部伦理政策应该由一个AI伦理委员会制定,并定期进行审查以确保其发挥预期的作用。此外,组织应该指定一个数据保护官来参与决定是否使用或从组织外部获取数据。在制定伦理政策和规划AI计划时,应纳入多样化的观点。由来自各种背景和职能的个体组成的团队可以预测到仅由技术团队可能不会考虑的潜在结果。"如果你的数据质量计划通常是一个独立的部门,只是试图做自己的事情,与历史性的目标相抵触,与预期结果相脱节,那么你成功的可能性就会大大降低,"Carlsson说。
确保数据质量是为了避免现实世界的后果
在某些领域,当缺乏可靠数据时,确保可靠数据的需求变得更加明显,因为缺乏数据可能会对消费者造成伤害。例如,在汽车行业,开发AV算法时,需要可靠的数据。公司一直在努力提高AV的能力,以防止严重的现实世界后果。用于AV算法的可用数据集通常包含从实际自动驾驶汽车的激光雷达和摄像机系统中捕获的数据,以改善物体检测和运动预测。在医疗保健行业,AI和ML已经被热情接受,不仅可以处理繁琐的行政任务,还可以帮助诊断。因此,在训练AI以充分理解健康问题,以避免误诊时,质量数据集变得尤为重要。HealthData.gov网站提供了有关COVID-19大流行在美国的影响的数据集。文本不是医疗保健行业的唯一相关数据类型——例如,成千上万张胸部X线图像也可供分析。在评估是否以及如何使用医疗数据集时这通常是用户隐私和数据伦理最重要的领域之一。Barber指出,与个体有关的健康信息和生物特征数据是可以收集的最敏感的数据类型之一。"我认为大多数人都理解为什么这些信息对个人来说特别敏感,"他说。"因此,这些信息是如何收集的,是否在这个过程中包含了同意?这对企业来说将是非常重要的。"不确保数据隐私和安全会带来业务后果
使用后来发现违反隐私法律和行业标准的数据可能对企业产生重大影响。企业不应该简单地将问题看作是在未来可能面临罚款的风险。除了违反安全和隐私法规的财务和声誉后果外,企业还可能被迫移除依赖非法和不道德获取的数据的算法和软件。五月份,美国联邦贸易委员会(FTC)就对Amazon旗下销售互联网连接家庭安全摄像头的公司Ring的一起案件达成了和解,案件指控Ring未能限制员工访问客户的视频,从而侵犯了用户的隐私。根据投诉,其中一名员工观看了来自女性用户设备的数千个视频,监视了浴室和卧室等区域。"Ring对隐私和安全的忽视使消费者暴露于监视和骚扰之中,"FTC消费者保护局局长Samuel Levine在新闻稿中说。而且,由于Ring未经用户同意就使用这些视频进行训练,如投诉所述,这可能对公司产生深远的影响。根据目前正在等待法院批准的拟议和解协议,Ring将被要求删除从非法审查的视频派生的任何数据、模型和算法。如果这种后果变成常态,"这里的实际业务风险比仅仅是合规性组成的风险要大,"Barber说。"相反,整个模型本身的业务价值,你可能已经花费数百小时构建它,如果实施不正确,也可能被移除。"原作者:Lev Craig、Cameron Hashemi-Pour
原文链接:https://www.techtarget.com/searchenterpriseai/feature/