NBER | AI与大数据时代的监管
本文讨论了当前人工智能技术路径的几个潜在的经济和社会成本。如果人工智能继续沿其目前的发展轨迹进行部署并且不受监管,它可能会产生各种社会和经济危害,包括破坏性竞争以及过度自动化的工作所加剧的不平等。尽管没有确凿的证据表明这些成本是迫在眉睫的或巨大的,但正是由于人工智能具有广阔的前景和广泛的潜力,在这些成本完全实现并且变得更难甚至不可能逆转之前了解它们可能是有用的。这些成本并不是人工智能技术本身所固有的,而是与它们目前的使用和开发方式有关——赋予公司对抗工人的权力。因此,仅仅通过促进竞争来遏制它们可能是不够的,需要依靠监管和政策来重定向人工智能研究并限制和扭转这些成本。
NBER近期发表工作论文《Harms of AI》, 中国人民大学金融科技研究所(微信ID:ruc_fintech)对文章核心内容进行了编译。
来源 | NBER Working Paper Series
人工智能与信息控制
数据是人工智能的命脉。目前该领域的主流方法是将决策问题转化为预测任务,并将机器学习工具应用于非常大的数据集以执行这些任务。因此,大多数人工智能研究人员和经济学家从事人工智能和相关技术工作的前提是数据对预测、产品设计和创新产生积极影响。然而,正如几位法律学者和社会学家所强调的那样,数据和信息可能会以有利于数字平台和科技公司的剥削性方式被滥用,并以牺牲消费者和工人的利益为代价。
本节将讨论数据和信息控制相关的人工智能的社会成本,并将着重探索数据在什么情况下可以成为过度提取和预测的工具。
数据过多
当“隐私”对个人有益时,对信息控制和滥用的担忧就变得尤为重要。个人可能会由于工具性原因或内在原因重视隐私。前者包括他们能够享受更大的消费者剩余的能力,如果公司更多地了解他们的估值并可以向他们收取更高的价格,这种能力可能会受到威胁。后者包括个人不愿向他人透露的各种特征和行为。这可能出于经济(例如避免定向广告)、心理(例如保持一定程度的自主权)或社会(例如向熟人隐瞒某些行为)的原因.
标准的经济分析倾向于将这些与隐私相关的成本视为二阶成本,原因有两个:如果个人是理性的并被赋予决策权,那么他们只会在得到充分补偿后才会允许别人使用他们的数据,这将确保公司仅在其收益超过隐私成本时才使用数据。其次,在调查中,个人似乎只愿意支付很少的费用来保护他们的隐私,因此使用数据的成本可能远小于数据所带来的好处。然而,当数据控制具有“社会”维度时,这些论点的作用是有限的。这意味着当一个人分享她的数据时,她也在提供关于其他人的信息。默认情况下,这种社会维度几乎存在于所有人工智能的应用中,因为数据的使用专门针对从类似的案例中学习,以便将经验教训推广到其他环境中。
数据的这种社会维度如何影响数据的成本和收益?在本文的研究中,数据的社会维度引入了两个相互关联的影响:
(1)数据的外部性:当一个人分享她的数据时,她会透露其他人的信息。如果数据具有社会价值并且个人没有将其内部化,那么数据的外部性可能是积极的。但是,如果间接数据的披露影响了其他人的隐私,这些外部性可能是负面的。
(2)子模块性:当个人共享他的数据并透露有关他人的信息时,这会降低他人信息对他们自己和潜在数据购买者(例如平台或人工智能公司)的价值。原因很简单,当一个人的有关信息被共享时,这个人自己的数据在预测他的决定时变得越不重要。
本文研究通过以下方式建模:考虑一个由 n 个代理/用户所组成的社区,他们在(垄断的)数字平台上进行交互。每个代理 i 都有一个由 xi 表示的类型。每个用户都有一些个人数据 Si,这些数据可以提供关于她的类型的信息。个人数据既包括个人的私人信息特征(除非她决定共享),也包括她通过在线和离线活动生成的数据。
假设 Si = xi + Zi , 其中 Zi 是一个正态分布的独立随机变量, 均值为0且方差为1。 假设信息的相关概念是均方误差 (MSE), 我们可以将关于用户 i 的泄露信息定义为他类型的最佳估计器的均方误差的减少:
那么,平台的目标是最大化
其中 pi 表示平台对用户i 的付款(“价格”),只有当相关个人直接分享他的数据(即 ai = 1) 时才会进行支付。 价格可以采取对共享数据实际支付的形式或平台间接支付的形式,例如提供一些免费服务或定制。这个格式包含了平台希望获取数据以更好地预测用户类型或行为的想法。
用户i 的目标是不同的。她可能希望保护自己的隐私,而且显然从收到的付款中受益。因此她的目标是最大化:
第一项表示来自其他用户信息的任何积极的直接外部性(例如,因为这提高了个人接受的服务质量但并未完全支付)。第二项是隐私的丧失(捕捉隐私的工具价值和内在价值)。因此 v2 >= 0 这里表示用户i 的隐私价值。最后,最后一项表示她从平台收到的付款。
在市场结构方面,最简单的选择是假设平台让用户选择接受或离开以获取他们的数据。一个重要的结果是 Ii(a) 是单调和子模块性的。 第一个属性意味着当一个人直接分享她的数据时,这会微弱地增加平台拥有的关于所有个人的信息。从经济上讲,这意味着当其他人共享更多关于某个人的数据时,这个人直接共享其数据所传输的信息较少。
我现在用两个简单的例子来说明这种设置对数据共享和福利的影响。考虑一个有两个用户的平台,i = 1, 2,并且 v1 < 1 使得第一个用户的隐私价值很小,但v2 > 1,这意味着由于很强的隐私担忧,不让用户2 的数据与平台共享对社会有益。最后,假设两个用户的数据之间的相关系数大于0。由于v1 < 1,平台将始终购买用户 1 的数据。但这也意味着考虑到两个用户数据之间的相关性,它将间接了解用户 2。如果 足够大,很容易看出关闭数据交易并且不允许用户 1 出售他的数据在社会上是最优的。这是因为她在间接泄露用户2的信息,用户2的隐私价值非常大。这说明了数据外部性如何导致效率低下。事实上,如果足够高,总是包含用户1出售自己数据的均衡可以是任意无效的。
更有趣的是子模块性的后果,也可以用这个例子来说明。为了理解这些,让我们考虑两个用户的信息高度相关的边缘情况。在这个例子中,平台将从用户 1 的数据中知道关于用户 2 的几乎所有相关信息。重要的观察结果是,用户 2 的数据泄露破坏了用户 2 保护其数据的意愿。事实上,由于用户 1 几乎透露了关于她的一切,她愿意以非常低的价格出售自己的数据。因此,在这种极端情况下,平台购买用户 2 的数据的意愿和用户 2 从保护她的数据中获得的收益都非常小,价格大约为 0。在这种情况下数据的价格和数据市场的运作令人不安的部分是:一旦第二个用户出售她的数据,这也几乎完美地揭示了第一个用户的数据,因此第一个用户也只能为她的数据收取非常低的价格。因此,该平台将能够以接近零的价格获得两个用户的数据。显然,这个价格并不反映用户的隐私价值。他们可能都希望保护他们的数据并从隐私中获得重要价值。然而,市场会诱使他们以接近零的价格出售他们的数据。再次想象 v2 足够高,尽管对其中一个用户而言隐私具有如此高的价值,但仍将有大量数据交易,数据价格将接近于零,并且均衡将显著(任意)无效。这些后果来自于子模块性。
第二个例子, 现在两个用户之间没有异质性的情况,因此 v1 = v2 = v > 1。这种配置意味着两个用户都不想出售他们的数据(因为他们的隐私比数据对平台的价值更重要)。无论如何,可以证明只要v 小于某个阈值(它本身严格大于 1),就存在一个均衡,其中平台以相对便宜的价格购买两个用户的数据。这也是子模块化的结果:当每个用户都觉得另一个人会出售自己的数据时,他们就不太愿意保护自己的数据而更愿意以相对便宜的价格出售。这将两个用户锁定在一个平衡中,在这种平衡中,他们数据的价值低于他们通常假设的价值,并造成数据交易再次过多。
一个值得注意的结论是,除了导致过度的数据使用和交易外,外部性还使盈余的分配有利于平台。假设 v1 = v2 = v <= 1 和相关系数约为 1,此时数据被平台所使用是对社会有益的。在均衡状态下,数据价格将再次等于零,因此平台将获得使用数据的所有好处。
数据的外部性和它们所创造的低效率实际上是否相关?答案是不确定。如果正如业内人士所推测的那样,数据的好处非常大,那么它们将超过本文所强调的数据外部性的成本。即使在这种情况下,市场均衡也不会完全有效,尽管平台和公司对数据的使用总体上可能会增加福利。但是,有理由相信隐私考虑在实践中可能非常重要。首先,许多数字平台都处于垄断或准垄断的境地(例如谷歌、Facebook 或亚马逊),因此它们从消费者那里榨取租金的能力是显著的。
总之,在这种情况下的一般经验是明确的:当个人的数据与他人的行为或偏好相关时(这是几乎所有数据应用的默认情况),我们必须考虑新的经济力量,并且这些经济力量可能会因为使用数据密集型人工智能技术而产生成本。特别是:
1)数据的社会性质(使公司能够使用个人的数据来预测他人的行为或偏好)创造了外部性,可以是积极的也可以是消极的。当负外部性很重要时,企业和平台往往会过度使用数据。
2)数据的社交性质还产生了一种新型的子模块性,当其他人共享他们的数据时,每个人都不太愿意保护自己的数据。这种子模块性增加了负面的外部性,但更重要的是,它意味着数据价格将被压低,并且不会反映数据或隐私对用户的价值。
3)除了导致过度使用数据之外,这两种经济力量都具有最重要的分配后果:它们将盈余从用户转移到平台和公司。
如果这些数据使用和人工智能的成本很重要,那么也需要对数据市场进行监管。
数据与不正当竞争
02
人工智能技术增强了数字平台和公司使用来自这些平台的数据来预测消费者偏好和行为的能力。从好的方面来说,这可能使公司能够为客户设计更好的产品(毕竟,这是人工智能的主要好处之一)。但使用此类数据也可以改变竞争的性质。当某些公司相对于其竞争对手而言更适合收集和使用数据时,这些影响会变得更加明显,这就是我将在本小节中重点讨论的情况。特别是,一个公司收集和使用其他人无法访问的数据可能会造成一种“不公平竞争”,使这个公司能够获得消费者剩余并放松价格竞争。
本文在最简单的设置中拓展这一点,使用带有两个公司的 Hotelling 型静态模型。主要的经验是,即使数据提高了产品质量,它也会产生强大的力量将剩余的分配从消费者转移到公司。人工智能不会影响购买的数量,即使它减少了消费者福利,它也会增加功利性福利——特别是,更多的定制会降低“运输成本”。该模型的逻辑强调,当存在数量/集约利润时,情况不一定如此,因为更高的加价可能会无效率地减少购买数量。我们将在下一小节中看到,在类似环境中,效率低下还有其他原因。
总之,这个模型的一般经验是对上一小节的补充:
1)使用人工智能技术和详细的消费者数据进行预测可能会提高公司为消费者定制产品的能力,从而有可能提高整体盈余。
2)然而,它也增加了(一些)公司对消费者的影响力。
3)这具有直接的分配意义,使人工智能密集型公司能够获得更多的消费者剩余。
4)一个国家更好地收集和处理数据的间接影响是放松市场上的价格竞争,提高价格并放大直接分配的影响。
虽然在这个模型中,引入人工智能技术后经济的总体盈余增加,但在上一小节中我们看到,在存在其他与数据相关的外部性的情况下,这不一定正确。在下一小节中,我们将遇到一个新的扰乱平台所提供的产品构成的经济力量。
行为操纵
03
前一小节讨论了即使是对消费者偏好和行为的改进预测的有益使用也可能会带来负面影响。但改进的预测工具也可能被用于恶意用途,可能产生广泛的负面影响。收集和有效处理大量数据的平台可能能够预测消费者行为和偏见,超出消费者自己的了解或理解。这种担忧的轶事比比皆是,包括连锁店 Target 成功预测女性是否怀孕并向她们发送婴儿产品的隐藏广告,或者各种公司估计“主要脆弱时刻”并发送在此类时刻倾向于冲动购买的产品的广告。它们还包括针对老年人或儿童等“弱势群体”的营销策略。不太极端的广告策略也有相同类型的操纵元素,例如,当网站偏好信用卡或订阅程序等具有延迟成本和短期收益的产品时,或者当 YouTube 和 Facebook 使用他们的算法估计和偏好更容易上瘾的广告或新闻提要来提供给用户时。
尽管这些担忧与广告本身一样古老,但经济学家和政策制定者希望消费者能够学会如何保护自己免受滥用行为的侵害。然而,数字平台使用人工智能技术和海量数据集改进预测的能力突然激增,削弱了这一观点。在人工智能和大数据时代,让消费者很好地适应现有实践的学习动力将很快过时。人工智能技术的部署再次提高了平台预测消费者偏好和行为的能力——因为它可以访问许多相似消费者的数据以及他们对相似产品的体验。如上所述,我认为这超出了消费者自己的了解。更一般地说,这体现了平台预测个人是否会进行冲动购买或做出具有明显短期利益和长期成本的其他选择的能力。因此,平台预测消费者偏好和弱点的能力导致其可以通过营销可能在短期内吸引消费者的低质量产品来增加其利润。
与上一小节中的模式相反,这不仅以牺牲消费者的利益为代价增加了平台利润,而且还扭曲了消费,因为它吸引消费者转向低质量商品,减少功利性福利。
这种情况下的一般经验教训是互补的,但与我在前两个小节中强调的经验不同:
1)人工智能技术可以让平台比消费者自己更了解消费者的偏好。
2)这为潜在的行为操纵开辟了道路,由此平台可以提供可能暂时看起来比实际质量更高的产品。
3)这种行为操纵往往不仅仅是将剩余从消费者转移到平台,它还扭曲了消费的构成,创造了新的不合理性。
技术选择和监管的作用
在以上所有讨论的这些情况下,问题都不是 AI 技术本身所固有的。相反,本文所强调的危害是由企业和社会如何部署这些技术的选择造成的。尽管这些成本范围很广,但它们表现出许多共性,本节将探讨这些共性和一些可能的补救措施。本节的重点将放在三个主要思想上:
1) 选择的重要性,包括如何使用现有人工智能技术和人工智能研究方向。本文模拟的成本不属于人工智能技术的性质,而是取决于这种新技术平台如何被开发以增强公司对抗工人的能力。
2)主要依靠竞争加剧的市场解决方案不足。
3) 监管的需要。
AI 的所有这三个潜在成本都取决于 AI 技术如何实现数据的使用和控制。在每一种情况下,对数据的控制权的不同分配方式都可以减轻或避免大部分成本。在数据过多一节考虑的模型中,低效率的来源是平台从个人共享的数据中找出其他人信息的能力。这为潜在的数据滥用开辟了道路,例如为了减少消费者剩余或以其他方式侵犯他们的隐私。在这种情况下,有效的监管可以采取两种形式之一。首先,有可能剥离个人的部分数据,以防止或最大限度地减少有关他人的信息被泄露(细节在这里很重要,只是匿名数据没有用)。其次,更系统的规定平台如何利用他们获得的信息将减少通过隐私产生的有害影响。
相比之下,在这种情况下增加竞争可能是不够的,甚至没有用。在数据过多一节中的分析侧重于垄断平台。如果有两个平台竞争吸引用户,这可能会加剧数据外部性的有害影响。
在行为操纵一节考虑的模型中,低效率的来源是平台通过泄露的个人数据来操纵他们弱点的能力。如果可以防止这种对数据的滥用,或者如果可以让消费者更加了解数据的使用方式,则可以避免其中一些成本。例如,假设消费者经常被告知平台更了解他们的偏好,有时会推销对他们不利的产品。虽然不能保证此类信息警告对所有消费者都适用,但如果它们被显眼地展示并且是特定的(例如,根据个人群体和相关产品类别进行校准),这可能避免一些上面分析所识别出的危害。在这种情况下,增加竞争也不是有效的解决方案。如果两个平台都在争夺消费者,但消费者仍然是半行为主义的并且没有意识到平台能力的增加,那么两个平台可能会试图利用他们的能力来提供具有短期明显利益和长期成本的商品。
在研究数据与不正当竞争一节中的经济力量时,问题是相似的,但现在竞争的影响更加微妙。在这种情况下,有效的监管将阻止公司使用其获得的附加信息来获取所有消费者剩余。对价格歧视的控制和限制可能是实现这一目标的一些方法,尽管这种监管显然远非直截了当。如果我们可以在这种情况下增加竞争,会发生什么?由另一个公司使用人工智能方法来估计其自己过去消费者的偏好并相应地定制服务而导致的更大的竞争不一定有用。现在两个公司都成为当地垄断者,占据了所有的消费者剩余。然而,如果每个企业也可以获取其他公司的顾客信息并且可以防止串通,那么他们就可以被诱使竞争,而消费者可能会从中受益。因此,这个案例强调,在某些情况下,促进竞争可能会带来好处,尽管即使在这种情况下,它也只能在有限的范围内并且只有在满足某些特定情况的条件下这样做。
本文还强调了在这种情况下对人工智能研究方向的影响。假设人工智能研究人员可以投入时间来开发这一广泛技术平台的替代应用。例如,他们中的一些人可能能够使用人工智能来创建赋予消费者权力的工具,或者开发保护隐私的新技术。尽管如此,如果任何一种控制的机制与滥用信息是相关的,那么这也将产生对使企业能够获取和更好地利用此类信息的技术的强大需求。当消费者购买替代技术的能力相对于企业手中的资源有限时,情况更是如此。在这种情况下,对滥用人工智能的需求将传递给人工智能研究人员,然后他们可能会通过投入时间开发企业需要的人工智能技术来做出回应,并远离可能具有更大社会价值或赋予消费者权力的技术。正是由于这个原因,当创新本身不受监管时,它不太可能产生自我纠正的动力。相反,滥用人工智能的需求通常会扭曲不同应用之间的研究分配,扩大其社会和经济成本。
以下为文章部分截图
……
获取完整文章
请后台回复“人工智能的危害”
获取下载链接
END
编辑/张晨希
责编/李锦璇
【延伸阅读】