Michael Jordan:人工智能研究的目标变了,不再是构建单个智能
【专栏:研究思路】我们认为,人工智能进入了新的拐点。在一个后深度学习时代,不同的学者对未来智能发展道路的理解逐渐清晰,当然也逐渐开始分化,由此导致了开展布局完全不同的研究工作。智源社区将系统分析全球范围内知名学者对未来研究布局的「研究思路」,以帮助大家思考人工智能的未来。
作者:熊宇轩
加州大学伯克利分校的世界顶级机器学习专家 Michael I.Jordan,除了广为人知的「人工智能 - 革命尚未开始」的观点外,另外一个观点则更为重要,即人工智能正逐步由原理性研究,走向人工智能工程。
这种观点,Jordan曾在多个场合详细阐述过。面向中国听众,则是2020年9月在「北大人工智能开学第一课」上的报告《机器学习与微观经济学的融合》。
他认为,随着机器学习的蓬勃发展,人工智能的目标发生了本质性变化,不再只是去研究如何「在单个计算机上复现人类智能」,更重要的是如何「构建现实世界中的系统,从而解决现实世界中的超大规模问题」。
何为「现实世界中的超大规模问题」?经济学显然是其中一个代表。Jordan以此作为「人工智能工程」的范例进行分析。
下面一段是Jordan的原话整理:
详细内容阅读……
在报告中,Michael Jordan 讨论了如何在学习系统中做出决策,他为此列举出了同时涉及电子商务和学习系统中的经典工作;随后,他从强化学习的角度讨论了序列化的决策;并用了一个小的章节讨论错误发现率(false discovery rate),而并未涉及汤普森采样、郎之万扩散等内容;最后,他简短地讨论了为了支撑这种大规模的活动,我们需要构建怎样的计算机系统,尤其是完成去中心化的异步计算。
我们也将报告的内容整理如下,作为参考:
目录:
机器学习与微观经济学的融合
一、何为决策
二、由决策形成的市场
三、机遇与挑战
四、思维实验:在匹配市场中计算「老虎机」
五、当 UCB 算法遇上强化学习
六、异步、在线、连续的决策
Michael Jordan 首先讨论了他眼中的「决策」与「市场」,从这两个方面思考了正在兴起的机器学习浪潮。
一、何为决策
我们不妨思考一下,什么是真正关键的决策?
它通常不会仅仅是判断图像中是否有一只猫,或交易中是否存在欺诈行为。这些判断也很重要,但并不是真正的决策。
假设你正在看医生,医生会对你进行仔细的检查,获取有关你的大量数据(例如,基因组数据、心率、血压等)。想想一下,这些数据都会被输入给一个巨型的模式识别系统,它可能是一个使用世界上所有医疗数据训练的最大的神经网络,假设该系统预测你将会心脏病发作。那么问题来了,这样的结论是一种「决策」吗?
在 Michael Jordan 看来,答案是否定的。在得到预测结论后,你首先会追问:该结论的误差棒图(error bar)情况如何,其不确定性有多大?事实上,「决策」过程往往涉及到不确定性,它在我们的现实生活中无处不在,我们需要对这种不确定性进行管理,这也许就要求我们获取更多的数据。我们想知道,这种不确定性究竟因何而来,是因为我们使用了旧的数据进行预测、使用了旧的机器,还是由于这些数据是从与待预测样本差距较大的人那里收集到的?为了让我们理解这种不确定性,我们需要让医生、或者本例中的人工智能系统向我们给出推理过程。
此外,我们还会关心诸如「反事实」之类的事情:假如我们曾获知另一种观点将会如何?假如我运动得更多将会如何?假如我改变自己的饮食习惯将会如何?也许,我会意识到一些过去没有想到的事情(例如,我在童年时期患有某种病,或我的父母层患有某种疾病,等等)。
我们认为,神经网络或其它任意的学习系统都无法将世界上所有的数据都考虑到。这是因为,大多数与我们特定决策相关的事情是我们之前从未想到过的,因此也就可能从来没有被记录,只有当我们在做出决策时这些才会思考这些相关的事情。在这里,当我们做出是否采取某种行动的决策时,更多地涉及到「市场」的思想,它取决于我们做决策时的具体环境。此时,「决策」不仅仅是模式识别系统中的一个阈值,它是一个对话式的系统、是对反事实的论证,同时可以引入其它的数据。
通常而言,我们往往需要做出一系列决策,而不仅仅是做出某一个决策。在每个人的日常生活中,我们每天都需要做出一系列的决策,而此时我们就与其他做决策的人联系在了一起。即使在医疗系统中,别人的遭遇也会与我们自己的决策相关,我们需要知道这些结果。Covid-19 的爆发就是例证之一,其中我们所有的治疗方案都需要随着医学知识网络的不断学习而做出调整。因此,我们需要考虑整个大型网络上的误差率,诸如错误发现率(false-discovery rate)这样的指标相较于分类精度、召回率、准确率等指标就更为重要了。我们还应该考虑跨越较长的一定时间(数年)的决策,尤其是在医疗、金融、商业等领域中,决策行为会在很长一段时间内发生(例如,做出投资或者实现某项计划)。
需要强调的是,每当我们在一个较大的环境中做出决策时,往往会涉及到其他的决策者,这些决策之间需要进行交互。此时就会涉及到「稀缺性」(scarcity)的问题,由于某些限制,我们无法保证每个人拥有的数据都是相同的。因此,在思考该问题时,我们需要针对这种稀缺性做出一些折中的策略,将它们作为学习系统的一部分。尤其是站在我将提到的「微观经济学」视角上时,我们会讨论不同的参与者,以及它们的价值、效用,并试图找到这些决策者之间的折中策略。此时,每一个决策者都是第一个学习系统,这对于经典的微观经济学来说是一种新的视角,它涉及到「学习」,但绝不仅仅局限于我们现在所关注的「机器学习」。
前文提到的某些观点源于 Michael Jordan 对传统推荐系统的思考。传统的推荐系统是经典的模式识别系统,它们挖掘出某位用户的购买模式,并用其预测其他人的购买模式,从而生成推荐结果。这种系统在人们的日常生活中无处不在,它们是机器学习在预测方面的应用,但并非在决策方面的应用。
图 2:竞争环境下的多重决策
然而,对于现实世界中的推荐系统而言,会由多人做出多重决策,此时会产生一些新的问题。例如,在推荐电影、书籍等物品时,如果我们将相同的商品推荐给大量的人,由于不存在稀缺性,这并不是一个很困难的问题。这是一种经典的推荐系统的视角:在计算机中,并不存在稀缺性问题,我们按需对信息进行拷贝。但是,当我们推荐现实世界中的物品时,以餐馆为例,我们无法在同一个晚上向成百上千人推荐同一家餐馆,如果有许多收到推荐的人前往了这家餐厅,就会排起长队,从而得到很差的就餐体验;类似地,我们也无法向所有司机推荐同一条道路,如果我们同时向许多人(比如 10 万人)推荐前往机场最近的一条路径,由于他们都涌向了这条路径,就会造成拥堵,从而使这条路径不再是最快的;我们不能向许多人同时推荐购买相同的股票购买策略,因为这会破坏股票市场的稳定,估价会由于人为因素而上涨。总而言之,我们不能直接将推荐系统的输出提供给大量的用户,并且希望做出很好的决策,因为各方的交互会引起许多新的问题。
二、由决策形成的市场
图 3:另一种方案——创建一个市场
我们看到,人们如今构建的学习系统在面对大规模现实世界应用时会引起许多问题。一种可供选择的方案是:从创建一个市场的角度思考我们的系统。我们可以建立一个消费者和生产者之间的市场,在这两方都创建推荐系统。例如,在市场的一侧是食客、另一侧是餐馆,我们希望将食客与餐馆匹配起来,两方都可以通过推荐系统对另一方进行学习。因此,这个大型系统需要同时进行推荐与匹配。
同样地,我们也可以在交通场景下应用这一思想。例如,每个路段可以向司机「投标」,接着司机将选择是否接受这个投标,甚至可以为其支付一定费用,这可能成为某种拍卖机制。如果没有这种机制,如果有太多司机在路上时,就需要有人来决定谁可以从某条路上经过。那么,应该由谁来做出这一决策呢?实际上,不会有人知道足够的信息来做出一个好的决策。我们无从知晓哪些人想要快速通过这一路段,或者哪些人为了省钱希望走慢一点的路。这也正是市场可以发挥作用的场景。
Michael Jordan 与蚂蚁金服的 Yuan Qi 团队有着长期的合作,他本人也担任了该集团的科学顾问。许多将市场与机器学习相结合的原创思想正是来自于他与蚂蚁金服团队成员的交流,他们试图为蚂蚁金服寻找到一种商业模式,从而将商家与人们连接起来,构建一个双向的市场。
图 4:从算法的角度看待市场
Michael Jordan 指出,我们可以从算法(而不仅仅是学习算法)的角度看待市场,这些算法每天完成着「将食物运送到城市中来」这种任务。这些算法是去中心化的,它们在大规模和小规模的环境下都可以工作,它们也是自适应、鲁棒的,已经在数千年的时间里发挥了作用。这些算法并不是完美的,市场需要被规范化。当我们构建新的市场时,需要引入一些新的思考,而这些原理并不是现成存在的,这也正是我们试图将机器学习引入微观经济学的动机:我们需要创造新的市场和新的思维方式。这也是正在兴起的机器学习工程的一部分,即基于大规模学习的市场的数学原理。
图 5:经济学视角下的机器学习问题
接下来,Michael Jordan 从经济学的角度讨论了一些现有的机器学习问题:
(1)隐私数据分析:当我们从大量人群中获取数据时,我们希望保证这些数据的隐私安全。通常,我们通过差分隐私保护等方式对其进行量化,此时我们向数据中添加一定量的噪声,使我们无法区分相邻数据集(例如,无法确定谁在数据集中)。但是,从经济的角度来说,这里也涉及一些折中策略。如果有人想要获得我们的数据,我们需要甄别他们的意图。如果有人想将我们的医学数据用于研究其家族相关的疾病,那么我们将很慷慨地向他们提欧共那个数据。而如果有人想将这些数据用于设置保险,尽管这对社会有益,但是对我们并不重要,那么我们可能向数据中加入更多的噪声,从而保证差分隐私。我们需要在隐私保护和经济收益之间折中。
(2)公平性:在为人们提供服务时,我们希望在某种程度上公平地对待所有的人。由于我们有着不同的目标、喜好、效用,这并不代表我们要以相同的方式对待每个人。从经济学的角度来看,实现公平性意味着我们要更多的考虑每个人的喜好和效用。
(3)主动学习与实验设计:在决定应该收集怎样的数据时,我们需要考虑收集数据的目的,还要考虑是否有合作者和对抗者。如果我们有合作者,也许我们可以让合作者去收集数据;而如果我们处于对抗状态下,我们也许不用考虑某些对抗者不会涉猎的分支情况。
(4)涉及激励的分类与评估:这是一个新型的研究领域,在很大程度上是机器学习与微观经济学的结合。
三、机遇与挑战
图 6:将机器学习与经济学结合时遇到的问题
在研究如何将机器学习与微观经济学相结合时,研究人员将遇到一系列新的问题。
首先,我们需要考虑复杂市场(multi-way market),其中各个独立的智能体需要通过探索来学习它们的偏好。通常,在博弈论和市场设计中,我们会假设这些偏好是已知的;而当它们在学习系统中未知时,由于我们参与到了市场中,我们会希望学习到这些偏好。
第二,在具有推荐系统的大规模复杂市场中,我们需要构建在成百上千的物料(例如,餐馆、书、电影)中做出选择的智能体。在经典的微观经济学视角下,我们已知对于所有物品的喜好程度,而这实际上是不可能实现的。
这些新出现的问题都有一个共同的宏大目标:发掘一些新的原理,从而构建基于学习的健康、公平的市场,这种市场在很长一段时间内是稳定的。这种健康的系统需要为人们带来幸福感、公平感、经济价值。很不幸,我们至今还没有发展出这样的原理。
四、思维实验:在匹配市场中计算「老虎机」
接下来,Michael Jordan 介绍了一个简单的思维实验,它将经济学概念「匹配市场」与机器学习概念「多臂老虎机」结合了起来。
图 7:「多臂老虎机」
在传统的模式识别系统中,针对每个待识别的样本,我们会知道正确的答案(即「标签」),而「多臂老虎机」的有趣之处在于,我们并不知道正确的答案。如图 11 所示,我们可以从三个动作中进行选择,当我们选中其中的一个动作(action)后,就可以得到相应的奖励(reward),这些奖励是随机的(有时也可能是对抗性的),我们的目标是最大化平均的奖励。
显然,这里我们需要面对「探索-利用」问题。在对所有的摇臂进行若干次探索后,我们会发现摇动某个摇臂得到的结果会比摇动其它摇臂得到的结果更好,我们就会更频繁地摇下这个摇臂,从而得到更多的奖励,这是一种对「探索-利用」问题微妙的折中方式。
如今,「多臂老虎机」问题已被学者们广泛研究。举例而言,一种简单的算法是,我们对每个摇臂采样 100 次,然后找出值最大的摇臂且从此以后都只对该摇臂进行采样。我们通过遗憾值(regret,智能体较差的性能相较于已知的最优性能之间的差距)衡量模型的性能,偶尔模型性能会很差。因此,我们希望得到非线性增长的累积遗憾值(如果遗憾值线性增长,那么在每次试验中我们都会得到较差的性能,模型不会学到任何东西)。具体而言,我们希望累积遗憾值是亚线性的(例如,n 的平方根函数,或者以 n 为底的对数函数)。
图 8:UCB 算法
下面,我们将介绍一种在某种假设下累积遗憾值为以 n 为底的对数函数。该算法不仅可以维持一定的奖励的均值,还可以维持奖励的置信区间上界,因此被称为「置信区间上界算法」。在这个实验中,我们拥有摇臂 1、2、3 的置信区间界限,该算法会选取出拥有最高置信区间上界的动作。该算法融合了两种思想:(1)拥有最高置信区间上界的摇臂可能拥有较高的奖励,整体的奖励分布可能上移了,因此出于「利用」的考虑,我们应该选用这种摇臂。(2)该摇臂之所以具有较高的置信区间上界,是因为我们没有进行充分的「探索」,从而导致置信区间较宽。因此,我们应该继续选取该摇臂,使置信区间变窄,从而判断该摇臂是否足够好。
图 9:匹配市场
在前文中,从学习的角度来说,我们确定了可以找到最优动作的决策者,并多次反复使用这一决策者,从而得到类似于「以 n 为底数的对数函数」形式的累积遗憾值。而从经济学的角度来说,我们研究了「匹配市场」,这是一种简单的市场,它并不考虑货币,而重点关注匹配情况。在匹配市场中,一侧是买家,而另一侧是卖家。在本例中,我们假设知道买家的偏好(例如买家 1 对于摇臂(卖家)的偏好为 1>3>2),相同地卖方也有其偏好,我们将设计算法找到一种匹配方案,使得买卖双方在局部范围内都尽可能地满意。
图 10:将多臂老虎机学习应用于匹配市场
然而,当我们并不知道市场中买卖双方的偏好时,就不能使用上述算法了。我们是否可以将其作为一种有待学习的「多臂老虎机」问题,从而找到合适的匹配方案呢?
图 11:在匹配市场中竞争的智能体
假设我们有两个智能体,如果它们选择的是不同的摇臂,则它们都可以得到其奖励;但当它们同时选取了同一个摇臂时,则只有一个智能体能得到奖励,另一个智能体的奖励值为 0。那么,在图 15 中,究竟是人还是熊能够得到奖励呢?这取决于摇臂的「偏好」,即摇臂对于市场另一侧的智能体(买家)也有其偏好。
图 12:多臂老虎机市场
而此时,摇臂的偏好也是未知、不确定的,它可能是随机的也可能可以通过学习得到。在智能体选取摇臂的过程中,不同的智能体有时会同时选取相同的摇臂,在这个竞争过程中,有的智能体会胜出,有的智能体则会失败。对于那些在竞争中经常失败的智能体而言,激励机制会促使它们探索其它的摇臂,尽管这些额外的探索会使其累积遗憾值增加,但是为了在博弈中胜出,这种探索仍然是十分必要的。
图 13:多臂老虎机市场中的遗憾值
多臂老虎机市场中的遗憾值指的是,相较于在所有偏好已知的情况下使用 Gale-Shapley(GS)算法找到的最优匹配方案,我们能够得到多少奖励。
图 14:遗憾最小化算法
为此,我们研究了一种名为「Gale-Shapley 置信区间上界」(GS-UCB)的算法。GS-UCB 算法并未使用 GS 算法中的平均奖励,而是将置信区间上界用于了 GS 匹配算法,这也是将学习理论中的概念应用于匹配的范例。
图 15:非正式的遗憾值定理
在这里,我们可以证明一个定理:GS-UCB 算法可以得到对数级的遗憾值。因此,这是一个性能优异的学习器。其中,△的平方是一个惩罚项,它取决参与博弈的其余智能体,若△较小,则遗憾值较大。
五、当 UCB 算法遇上强化学习
上文的多臂老虎机市场是一种不确定性和探索利用问题的特定应用场景,其中我们只需做出一项决策。下面,让我们考虑做出序列化决策的情况,此时我们需要涉及一些强化学习问题。本节内容会讨论强化学习领域中著名的「Q-Learning」算法。
图 16:强化学习
强化学习是一种马尔科夫决策问题,与多臂老虎机问题相类似,我们需要考虑状态(state)、动作(action)、奖励(reward)。
图 17:基于模型的强化学习 vs. 模型无关的强化学习
强化学习有两种主要的方法:(1)基于模型的强化学习:定义一个状态转移模型来进行信用分配(credit assignment),并根据该模型发展出策略。(2)模型无关的强化学习:直接应用某些梯度算法对模型进行调整。那么问题来了,哪种方法、在怎样的情况下是最优的呢?我们是否可以计算出这些方法的遗憾值界限?然而,至今并没有很多与遗憾值界限有关的工作出现,这是因为我们在研究强化学习时,往往没有考虑探索,而只研究利用。我们往往在事后通过「ε-贪婪」(ε-greedy)等方法加入探索的过程。我们希望将探索作为算法的一部分,并且分析强化学习中的遗憾值。
图 18:将 UCB 用于 Q-Learning
Q-Learning 是一种随机化的动态规划算法(如图 22 中蓝色部分所示),我们向其中加入了探索奖励 b_t,它也是一个置信区间上界项,而不仅仅是在 Q-Learning 中使用基于过去经验得到的 Q 值。
图 19:非渐进式强化学习理论研究进展
图 19 展示了非渐进式强化学习的理论研究进展。对于基于模型的强化学习而言,各种方法的遗憾值中都包含 T 的平方根这一项,代表对于时间(试验次数)的依赖。对于模型无关的强化学习而言,以使用了 ε-贪婪 过程的 Q-Learning 为例,其遗憾值包含 T 的线性函数,这比基于模型的强化学习性能要弱一些。当我们将 UCB 应用于 Q-Learning 时,其遗憾值仍然包含 T 的平方根。这说明,当我们真正将探索作为算法的一部分时,基于模型的强化学习并不一定优于模型无关的强化学习。
六、异步、在线、连续的决策
除了做出单项决策、序列化的决策之外,我们还可能需要同时做出许多决策,它们甚至可能是一些异步的决策。
图 20:做出持续终生的决策
在本例中,我们试图做出持续终生的决策,在这一过程中,可能又不止一人做出决策。我们将从经济学的视角看待这种决策,将决策中统计上的误差界看做一种「财富」。在我们生命的起始指出,我们拥有一定量的「财富」。我们假设能够容忍的误差为 α=0.05,当其值低于这个下界时,我们将停止做出决策。在经典的统计理论中,随着我们做出更多的决策,这种「财富」将会衰减。这是因为第一类误差的概率将会增高,而我们需要控制它。举例而言,当我们使用 Bonferroni 校正时,若能量(power)过低时,我们将停止做出决策,从而避免误差过大。
然而,我们希望研发一种新的决策范式,使我们不需要因为上述原因停止做出决策,我们可以终生持续地做出决策,同时能够控制误差率。因此,我们需要考虑另一种形式的误差率:错误发现率(FDP,false discovery rate)。近年来,错误发现率这一概念逐渐兴起,并在统计学界广为人知。但在这里,我们将说明这一概念的兴起也可以从经济学的角度得到解释。
图 21:错误发现率
简而言之,假设我们在多重决策问题中需要作出 9 个决策 P_1...P_9,这些 P 值代表一些描述数据支持零假设的概率的统计量。在本例中,P1、P4、P7、P8、P9 支持零假设(灰色),而 P2、P3、P5、P6 支持非零假设(红色)。在给定红色 P 值的情况下,我们将拒绝零假设,进行进一步的发现。相较于接受零假设,进行这种发现在科技领域更为重要。我们希望避免假正例的出现,因此这种发现十分必要。
假设在某些算法中,我们应用了图 25 中的数据 P9、P8、P2、P3 进行了发现。这一发现并不理想,因为 4 个数据点中包含 2 个错误发现(即 P9、P8),此时错误发现率为 0.5。
那么,我们如何更好地控制这种误差标准呢?这种误差是由错误发现数除以发现总数得来,它与精度、召回率、灵敏度、特异性、第一类误差、第二类误差等标准有所不同。通常,我们将使用 FDP 的期望。
图 22:应用 FDR 的示例
为了说明 FDP 在现实生活中的重要性,我们不妨看看图 26 中的例子:假设我们身处于一个公司或实验室中,有一天我们需要进行 10,000 次不同的、独立的 A/B 测试。假如在这 10,000 次测试中,有 9,900 次测试支持零假设,而 100 次测试支持非零假设(我们需要对它们进行发现)。此时,我们有一个性能良好的神经网络可以得到很好的分类结果(其第一类误差仅仅为 0.05,即假正例率为 0.05)。当我们将这个神经网络应用于数据上时,在 9,900 次支持零假设的数据样本中,我们将进行 9,900*0.05=495 次错误发现。类似的,假设该神经网络在第二类误差(功效函数)的方面也有很好的表现,它将在 80% 的情况下进行发现,即在 100 次支持非零假设的测试中会进行 80 次发现。此时,灵敏度和特异性都很好。但问题是,当我们将所有针对这些数据的发现数相加时,在总共 575 次发现中有 495 次都是错误发现,这是非常糟糕的。
图 23:经典的 FDR 控制策略
大约 1990 年前后,人们发展出了经典的 FDR 控制策略。著名的 Benjamini-Hochberg 过程针对大量的多重决策控制了 FDR,它引入了对 P 值的排序,但它并不是一种持续工作的在线算法。这是一个很大的问题,因为只有当我们获得了所有的数据点后才能做出决策,这大大降低了工作效率。此外,排序算法也非常复杂。我们是否能找到一种方法每次获得数据就做出一个决策,同时还能够控制 FDR?
图 24:SAFFRON 算法
为此,我们基于一些统计学家的工作研发了「SAFFRON」,它使决策者可以持续地随时保持对 FDR 的控制。这意味着,我们可以终生持续做出决策,并且可以随时中断这个过程,并且统计到目前为止总共做出了多少次发现,并且保证错误发现率维持在非常低的水平。这在经典的统计领域中是不可能的,但是其背后的基本思想却非常简单:错误发现比(FDP)是一个由两个随机变量计算出来的比值,我们可以通过令分子变小(使假正例变少)、或者令分母变大(进行更多的发现),从而使这一比值降低。
因此,当我们进行的发现次数不足时,「财富」将减少,此时我们需要把目光投向新的领域,寻找新的数据,从而进行更多的发现。随着发现次数的增多,FDP 的分母将会增大,并且每次进行发现时,「财富」也将递增。在探究完背后的数学原理后,我们可以将这些「财富」分配给人们,而他们可以在未来做出决策时对这些财富进行投资,将其作为一种误差控制策略。如果我们在每次进行发现时都执行这一策略,分子分母将抵消,从而永远将 FDP 的期望控制在 0.05 的水平之下。
图 25:在线 FDR 控制示意图
假设我们在起始状态下有一个对误差的「预算」(例如,0.05),在我们进行检验的过程中,如果我们没有进行任何发现,这一预算将降低。但一旦我们进行发现,我们就会得到新的「财富」,我们可以将其添加到 α 值上,从而持续进行更多的发现。