查看原文
其他

“人类+AI”金融分析师|NBER工作论文

FinTech研究所 人大金融科技研究所 2023-03-29

自从 AlphaGo 战胜人类围棋大师以来,有人对人工智能发展表现出担忧,电影中的人类与机器爆发战争是否会成为可能?然而,人类和机器之间除了竞争还有合作,人类+机器是否能结合各自所长,实现新的突破?《从人类VS机器到人类+机器:股票分析的艺术和人工智能》 (FROM MAN VS. MACHINE TO MAN + MACHINE: THE ART AND AI OF STOCK ANALYSES) 研究了机器学习较人类分析师的优势,并将二者结合。中国人民大学金融科技研究所(微信ID:ruc_fintech)对报告核心内容进行了编译。

来源 | NBER
作者 | Sean Cao, Wei Jiang, Junbo L. Wang, Baozhong Yang
编译 | 杨世祺


关于本文研究内容的思考


从文章构建机器学习的模型来看,选取什么样的变量来预测还是由人来决定,传统的经济学研究也是研究变量之间的联系,二者不同之处在于,经济学研究注重识别,机器学习更看重处理海量、复杂数据时应选取的技术。如果有一天机器学习模型能够自主选择变量,获取数据,或许人类就掌握了开启人工智能时代的钥匙。

摘要

文章从企业财务信息、定性披露和宏观经济指标等角度,建立了人工智能分析师,与人类分析师相比,AI能够在股价预测方面击败大多数人类分析师,并获得超额回报。在“人与机器”的较量中,当企业复杂,信息多元、透明且海量时,人工智能分析师的相对优势就更强。而对于需要专业知识的关键信息(例如无形资产的性质)的处理,人力分析师仍然具有竞争力。将人工智能的计算能力与人类理解软信息的艺术相结合,在生成准确预测方面就产生了最大的潜力。我们的论文刻画了高技能职业中“机器+人类”(而不是人类对战机器)的未来。

主要内容

研究背景


自诞生以来,人工智能(AI)不断促使人类重新思考自己的角色。虽然人工智能本应是人类的智能增强,但人们普遍担心,人工智能可能会取代人工任务和日益熟练的任务,从而取代目前由薪酬更高、受过更好教育的工人从事的工作。这样的担忧和相关的争论推动了相关文献的迅速发展。大量学者最近的研究都对工作暴露的程度和对人工智能相关技术的脆弱性以及对就业和生产力的影响进行了大样本分析。

现有的文献大多集中在描述容易受到人工智能进化破坏的工作类型,以及那些可能因人工智能进化而创造的工作类型。换句话说,现有研究的情绪大多涉及“人与机器”的主题,即描述人与人工智能之间的竞争,探索人类适应的方式,并预测由此产生的工作调动。在这样的环境中,人类往往变得被动或被动-处理中断,寻找人工智能领域定义的新机会。致力于说明熟练的人类工人如何通过人工智能技术的增强挖掘更高潜力的研究相对较少,这大概是人类设计和开发人工智能的首要目标。本研究旨在将“人与机器”的较量(下称“人与机器”)与“人+机器”的潜在均衡(下称“人+机器”)联系起来。

我们的研究受到国际象棋大师Garry Kasparov的经历的启发。IBM的深蓝在1997年击败当时的大师卡斯帕罗夫的故事是众所周知的。在类似的背景下重复进行的多场比赛,随后扼杀了在国际象棋比赛中人与机器对决结果的任何剩余悬念。鲜为人知的是,尽管人类对人机国际象棋比赛失去了兴趣,但对游戏和机器都没有失去兴趣。事实上,与深蓝的相遇是像卡斯帕罗夫这样的人开创人机比赛概念的催化剂,在这种比赛中,一名配备了AI辅助的国际象棋棋手(一名“半人马”棋手)与AI竞争。直到今天,半人马在对抗机器时一直占据上风;更令人鼓舞的是,随着负担得起的人工智能工程国际象棋程序的出现,出现了更多更好的人类棋手。

如果人工智能能够帮助更多的人类成为更好的棋手,那么顺理成章地说,它可以帮助我们中的更多人在许多熟练的工作中变得更好,从飞行员、医生到投资顾问。在这项研究中,我们将目光投向股票分析行业,该行业的数据可用性使我们能够对人与机器和人+机器进行校准。股票分析师是市场上最重要的信息中介,他们的工作既需要机构知识,也需要数据分析,而另一方面,越来越多的投资者也开始关注人工智能工具提出的有关选股和投资组合形成的建议。

建立AI模型


为了追溯从“人对战机器”到“人+机器”的路径,我们决定为年报公布日股票收益预测建立我们自己的人工智能模型,以便我们有一个一致的、适应时间的人工智能表现基准。理解并能够解释目标价格和收益是分析师预测的两个主要主题,我们选择前者,因为后者受制于管理层的自由裁量权,这一点在大量关于盈余管理的会计文献中得到了体现。我们的“人工智能分析师”是建立在使用及时公开的数据和信息来训练当前机器学习(ML)工具包4的组合的基础上的。更具体地说,我们收集公司层面、行业层面和宏观经济变量,以及公司披露的文本信息(更新到分析师预测之前)作为输入或预测因素,但故意排除分析师预测(过去和当前)本身的信息。我们求助于机器学习模型,而不是传统的经济学模型(如回归),因为前者在管理高维非结构化数据方面具有优势,而且在优化和拟合未指定的函数形式方面具有灵活性。这一领域的最新发展也使我们能够减轻过度拟合,并改善样本外性能。

我们不断地训练和改进这个模型,直到我们确信我们的人工智能分析师能够击败人类分析师:基于最终的“整体”模型的人工智能分析师的表现超过了2001-2016.5年间所有IBES分析师所做的目标价格预测的53.7%。此外,基于人工智能和人类分析师观点的差异,刚刚平衡的多空投资组合能够使用 Fama-French-Carhart 模型产生0.84%到0.92%的月度alpha。尽管打造一名人工智能分析师并不是这项研究的最终目标,以及我们并不认为我们的人工智能分析师是同类中最好的,但它的表现已经表明,金融分析师这一职业受到技术颠覆的影响,因为我们的模式是最先进的下限。在一定程度上,只要我们拥有一位超越人类同行平均水平的人工智能分析师,我们就能够探索双方的相对优势和潜在的协同效应。

首先,我们考察了人类分析师保持优势的情况,即分析师做出的预测相对于事后实现的绝对预测误差(即实际年终股价)要低于同时进行的人工智能预测。我们发现,人类分析师更擅长分析的是流动性更差、规模更小的公司,以及业务模式较轻(即无形资产更高)的公司,这与这样一个概念是一致的,即这些公司受到更高的信息不对称的影响,需要更好的机构知识或行业经验才能破译。与大型券商有关联的分析师也有更高的胜算,这是他们的能力和可用的研究资源的结合。此外,当相关行业遭遇困境时,分析师更有可能占据上风,这表明人工智能尚未赶上行业衰退等相对不常见的变化。这与当前机器学习和人工智能模型的局限性一致,它们缺乏推理功能,因此不能有效地从罕见事件中学习。正如预期的那样,人工智能在处理信息的能力方面具有明显的优势,当公共信息量较大时,人工智能更有可能胜过分析师。

建立人+AI模型



就像卡斯帕罗夫首创的“半人马”棋手一样,AI分析师的卓越表现并不排除人类投入的价值。如果人类和机器在信息处理和决策方面具有相对优势,那么人类分析师仍可能对“半人马”分析师做出关键贡献,即将自己的知识和人工智能模型的输出/建议相结合进行预测的分析师。在我们将分析师的预测添加到支持我们的AI分析师的机器学习模型的信息集中后,得到的“人+机器”模型的性能超过了分析师所做预测的57.3%,并且在所有年份都超过了仅限AI的模型。因此,人工智能分析师还没有取代人类分析师;事实上,将人工智能的计算能力和理解软信息的人类艺术相结合的投资者或分析师可以获得最佳表现。

因此,我们感兴趣的是知道人对人+机器模型的增量价值何时最高,这体现在人+机器模型与纯AI模型的相对性能上。与之前的发现类似,我们发现,当涵盖流动性更差的公司和拥有更多有形资产的公司时,来自分析师的投入更有价值。此外,分析师的投入在长期预测中具有更多的增量价值,而且在行业经历困难的时期。重要的是,人类的增量价值不会随着信息量(因此对处理能力的需求)的增加而减少,尽管这在单独使用时构成了人类的劣势。同样,与大型银行的分析师相比,小型券商的分析师对人+机器模式的贡献水平相似,这表明人工智能可能有助于缩小机构资源的差距。

最后,我们借助于事件研究来加强人机结合在股票分析中的影响的推论。近年来,“大数据”的基础设施创造了一类新的公司信息,这些信息是在公司之外收集和发布的,这些信息为投资机会提供了独特而及时的线索。一种重要且流行的替代数据类型捕捉“消费者足迹”,通常是字面意义上的,比如零售停车场上的卫星图像。这些数据必须由机器学习模型处理,已被证明包含股票价格的增量信息。我们以Katona 等人(2020) 的数据为基础,交错引入了几个重要的替代数据库,并在替代原生数据可用之前和之后对分析师的表现与我们自己的人工智能模型进行了差异测试。潜在的前提是,覆盖由替代数据服务的公司的分析师可能处于人+机器的境地,因为他们有机会使用额外的、人工智能处理的信息。事实上,我们发现,在发布替代数据后,覆盖受影响公司的分析师相对于我们建立的仅限人工智能的预测模型,改善了它们的业绩。此外,这种改进集中在附属于拥有强大人工智能能力的经纪公司的分析师子集,通过使用Burning Glass美国职位发布数据和Babina等人(2020)开发的分类算法来衡量与人工智能相关的招聘。

总体而言,结果支持这样的假设,即分析师的能力可以通过人工智能来增强,此外,分析师的工作具有增量价值,因此在人工智能的帮助下,他们仍然可以在没有人工输入的情况下击败机器模型,类似于我们前面讨论的半人马棋手表现优异的机器。如果说国际象棋和股票分析在总体上对熟练工人有一定的外部有效性,那么我们的研究得出的结论对人工智能时代的人类来说是令人鼓舞的消息。

机器学习模型(文章附录B)

在这一部分中,我们简要描述了我们论文中考虑的机器学习模型的基本结构和优点。

Quasi-linear Models (准线性模型)



准线性机器学习模型推广了线性回归和分类模型,由于其内在的降维能力,比传统的线性回归模型更灵活,可以容纳更多的变量。准线性模型在模型训练中通常是有效的,因为它们通常与诸如线性和二次规划技术的快速算法相关联。

 Elastic-Net模型是OLS线性回归模型的推广。当预测器数量较多时,OLS往往具有良好的样本内性能(机器学习方面的偏差较小)和较差的样本外性能(机器学习方面的变化较大)。此外,OLS会对大量的自变量产生很大的负荷,使得模型的解释变得困难。作为一个经典模型,收缩模型通过对估计中非零系数的个数和大小施加惩罚,有效地限制了模型只关注自变量的一个子集,实现了降维,从而推广了最小二乘法。

Zou和Hastie(2005)提出的 Elastic-Net 模型就是一种收缩模型,其中函数是系数的L1和L2范数的线性组合。特别地, Elastic-Net 模型最小化了以下目标函数,


决策树



决策树模仿人类的决策。决策树是一系列基于每个分支点的自变量截止值的二元决策。因此,该树将矩形特征空间划分为更小的矩形块。然后,决策树回归使用每个块中因变量的样本平均值作为对块中任何点的预测。

决策树具有易于解释的优点,因为它模仿人工决策(类似于分步指令),并且还可以以图形方式显示(作为二叉树)。树也是一种灵活的非线性模型,在指定分支规则序列的自由度很大的情况下,可以对各种非线性模式进行建模。

然而,由于二元分枝过程的限制性形式,树本身并不具有很高的精度,这迫使样本被分成矩形区域,并且可能不能很好地逼近真实的潜在模式(无论是线性的还是非线性的)。此外,由于树结构是离散的,而不是连续的,因此数据的微小变化可能会导致估计树的结构发生较大变化。有几种方法,包括 random forest 和 gradient boosting,使用树作为基本的构建块来形成集成预报器,并获得优越的性能。(两种方法见文章附录B.2.2和B.2.3)

深度学习



神经网络模型最初是由人类和动物大脑中的神经元结构驱动的,在算法和计算能力取得突破后蓬勃发展(LeCun,Bengio和Hinton,2015)。神经网络模型,也被称为深度学习模型,已经成为最强大的模型之一,在自然语言处理、语音识别、计算机视觉、游戏和自动驾驶等广泛的应用中取得了接近或超过人类的能力。

有许多不同的神经网络体系结构,例如用于简单分类任务的最简单的前馈神经网络,用于图像和模式识别的共变神经网络,以及可以处理语音和文本等顺序数据的递归神经网络(RNN)。长短期记忆(LSTM)神经网络是一种特殊类型的RNN,它是RNN许多成功的关键,包括语音识别、语言建模和翻译。

在神经网络中,有相互连接的节点(神经元)。有三种类型的节点:用于接收数据的输入节点;产生所需结果或预测的输出节点;以及处理来自输入节点的数据并将其转换为输出的中间节点。节点之间的连接决定了神经网络的结构及其特征。RNN是具有环路的神经网络,或者是相互连接的节点。

LSTM网络是由Hochreiter和Schmidhuber(1997)提出的,目的是解决标准RNN在处理数据的后期部分时难以保持对顺序输入数据的较早部分的“记忆”的问题。由于顺序数据可能具有长期依赖性,即序列中距离较远的部分可能是相关的,因此拥有“长期存储器”来处理它们是很重要的。LSTM网络具有一系列专门设计用于保留长期信息并以灵活的方式用新信息持续更新的节点序列。因此,LSTM可以很好地捕捉序列或时间序列数据中的短期和长期关系,这表明它在金融经济学中的潜在应用,因为它具有丰富的时间序列金融数据。

总结

在本文中,我们建立了一个人工智能分析师来分析公司披露和其他信息(定性和定量),并执行类似于股票分析师的预测任务。我们的人工智能分析师能够在股票预测方面击败大多数人类分析师。根据人工智能和分析师预测之间的差异进行的投资组合,每月产生超过60个基点的超额回报。在“人与机器”的较量中,我们发现,当信息越透明、越庞大时,这样的人工智能分析师的相对优势就会更强。当关键信息需要机构知识(例如无形资产的性质)时,人力分析师仍然具有竞争力。人工智能分析师相对于人类分析师的优势随着时间的推移而下降,特别是当分析师获得替代数据和内部人工智能资源的时候。将人工智能和人类专家的艺术结合起来,在这两种技能互补的情况下产生准确预测的潜力最大,这表明高技能职业的未来将是“人+机器”。
这项研究中记录的人和机器之间的互补性也为人类如何适应机器时代的生存和繁荣提供了指导。例如,改革教育和专业培训以加强软技能和创造力,可以帮助人类专业人员更好地为即将到来的未来做准备。


以下为部分报告截图



……

获取完整文章

请在后台回复“AI分析师

获取下载链接


END



编辑/杨世祺

责编/袁阳

【延伸阅读】

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存