更高效的会计欺诈预测模型——集成学习与基于会计原始数据的回归模型预测会计欺诈行为【学术前沿】
由上海交通大学、新加坡国立大学、武汉大学等高校联合组成的研究团队提出了检测样本外会计欺诈的新视角与新办法。他们发现输入原始会计数据作为预测因子的逻辑回归要优于传统的输入财务比率数据的逻辑回归。该团队所使用的集成学习(ensemble learning method)方法也更适合以原始数据作为输入数据。总的来说,结果表明,现有的欺诈预测模型没有充分利用公开的财务报表数据的信息。此外,通过采用更好的欺诈预测模型来提取这些有用的信息是可能的,而这些模型依赖于原始的会计数据,而不是以财务比率作为模型输入。
以下来自《Detecting Accounting Frauds in Publicly Traded U.S. Firms: New Perspective and New Method》
1、绪论
本研究的目的是开发一个新的会计欺诈预测模型,所使用的样本为美国上市公司现成的财务报表数据。虽然有一些非财务指标(例如,高管的个人行为)可以用来检测欺诈,但出于两个原因,我们只使用财务数据作为输入。首先,基于公开财务数据的欺诈检测模型可以很容易地应用于任何公开交易的公司,而且成本低廉。其次,以往的会计欺诈研究大多依赖于公开的财务数据。因此,我们的方法的效果可以很容易地与传统的欺诈检测方法相比较。相较于已有的许多关于会计欺诈的研究,该项研究着重于样本外会计欺诈问题的发现(如欺诈预测)。
我们首先从现存文献中找到两种类型的基准模型。第一种是基于比率的逻辑回归模型,通常在会计文献中使用。这些模型倾向于使用会计专家根据经济或其他理论确定的财务比率作为预测因素。第二种类型的基准模型基于更先进的机器学习开发,而不是使用会计专家发现的财务比率。该模型的财务核心是将原始会计数据制成更广泛的同一年内的比率和不同年份的比率变化。
而该实验使用的方法有别于上述两项。首先,作为一种探索性的分析,我们直接使用财务报表中的原始会计数据项来预测舞弊。许多会计研究倾向于使用财务比率作为预测因素,因为它们对因果推理更感兴趣。另外,基于杜邦模型的比率分析是传统会计价值分析的重要组成部分。因此,会计专家很自然地使用直观的财务比率(如资产回报率的变化)作为舞弊预测指标。然而,这种基于比率的传统欺诈检测方法可能存在两个潜在的局限性。第一个限制是现存的欺诈检测模型没有采用一个系统的框架来建立因果欺诈检测模型,因此不能保证会计专家已经识别出所有对欺诈预测有用的相关因果财务比率。第二个限制是,将原始会计数据转换成有限数量的财务比率可能会导致用于舞弊预测的有用信息的丢失。
其次,我们使用集成学习来预测舞弊,这是机器学习中最先进的范例之一。而以往会计舞弊检测的研究大多采用逻辑回归方法。集成学习已经成功地应用在许多其他领域,所以这种方法在我们设置的条件下有可能超越传统的欺诈检测方法。
为了比较不同的欺诈检测模型的样本外性能,我们采用了两个不同的性能评价指标。首先,我们仿照Larcker和Zakolyukina,使用观测者操作特性曲线(Receiver Operating Characteristics, ROC)或AUC下的面积作为绩效评价指标。AUC等价于一个分类器对一个随机选择的舞弊观测值的排序高于一个随机选择的非舞弊观测值的概率,其随机猜测的AUC为0.50,因此任何合理的舞弊检测模型的AUC都必须高于0.50。本实验采用的另一种通常用于对问题进行排序的性能评估指标,即k (NDCG@k)位置的标准化折现累积收益。直观地说,NDCG@k通过挑选测试年度中具有最高舞弊预测概率的k个最高观测值来识别真正的舞弊。在我们的研究中,我们选择k=前1%的观察值的数量。我们选择了1%的下限,因为美国证券交易委员会AAERs批准的会计欺诈的平均频率通常低于每年1%。
我们发现,在预测样本外舞弊方面,原始会计数据比专家鉴定的财务比率更有用。具体来说,直接使用24个原始会计数据项作为预测指标的简单逻辑回归在AUC(0.727、0.638和0.655,或增加11- 14%)方面显著优于基本和改进的Dechow等模型。此外,我们基于24个原始会计数据项的简单逻辑回归的AUC性能略高于Cecchini等人基于同样24个原始会计数据的更高级更复杂的SVM-FK方法的性能。这些结果表明基于财务比率的舞弊预测方法没有充分利用原始会计数据中的信息。然而,使用第二个性能评估指标NDCG@k,我们发现基于24个原始会计数据项的逻辑回归模型与两种基准模型的性能没有显著差异。
2、因果推理与预测:一个统一的框架
因果推理和预测是两个根本不同的问题。因果推理的目的是利用统计工具来检验因果关系。相反,预测的目的是将统计模型或数据挖掘算法应用于数据,以预测新的观测结果。
因果推理和预测之间的区别有几个重要的含义。首先,因果推理强调回归系数的无偏性,而预测可能会故意增加回归系数的偏倚,以最小化样本外预测误差。因此,为了预测的目的,一个“错误的”模型可以比一个正确指定的模型预测得更好。
第二,因果建模要求输入的f是一个因果关系函数,而预测建模只需要x和y之间关联,也就是说,一个输入变量,并不是因果关系(例如,原始会计数据项可能没有明显的经济解释)可以包含在一个预测模型。这一见解在我们的环境中很重要,因为会计文献中之前的大多数欺诈预测模型都是由强调因果关系的经济或行为理论驱动的。
第三,对于因果推理和预测问题,f的选择可能不同。曾有人指出,大多数社会科学研究只关注因果推理问题。虽然有许多重要的政策应用需要对未来的结果进行准确的预测,但现有的商业和经济文献中对预测问题的关注还不够。以会计舞弊为例,了解解释变量(如管理层薪酬)与会计舞弊之间是否存在因果关系,对于希望设计有效的政策补救措施以降低舞弊风险的决策者来说,显然是非常重要的。然而,也有许多重要的决定(例如,一个投资者需要决定是否投资高增长的股票)只需要一个准确和及时的预测一个公司是否存在欺诈。此外,有研究者认为,预测建模也可以受益于因果推理研究,因为预测建模可以提供一个低成本的估计。
3、集成学习
集成学习是机器学习的主要范式之一,近年来在许多实际应用中取得了巨大的成功。与传统的机器学习方法不同的是,集成学习方法将一组基估计量(如决策树)的预测结果组合在一起,以提高对任何单个估计量的泛化能力或鲁棒性。以前的研究表明,总体性能通常比任何单一基础估计器都要好。然而,由于数据不平衡问题,常规集成学习方法通常需要结合抽样技术。将集成学习方法与数据采样技术相结合来解决数据不平衡学习的方法有很多种,在这项研究中,我们使用了一种称为RUSBoost的集成学习方式。RUSBoost试图结合有效的欠采样技术和最有影响力的集成算法AdaBoost之间的优点,有着巨大的优越性与计算效率。
AdaBoost算法是最重要的集成学习方法之一,它具有坚实的理论基础、强大的预测能力且非常简单。它的基本思想是训练一组弱分类器,例如模型对于重复加权的样本只得到比随机猜测稍微好一点的结果。具体来说,在每次迭代中,错误分类的观测值的权重将增加,而正确分类的观测值的权重将减少。这样,每次迭代中的弱分类器将被迫集中于前一次迭代中难以预测的观测。最后,对所有弱分类器进行加权平均,根据训练样本上弱分类器的分类错误率进行加权,得到强分类器。分类错误率越低的弱分类器获得的权值越大。
RUSBoost是AdaBoost的一个变体,它结合了随机欠采样(RUS)来进行数据不平衡学习。它以与AdaBoost相同的方式工作,除了在每个迭代中执行RUS以解决欺诈和非欺诈公司的不平衡。具体来说,在每次迭代训练弱分类器时,RUS算法使用训练期内的12家舞弊公司的完整样本和同一训练期内随机生成的非舞弊公司的子样本。RUSBoost的估计需要选择采样不足的多数类观测值与少数类观测值的比值。在本文中,我们通过设置这个比例为1:1来构造我们的RUSBoost。也就是说,我们只是对相同数量的欺诈观察和非欺诈观察进行抽样。
4、原始会计数据
在审查了一份现有学术论文的综合清单后,确定了最初的40个原始会计数据项清单,这些数据项是之前的欺诈检测研究用来构建回归变量的。通过一些样本选择程序,我们获得了24个原始会计数据项的最终列表。
图表:原始数据与财务比率项列表
5、本次实验模型的“样本外”效果
5.1、以会计原始数据预测欺诈
作为一个探索性的调查,我们接下来检查是否有可能直接使用原始会计数据作为输入项提高逻辑回归模型的样本外舞弊预测效果。为了最小化不同原始数据项之间的尺度差异的影响,数据挖掘文献中通常对原始数据项进行规范化。在本研究中,我们将每个公司年度观测的输入向量标准向量化使其具有单位向量长度。
基于24项原始会计数据的逻辑回归模型的平均AUC为0.727,显著高于传统模型,并略高于平均计算量更多的SVM-FK模型。但是,基于24个原始数据项的逻辑回归中,NDCG@k的均值与两种方法中NDCG@k的均值相似。基于24个原始数据项的逻辑回归模型的样本外AUC表现较好,说明会计专家所确定的财务比率并没有完全从原始会计数据中提取出有用的信息来进行舞弊预测。
5.2、集成学习的方法预测欺诈
集成学习方法的平均AUC为0.786,显著高于基于24个原始会计数据项的逻辑回归的平均AUC(0.727)。以NDCG@k作为替代评价标准,我们发现集成学习方法中NDCG@k的平均值明显大于基于24个原始会计数据项的逻辑回归中NDCG@k的平均值。在测试期间,对于预测舞弊最多的1%,集成模型的灵敏度和精度的平均值分别为16.66%和15.21%。相比之下,基于24个原始会计数据项的逻辑模型对应的值分别只有1.09%和1.13%。由于集成学习方法和逻辑回归方法都是从相同的24个原始会计数据项开始的,我们的结果表明集成学习方法在预测样本外舞弊方面比逻辑回归方法更有效。
6、结论
根据之前的研究,我们只使用现成的财务数据作为欺诈预测的输入,但我们在几个重要方面偏离了之前的会计欺诈研究。首先,我们预测样本外的欺诈行为,而不是解释样本内的欺诈决定因素。其次,我们直接使用财务报表中的原始会计数据来预测舞弊。相比之下,现有的会计舞弊检测研究通常使用会计专家确定的财务比率来预测舞弊。第三,我们使用集成学习——机器学习中最先进的范例之一——来预测欺诈,而不是通常使用的逻辑回归。最后,我们介绍了一种新的方法来评估通常用于排序问题的性能欺诈预测模型,即Normalized Discounted Cumulative Gain at the position k (NDCG@k).
我们发现基于24个原始会计数据项的逻辑回归结果显著优于基本和修正的传统等模型,其表现与更高级的SVM-FK模型相似。这一证据表明,会计专家确定的财务比率并没有充分利用来自原始会计数据的有用信息。此外,我们还证明了基于相同的24个原始会计数据的集成学习方法比基于相同的24个原始会计数据的逻辑回归模型有显著的优势。这一证据表明,在使用同一组原始会计数据项的条件下,我们的集成学习方法在从原始数据项中提取有价值的信息以进行样本外舞弊预测方面比逻辑回归方法更强大。
我们还执行几个补充测试。首先,我们测试是否使用强大的集成学习方法单独基于14个财务比率或基于14个财务比率和24项原始数据的组合可以创建比基于24原始数据项目的整体学习模型更强大的预测模型。答案是否定的。其次,我们测验增多原始数据量是否有助于进一步提高集成学习模型的性能。我们没有发现这样的证据,这表明仅仅添加更多的原始数据项而没有任何理论是不够的。然而,我们不排除通过从数百个现成的原始会计数据项中可以开发出更好的欺诈预测模型。第三,我们证明,与其他传统基准模型相比,集成学习模型的优越性能不仅仅是与连续会计欺诈有关,也与模型的测试与构建有关。
总的来说,我们的结果表明,现有的欺诈预测模型没有充分利用公开的原始财务报表数据信息。此外,我们还证明了通过采用更好的基于原始会计数据的舞弊预测模型来提取这些有用的信息是可能的。
我们的发现也与越来越多的会计文献相关,这些文献试图从公司申报文件中获取文本信息(即整理过的信息),以预测欺诈或公司业绩。未来的研究人员可能会探索的一个有趣的问题是,如果利用先进的数据挖掘技术更有效地提取随时可用的原始金融数据中的信息,那么文本数据是否仍然有效。
“智能财会联盟”共同发起单位邀请函
学术前沿专题回顾
人才&实务专题回顾
会议动态专题回顾