基于MD&A的支持向量回归(SVR)法在解释应计项目时的有效性检测(一)【底层技术】
一个来自奥林商学院、华盛顿大学等高校的团队通过关联基于MD&A(管理层讨论与分析报告)的应计项目期望与实际应计项目,检验出支持向量回归法(SVR)在评估非结构化、定性披露的内容方面的有效性,并将成果发表于《Journal of Accounting and Economics》。他们发现,MD&A应计项目在统计角度和经济角度上都对企业应计项目有着很强的解释能力(即能够将披露内容与公司基本面情况联系起来)。同时发现,10- k文件的可读性越强,MD&A应计项目的解释能力越强,从而为可读性度量的结构有效性提供了证据。为了强调SVR方法的高灵活性,他们也将其应用于其他因变量和披露指标中。结果发现基于MD&A的SVR现金流量预测可以有效预测未来现金流量。之后将SVR应用于电话会议记录,发现有着与MD&A相似的解释效果。最后,他们发现MD&A的解释效果在1994至2013年间越来越好。以下来自Richard Frankel , Jared Jennings , Joshua Lee 的文章《Using unstructured and qualitative disclosures to explain accruals》
1、绪论
1.1、将SVR应用到MD&A等文件中
我们通过识别一些单词和单词对(可以解释公司应计项目的单词和单词对)将支持向量回归(SVR)应用到10-K文件管理讨论和分析(MD&A)部分中。我们还使用支持向量回归(SVR)来检验MD&A是否包含对预测未来现金流有用的信息。为了证明SVR对其他环境的适用性,并为MD&A结果提供直观的基准,我们将SVR应用于电话会议记录。我们提供了一种新方法来从披露文件中获取更多信息。
许多论文都研究描述性的内容。一些人会使用特殊的字典来找出信息披露文件的一些特征(例如不确定性、语气、竞争性,可翻看我们公众号之前的文本分析文章)。另一些人将文件的可读性、相似性、真实度或长度与公司基本面联系起来。还有一些需要研究人员的介入来标记统计技术识别的特征,或者训练计算机识别的特征。相反,SVR可以自动识别与公司基本面相关的内容。因此,研究人员即使不知道公司管理层将使用什么词汇组合来描述一个公司的基本情况(如利润水平),也可以使用SVR。此外,研究人员可以将SVR应用于各种因变量、语言和语境中。我们通过使用MD&A和电话会议记录,对同期应计项目和未来现金流的描述内容进行评估以说明这种灵活性。此外,SVR还提供了一种可以替代使用文本特征(FOG指数、披露长度和脚本)的信息内容度量方法。
1.2、如何构建MD&A应计项目
SEC称,如果MD&A包括“关于流动性和资金源的披露、关键会计估计的披露”,那么它就符合其宗旨。我们研究的是MD&A对应计项目的解释力,因为应计项目反映了会计估计和流动性交叉的活动。我们认识到,在确定应计项目水平时,投资者可以通过资产负债表账户的变化或净收入和经营现金流,不一定要使用MD&A。我们的目标是测试MD&A应计项目程序是否包含SEC要求的讨论内容。
我们的应计项目程序包括两个步骤。首先,我们使用前期训练样本来估计支持向量回归,以公司层面的应计项目为因变量,MD&A中所有一词和两词短语数为自变量。由于MD&A披露的独特词汇和短语的数量大于公司年度观察值,我们不能使用普通最小二乘回归。SVR优化通过对模型的复杂性的惩罚机制来减少过度拟合和增加样本外拟合,从而规避了回归量的限制。其次,我们将估计系数应用于当年度的MD&A中的单词和短语计数,以获得对同期应计项目的样本外估计。我们根据行业和年份对SVR模型进行了估计,创建了两个独立的应计项目样本外估计。行业评估确定叙述中的行业特定模式,而年度评估确定叙述中的宏观经济模式。我们对应计项目的综合估计是这两个单独的样本外估计的平均值,就是我们所称的MD&A应计项目。
1.3、MD&A应计项目的优秀解释效果
使用1994年至2013年的公司年度观察样本,我们发现,MD&A应计项目解释了应计项目中大约9.7%的变化。由于MD&A的目的是补充财务报表信息,因此我们也使用Dechow和Dichev的改进应计项目模型以确定MD&A是否包含了不易从财务报表中获取的信息。我们发现模型在增加了MD&A应计项目后,解释能力增加了约24.8%,这表明MD&A对应计项目的解释不易通过基本财务报告来替代。
我们还使用在MD&A中找到的会计相关术语词典来估算应计项目,原因有二:1、这样可以提供另一个基准。2、了解MD&A应计项目是否仅仅来自描述应计项目水平的MD&A短语。我们的词典收录了来自《牛津会计参考词典》的3000多个术语。我们发现,调整后的应计项目模型的R平方(仅字典估计的应计项目)为5.2%,而调整后的R平方(MD&A估计)翻了一倍多,达到10.6%。此外,我们还创建了一个可替代的SVR应计项目估算,它排除了会计词典中的所有术语。使用这一应计项目替代指标的调整R平方等于6.5%,表明直接引用应计项目相关术语不会对SVR的解释力产生影响。
作为一个额外的基准,我们还将MD&A应计项目的解释力与MD&A的语调进行了比较。我们发现语调并不能解释应计项目变化的解释效果并不明显(调整后的R平方等于1.7%),而将MD&A应计项目包含在模型中可以显著地将解释能力提高到9.8%。因此,不能轻易地用肯定和否定术语的字典来近似地表示MD&A应计项目。
我们还发现,当MD&A的可读性较差时,MD&A应计项目在解释应计项目时就不那么有用了(可读性用单词长度和10-K文件大小来衡量);然而,我们并没有发现FOG指数越高,MD&A的解释能力越弱(Li于2008得出这一结论)。先前的文献表明,经理们为了混淆糟糕的公司业绩,披露的信息可读性较差。我们的结果与这样一种观点相一致,即可读性较差的披露信息包含的叙述性内容较少。此外,我们探讨了MD&A应计项目的性质,并发现这些应计项目比非MD&A应计项目更持久。这些结果表明,我们的方法更适合于确定持久的而不是暂时的应计项目。
我们还进行了额外的测试,以强调SVR在分析不同披露信息以解释或预测各种公司基本面方面的灵活性。我们首先发现基于MD&A文本的SVR可以用来预测未来的现金流。它对未来实际现金流变化预测度达到45.8%。我们还提供证据表明,电话会议记录中的语言在解释应计项目水平方面对MD&A有补充作用。最后,我们发现,尽管有证据表明公司通过增加10-K披露的长度、冗余和复杂性来回应SEC的要求,但自1994年以来,用于解释应计项目的MD&A的叙述内容有所改善。
1.4、局限性与未来研究
虽然我们的结果表明,MD&A披露可以为读者提供大量信息,但它们不会为人类识别叙事内容提供上限或下限。人类读者可能会比统计方法分析获得更多的有用信息。例如,一个短语“这是最好的时代,这是最坏的时代,这是智慧的时代,这是愚蠢的时代……”用分析算法不太可能捕捉到这句话想表达的疯狂的意味。斯坦福大学和谷歌的一个联合项目使用了16000个计算机处理器来学习从YouTube视频中识别猫,这是一个相关的例子,说明了自动化方法是如何漏掉明显的线索的。这个程序犯了一个三岁孩子都能改正的错误。此外,我们将一个模型用于不同的环境。这种方法忽略了公司基本面和信息披露选择之间的战略互动。人类可能会根据语境改变对文本的解释。但另一方面,人类的注意力有限,而且容易受到行为偏差的影响,而啰嗦和模糊的表述不会让计算机感到厌烦。因此,像SVR这样的方法也可以识别出一些人类容易忽略的内容。
我们的调查涉及的一个基本问题是英语词汇的多样性是否限制了SVR的有用性。描述随应计项目增加而出现的情况的常用短语可能没有以足够的比率出现在数据中,以致于SVR无法确定词汇和应计项目之间的关系。对这个问题的探索是我们研究的一个贡献。尽管英语具有多样性、微妙性和习惯用法复杂性的特点,我们的方法仍然能够识别出公司的基本面情况。
数据驱动研究的一个目标是提供能够支撑理论的相关经验。虽然我们的方法能够检验公司披露是否解释了公司的基本面,但我们无法对经理们用来描述与公司基本面相关的经济事件的语言做出概括。鉴于这些问题,这里有一些未来研究的途径。首先,未来的研究可能会增加其他的文本特征,如否定、句子结构、词干提取等,从而将那些更直观地与公司基本面联系在一起的单词和短语分离出来。其次,研究人员可以从统计分析中探索其他自动化技术来构建理论。第三,未来的研究人员可能会评估诸如SVR之类的自动化方法是否能够估计向人类读者披露信息的有用性。第四,就像我们比较MD&A和电话会议一样,未来的研究人员可能会使用SVR来比较不同来源的叙述内容(分析师、报纸、经理、其他语言的财务披露)。
2、文本分析中的一些统计方法与应用
会计和金融研究人员会使用许多文本分析技术来理解企业披露和企业基本面之间的关系。早期的研究会使用一些索引(如FOG指数)、预先确定的字典、单词计数和披露长度来识别特定的文本特征(可读性、语调),这些特征随后与公司的基本面(未来的表现)相关联。例如,Li(2008)检验了披露可读性(使用FOG指数和10-K披露长度长度来衡量)是否与收益持续性和未来收益正相关。Kothari(2009)等人研究了更有利的信息披露(用字数来衡量)是否与公司风险(如资本成本、股票回报波动率)负相关。
还有会计和财务论文使用统计学习方法(LDA)对公司披露信息分类,并将这些主题与具体的基本面联系起来。这些学习算法在确定主题的数量和分类时通常需要研究人员的判断,并且通常使用无监督方法进行估计(不直接拟合结果变量)。例如,Ball(2015)等人使用无监督的潜在狄利克雷分配(LDA)来识别MD&A主题。Bao和Datta(2014)也使用无监督的潜在狄利克雷分配(LDA)来评估10-K中讨论的企业风险程度。其他论文使用监督学习方法来评估叙述性文件。例如,Li(2010)使用人工朴素贝叶斯监督学习方法来估计MD&A中前瞻性陈述的语气,并将前瞻性陈述的语气与未来收益联系起来。
支持向量回归(SVR)是一种监督统计学习方法,它可以将与公司基本面相关的叙述模式的识别自动化。SVR不需要研究者干预以确定字典、手动对主题或信息披露进行分类,或者依靠研究者判断来评估信息披露的叙述内容来解释公司基本面。VR允许分析员识别一个由关键词组成的词典,并且它的权重会随着经济环境的变化而变化。因此,相对于会计研究中广泛使用的其他统计方法,SVR有两个优势。首先,SVR可以以相对较低的成本应用于各种披露、语言和语境。第二,SVR可以应用于研究人员对可量化基本面相关的单词有分散的先验知识的情况。我们认为,我们直接解决了Core(2001)提出的对文本分析技术的要求(不需要太多的劳动,不容易受到研究者的判断,而且更容易应用于大样本)。
在金融文献中,SVR被用来检验企业风险和宏观经济不确定性。Kogan(2009)利用SVR来剖析MD&A并预测股票收益波动。Manela和Moreira(2014)利用SVR构建了一个基于文本的不确定性测度,他们从1890年开始使用《华尔街日报》的头版来估计在期权隐含波动率不可用期间的宏观经济不确定性。
3、支持向量回归与应计项目(数据的计算方法)
我们使用SVR来检验特定的单词和短语在MD&A中是如何解释应计项目水平的。我们用每个公司的MD&A中包含的所有一词和两词短语来构建一个公司年度数据集,用下划线符号替换“and”和“the”等频繁出现的单词(“停止单词”),并删除包含数字的单词。我们将所有单词和短语的计数按每个MD&A的总单词和短语计数进行分级。我们清除每年不超过十家公司MD&A中出现的单词,认定这些为不常见词。我们的数据集包含了1994年到2013年间71,847次观察样本,296,329个独特的单词和短语。由于观测值小于单词和短语的数量,我们无法估计普通最小二乘。
我们使用Accruals[i,t]这个数据集来解释应计项目,使用以下SVR程序,Accruals[i,t]等于营运资本应计项目,根据Dechow和Dichev(2002)的定义,公司i在第t年按t-1年的总资产比例计算。首先,我们以运营资本应计项目为因变量,以所有MD&A中一词与两词短语为自变量,用从第t年之前的估计窗口中获得的公司年度观察的训练样本来预测SVR。这个过程考虑了所有被包含为回归量的单词和短语的估计系数。然后,我们将估计系数应用于第t年的单词和短语计数,以获得对第t年公司i的营运资本应计项目的样本外估计。
我们从两个方面来构建SVR程序。首先,我们使用GICS编码(包括t-5到t-1年的训练数据)对模型进行估计,以获得行业系数。在行业层次上进行分析可以使评估方法识别每个行业中特定于公司的重要词汇和短语,以解释应计项目。然后,我们将估计系数应用于第t年的单词和短语,以获得对第t年公司i的样本外应计项目的估计,我们将其标记为MDA Accruals-Industry[i,t]。
下表显示了在解释应计项目差异时最有用的单词和短语示例。在Panel A中,我们展示了来自四个行业的SVR估计系数为正和负的单词和短语的例子,四个行业分别为:通信设备(GICS= 452010)、计算机和外围设备(GICS= 452020)、金属和采矿(GICS=151040)和生物技术(GICS= 352010)。一些单词和短语在行业规范中非常常见,包括“loss”和“decrease”。该行业列表还包括与每个行业相关的单词和短语。例如,通信设备工业清单中包括“设备”一词,而金属和采矿工业包括“铝”一词。下表中单独的单词和短语并不能单独说明应计项目程序。而支持向量回归同时检查所有包括在MD&A解释应计项目的词和短语。换句话说,单个单词或短语可能不会显著提高我们解释应计项目的能力,但几百个单词或短语可能足以解释应计项目。虽然理解单个单词和短语如何解释应计项目有趣,但它并不能为评估该方法的结构效度或“机械”性质提供基础。每个单词或短语只是所有解释应计项目的单词和短语的一小部分。因此,我们将探讨SVR估算的解释能力是否与我们对与披露的叙述内容相关的因素的理解相一致。本文的一个重要贡献是探讨了表面机器人分析(SVR)是否可以评估披露的叙事内容。
其次,我们使用t-1年所有公司年度观察的训练数据来估计SVR模型,以获得每个单词和短语计数的系数。与前面描述的行业估计方法一样,我们将估计系数应用于t年的每个公司i的单词和短语计数,以获得t年的公司i的样本外应计项目估计,将其标记为MDA Accruals-Year[i,t]。我们计算样本中所有公司的年度估计应计项目,以确定与影响应计项目产生的经济范围因素相关的词汇和短语。我们注意到,在解释年度应计项目时有用的一些词汇和短语是“应收账款”、“净利润”、“净亏损”和“重大疑问”(详情见上表)。这些单词在解释年度应计项目时非常有用。在计算MDA Accruals-Industry[i,t]和MDA Accruals-Year[i,t]变量之后,我们通过对两个应计项目估计值的平均值来计算复合变量MDAAccruals[i,t]
智能财会公益讲座第四期预告
主 题:从云计算到云会计--历史陈述和企业现实
时 间:2020年5月20日(周三)
主讲人:吴武清 中国人民大学商学院副教授、博导
直播间:请点击“阅读原文”
【人工智能+X系列专题】
180所高校新增人工智能专业,“人工智能+X”复合型人才未来有多稀缺?