会计与金融中的文本分析（一）：研究背景，文本结构与可读性【学术前沿】

智能财会联盟 2023-02-24

与传统的会计和金融定量方法相比，文本分析的精确度要低得多。但即便如此，文本分析的研究也是很重要的。在《Journal of Accounting Research》上有一篇文章《Textual Analysis in Accounting and Finance: A Survey》（会计与金融中的文本分析：一份调查）。这个调查描述了一些文本分析方法以及它们的细微差别，并且研究人员作为文本分析的用户，描述了方法在实现中的一些问题。同时也回顾了当代的文本分析研究情况，并强调了未来的研究领域。

由于篇幅原因，我们决定将这篇文章分成三个部分解读。在第一部分我们介绍文本分析的研究背景与进展，并讨论可读性（readability)等基本文本特征的研究情况。第二部分介绍一些分析方式与算法。第三部分则是该学科的难题，未来研究方向，以及调查总结等内容。本次我们介绍第一部分：背景，文本结构以及可读性研究。

以下来自Tim Loughran与Bill Mc'Donald文章《Textual Analysis in Accounting and Finance: A Survey》

1、研究背景

随着过去半个世纪计算能力的指数级增长，以及互联网搜索引擎需求驱动下对文本分析方法的日益关注，文本分析这种技术的应用已经以这样或那样的方式渗透到大多数学科中。在会计和金融领域，新闻报道、财报电话会议、美国证券交易委员会(SEC)文件以及社交媒体上的文字信息都可以在网上找到，这为应用这项技术提供了充足的素材。

我们能否从强制性的公司信息披露中梳理出关键信息，并用其来预测未来估值？在人类阅读和吸收信息之前，我们能通过计算机来阅读新闻文章和交易吗?如果推特提供了信息流，我们能否实时监控这些消息以获得信息优势?文本资料对预测破产是否有帮助?在管理层的营收电话会议中，是否存在一些计算机能够比分析师更好识别的细微线索?更广泛地说，我们是否可以检查文本来度量文本集合中信息的数量和质量，包括表面上的消息和任何潜藏的启示?这些都是文本分析技术可能回答的有趣问题。

文本分析是会计和金融中一个新兴的领域，因此，相应的分类仍然有些不精确。文本分析可以被认为是定性分析的一个子集，文本分析最常被分为目标短语、情感分析、主题建模或文档相似性度量等类别。可读性是文本分析的另一个方面，它与之前的一些方法有所不同，因为它试图衡量读者理解消息的能力，而其他方法通常侧重于通过计算机从文本集合中提取信息。

关于定性信息对股票估值的影响，会计和金融研究人员已经进行了积极研究。管理人员用来描述其业务的词语和媒体用来报道公司和市场的语言已被证明与未来的股票收益、收益甚至未来的管理欺诈活动有关。显然，股市投资者在估值时考虑的不仅仅是定量数据，但随着会计和金融学科接受了这种新技术，我们必须谨慎行事，以确保我们声称要衡量的事实确实如此。

文本分析已经在其他论文中得到了很好的总结。Li在2010年对文献的调查中，提供了更早的基于手工的文本分析示例的详细信息，按主题领域(例如，信息内容、盈余质量、市场效率)讨论了现代文献，并列出了一个潜在研究主题的列表。他的结论呼应了本文的主题;较少地关注如何从计算学技术中借来的现成的文本方法，更多地联系经济理论进行研究。

2、文本内容，结构与可读性

其他在计算语言学方面有悠久历史的学科拥有丰富的方法评估文档集。我们将只讨论对会计和财务影响最大的文本分析方法。在详细介绍各种方法之前，我们首先讨论文本分析和文档结构中的信息提取的基本问题，后者对于确定文本数据的使用者是否能够合理地提取文档中包含的信息至关重要。文档结构是通过文档的图形设计以及用来传达信息的写作风格来体现的。写作风格通常被认为是可读性的一部分，也就是说，文本信息是否对用户可用，这已经成为会计文件中经常衡量的属性。

2.1、文本内容

文本分析，或更一般的定性分析，由于其不精确，与定量分析可以被明显地区分开来。当然，即使在定量分析中，我们也对于生成数据的度量方法争论不休，例如，收益应该使用公认会计原则(GAAP)还是非GAAP进行度量，而最终选用的只是许多可能方案中的一种。然而，定量研究已经足够成熟，因此对于衡量投入和选择用于解决特定问题的方法通常都有成熟典型的规范。

传统的定量研究试图在直接假设的背景下识别样本中包含的信息，其中的假设与同学科传统，规定了具体的统计方法和使用的推断技术。在典型的定量研究中，虽然计量方法可能不精确，但计量单位是明确的。

在文本分析中，当我们试图从收集文本转到提取这些字符所传递的信息时，必须进行一个关键的转换。汉字的意义并不是明确的，在大多数情况下，它在本质上取决于句子、文档或集合的上下文，以及它是何时由谁写成的。尽管自然语言的某些领域以文档的明确信息(指令、消费者信息等)来表述它们的目标，但请记住，我们的学科对文本所传达的表面上与深层次的信息都感兴趣。例如，一个经理在收益电话会议中可能会无意中使用更多的弱模态词(例如，may, could和might)，这可能是公司遇到麻烦的信号。

考虑几个可能不精确的例子。对于那些专注于美国证券交易委员会文件，并希望充分利用1996年开始的有限的在线时间序列的研究，HTML格式提供了一个潜在的系统性错误来源。文档解析依赖于文本结构和任何相关标记语言的一致性。在大约2005年以前的许多编档中，HTML格式缺乏一致性。例如，Potomac电力公司在其文件中使用“<TABLE>”标签来定义所有的文本段落。首先解析器将无法准确地解析这个文件。更重要的是，文件缺乏解析中使用的结构锚的倾向与公司规模和时间周期相关，从而导致系统的错误度量，而不是简单的无效信息。在更一般的定性分析领域，用于测量应力或其他属性的音频软件对麦克风的不同动态特性以及是否使用动态过滤器来调节噪声很敏感。

这些错误的规模可能是巨大的。例如，如果best是一个积极的词，并且该文件没有被分析以排除公司名称，那么像best Buy这样的公司将会有非常积极的情绪指标。如果将may作为不确定度的度量，并且解析不区分大小写，那么您将在结果中发现惊人的季节性（五月的英文为May)。

虽然不可能确定单词和数字集合的全部信息内容，但是任何分析的目标都是接近这个极限。当我们从文档文本中提取信息时，我们必须尝试确定：假定单词是独立单元，即单词顺序不重要这样的方法会丢失多少内容。而且，当我们试图应用更深入、更复杂的解析而不做这种假设时，我们必须小心，不要让获得可识别有用信息的希望被方法的不精确性淹没。正如前面所强调的，文本分析中的许多错误分类错误不仅会给数据添加不必要数据，还会在无意中导致错误的度量。

2.2、可读性

在本节中，我们将讨论信息接收者是否能够准确地重构目标信息。这个话题通常是在“可读性”这个大标题下讨论的，但是，正如我们将要看到的，可读性一旦离开了我们这个学科的范围，它的定义就变得非常模糊了。

与可读性相关的是文档组合和结构这些更一般的概念。考虑到花在图形设计上的大量资源与时间，可以推测非文本材料(图片、图形和表格)的存在可以增强读者理解信息的能力。当然，研究财务披露的影响的研究可以包括非文本项目的数量和特征（这些可以作为有趣的变量）。此外，在SEC文件和其他财务文档中引入可扩展业务报告语言(eXtensible Business Reporting Language, XBRL)为数据提供了结构化的语境，这将使对文档计算机处理变得更容易。尽管所有这些话题都很有趣，但是我们将特别关注可读性，因为它是现存文献中最常被研究的概念。

2.2.1、可读性研究案例

在面对可读性意味着什么这一最关键的问题之前，我们首先讨论这个主题的前期研究。对会计叙事可读性的研究由来已久。不幸的是，早期关于可读性的许多工作都受到样本量小或方法问题的影响。例如，Tennyson, Ingram, and Dugan 1990年研究了财务困境和管理叙事披露之间的重要关系。然而，他们的分析集中在比较23家已宣布破产的美国公司和23家未破产公司的样本。Lewis等人1986年分析了各种可读性度量，但该报告仅使用了九家澳大利亚公司在四年内的财务报告。

第一个研究年度报告可读性和公司绩效之间的联系的有意义的样本是Li在2008年完成的。Li使用Fog index和年度报告中包含的字数来测量其可读性。Fog index是平均句子长度与复杂词这两个变量的函数，其公式可以表示为平均每句话的单词数与复杂词汇的比例的总和再乘以0.4倍。

和大多数用于区分小学课本的可读性测量方法一样，Fog指数方程估计了学生在第一次阅读时理解课文所需要的受教育年限。因此，Fog指数为16意味着读者需要接受16年的教育——基本上是大学学位——才能在第一次阅读时理解文章。

Li发现，报告收益较低的公司的年度报告往往较难阅读(即Fog指数较高)。正如Bloomfield在2008年所指出的，这一发现可能是由于业绩不佳的公司需要更多的文本和更长的句子来向投资者充分解释他们的情况。李还发现，年度报告可读性强的公司有更高的收益持续性。李的论文的主要贡献是将年度报告的语言特征与公司的实际经营业绩联系起来。

在Li之后，许多研究人员开始使用Fog指数来衡量年度报告的可读性。Biddle, Hilary，和Verdi在2009年发现报告质量高的公司(使用Fog指数和其他两个指标测得)与更高的资本投资效率相关。Guay, Samuels和Taylor在2015年发现年度报告可读性较差的公司(基于六种不同的可读性指标，包括Fog指数)倾向于通过发布更多的每股收益、销售额和现金流的管理预测来缓解这种负可读性效应。Miller在2010年发现，在10-K申请日前后，小投资者交易的Fog指数高且字数多的公司股票显著减少。而可读性较差的年度报告更难处理，尤其是对不那么老练的投资者而言。

Lawrence 2013年发现，Fog指数和年报中的字数都与散户投资者的持股情况有关。他的样本包括1994-1996年间78,000个美国家庭的实际投资组合。研究发现，个人投资者更多地投资于那些年度报告字数较少、可读性更好的公司(以Fog指数衡量)。然而，这一结果对于高频交易的散户(一年超过48笔交易)来说就不那么明显了。

Lundholm, Rogo, and Zhang在2014年通过比较在美国交易所上市的外国公司与国内公司的年度报告和收益新闻稿，发现在美国交叉上市的外国公司可以产生更具可读性的商业文件。他们认为，外国公司有更大的动机让它们的公开文件更具可读性，以鼓励美国投资者投资它们的公司。在他们的论文中分别报告了外国和美国公司Fog指数的汇总统计数据。有趣的是，国外公司发布的收益报告的平均Fog指数值(16.18)与美国公司的平均Fog指数值(16.24)几乎相同。作者指出，在控制其他变量之前，这种差异在统计上是显著的，外国公司的文件可读性更强。然而，就理解文本所需的正规教育年数而言，Fog指数平均相差0.06实际上是相同的。同样，他们报告说，在10-K的管理讨论和分析(MD&A)部分中，外国公司和美国公司的平均Fog指数差异相对较小(17.54比18.06)。

2011年Lehavy,Li和Merkley研究了可读性和分析师的关注（analyst coverage）之间的联系，他们发现，用Fog指数衡量，可读性越强的年度报告，分析师的分歧度越低，而收益预测的准确性越高。他们发现，10-K的可读性与有多少分析师关注一只股票有关。Fog指数高的公司，在掌握了公司特征之后，有更多的分析师会跟踪股票。他们认为这些证据与“分析师会为信息披露较少的公司所做更大的努力”之一结论是一致的。在他们报告的汇总统计数据中值得注意的是，在1995年至2006年的每个样本年度中，年度报告底部四分位的Fog指数值都高于18。一般来说，Fog指数在18以上的文档被认为是不可读的，因为要理解文本需要的不仅仅是一个硕士学位。

分析师报告的可读性也与投资者的行为有关。De Franco等人在2015年分析了超过36.5万份2002-2009年期间发布的年度报告样本的可读性特征。它们的可读性度量是三个不同的可读性指标(Fog、Flesch和Flesch - kincaid)的集合。作者发现，在分析师报告日期前后的三天窗口期内，更具可读性的分析师报告与交易量显著增加有关。

一些研究人员在实验室环境中对商业文件的可读性进行了分析。Rennekamp召集了234名参与者，在保持文件的长度和总信息不变的情况下，改变了其可读性，并对相关反应进行研究。根据美国证券交易委员会(SEC)的《简明英语手册》(Plain English Handbook)，可读性的提高与参与者对好消息和坏消息的更强烈反应有关。她的研究为散户投资者提高商业文件的可读性提供了一个有趣的警告。Rennekamp发现“更多可读的披露可能导致投资者对信息反应过度，尤其是那些最不成熟的信息”。

从这篇文献中可以清楚地看到，可读性在评估财务文件时被认为是一个重要的中心变量或辅助变量。这些研究的实证结果反复证明了传统的可读性度量(即Fog指数)与公司其他属性之间的统计关联。在下一节中，我们将讨论在财务文档语境中可读性是什么意思，以及Fog指数是否度量了预期的结构。

2.2.2、定义并测量可读性

可读性的核心问题是要仔细考虑在商务写作中这个概念的含义。虽然雾指数在教科书中有很长的历史，但许多人质疑它在商业文件中的使用。很多问题集中在“可读性”是如何定义的，这在不同的文献中是不同的。Jones和Shoemaker认为，“对于可读性度量在多大程度上反映了实际的理解过程，人们没有达成共识”。他们还评论说，如果每个句子中的单词被随机重新排序，这篇文章将完全不知所云，但却有一个相同的Fog指数值。

Loughran和McDonald的实证研究表明，在应用于商业文档时，Fog指数是一种不够清晰可读性度量。他们认为在会计信息的背景下用,基于”写作风格的可理解性”来定义可读性不如基于“特定的某类人群的可理解性”。反对在会计信息披露中使用传统可读性指标的最简单、最有力的论据是，人们注意到，这些文件中的绝大多数并没有通过写作风格加以区分。

Loughran和McDonald以1994-2011年期间的66707份年度报告为样本，揭示了Fog指数的一个主要弱点：复杂词(超过两个音节)太过重要。根据Fog指数，复杂单词百分比的增加会降低文档的可读性。然而，到目前为止，在商业文档中出现频率最高的“复杂”词汇是金融、公司、运营、管理、员工和客户等词汇（financial, company, operations, management, employees, and customers）这些词汇很容易被投资者理解。它们表明，音节数是衡量商务文档可读性的一个很差的指标。与这一论断相一致的是，Loughran和McDonald发现Fog指数在解释分析师分歧或收益意外方面并不显著。

Loughran和McDonald建议使用美国证券交易委员会EDGAR网站上提供的10-K提交文本文件大小作为年度报告可读性的简单代理，这种方法很简单。他们将可读性定义为投资者和分析师将来自业务文档的相关估值信息整合到股票价格中的能力。他们发现，文件规模与随后更大的股票回报波动、分析师离差和绝对收益惊喜显著相关。正如他们所指出的，这种关联可能反映了公司业务的潜在复杂性。也就是说，尽管文件大小可以作为可读性的代理，但对于一家公司来说，它不能完全将公司业务的基本复杂性与其年度报告的语言复杂性分开。

许多论文使用10-K完整提交文件大小作为年度报告可读性的综合度量。Loughran和McDonald注意到，简单的总文件大小度量与更吸引人的度量(如删除了无关组件(如HTML或编码图像)的净文件大小)或其他更具体的可读性度量高度相关。当以额外收益和分析师分歧等结果为基准时，总文件大小的测量至少与其他可读性测量一样好。

他们的结果强调可读性的概念必须在其应用的上下文中加以描述。例如，在传统意义上的可读性中，术语的使用通常被认为是一个负面属性。然而他们发现，金融术语对商务文件可读性有积极影响，从而强调在这种情况下，可读性的重点并不是试图使金融披露在更广泛的人群中有可读性，而应该侧重于更容易被业内人士理解。

总之，研究人员在使用可读性作为衡量标准时，必须小心识别度量的意图。如果只是简单地将其作为一个综合度量来测试公司的整体情况，那么诸如总文件大小、常用单词或词汇量之类的度量就是合理的。相反，如果度量的意图是专门测量读者理解文档的书面信息的能力，那么研究人员必须仔细定义这个概念的含义。一份好的财务报告是一份等级较低的人可以读懂的文件，还是一份面向分析师、充满术语和数据的文件?这一意图将在很大程度上决定什么才是适当度量可读性的数据。

推荐阅读

“智能财会联盟”共同发起单位邀请函

学术前沿专题回顾