会计与金融中的文本分析(二):几种典型的分析方法【学术前沿】
我们之前提到的可读性关注的是个体理解信息的能力,现在我们要说的分析方法是尝试通过计算机技术从信息中提取有用的东西。有趣的是,由于语言和写作的固有性质,一些广泛使用的文本分析方法都依赖于关键的独立假设来减少文档处理的复杂性,独立意味着在我们分析的背景下,单词顺序并不重要。忽略单词序列的方法通常被归类为“单词包”(bag-of-words)技术,其中许多都是基于将文档分解为由单词行和单词数列组成的集合。考虑到计算语言学庞大的方法库,并且有可能传统计量经济学将发展为定性领域,这种方法可能还是应用文本分析科的初级阶段。
如果文档中的单词顺序并不是至关重要的,那么使用单词计数法(word counts)可以将汇总大型文档的计算任务简化几个数量级。未来研究方法的关键问题是能否通过更深入的语境意义解析来提取重要的额外的信息。这其实是一场有用信号与无用噪声的竞赛,其中语境的细微差别所传达的额外信息是信号,而深度解析的不精确性不断增加就是噪声。
3.1、目标短语
一种最简单但同时也是最有效的文本分析方法是通过假设来实现的,假设允许研究者针对几个特定的单词或短语。与只关注几个明确的单词或短语的测试相比,关注一个巨大的单词列表更容易出错。例如,Loughran, McDonald, 和 Yun想论证“道德”(ethic)(及其变体)以及短语“企业责任”,“社会责任”,和“对社会负责”这些词的频率以确定这些是否与公司治理措施,集体诉讼的数量有关。他们发现,经理们更专注于讨论这些话题的公司,更有可能被贴上“原罪股”的标签,公司治理水平较低,并在申请后一年被起诉。得出这样结论所需的解析相对简单且易于复制。在后面的小节中,我们将提供一些使用这个简单语境的文本分析示例。
3.2、单词列表
目标短语的更进一步是编译具有相同情绪的单词列表(例如,积极的、消极的、不确定的)。有了这样的列表,研究人员可以把每个单词按属性归类,并度量它们的情绪值。当然,这种技术的挑战源于同形异义词(意思不同,但拼写相同的单词)和上下文。
从技术上讲,“字典”是事物的的集合,其中的每个项目都有一个相关的属性。,我们的讨论应该局限于术语“单词列表”,在这里,我们只是创建单词集合,这些单词试图标识文档的特定属性。使用“字典”还是“单词列表”这个术语对于我们并不重要,我们将交替使用这两个术语。
在衡量一份财务文件的语气或情绪时,研究人员通常会计算特定情绪词表相关的词汇数与该文件中的总词汇数。例如,在一个文档中,消极词汇的比例越高,表示语气越悲观。对于研究人员来说,这个过程的第一步是决定应该使用哪一本字典来列出目标属性的比例。例如,《哈佛大学综合问话者》(the Harvard General Inquirer, GI)的单词列表,是一组历史上在社会学和心理学文献中使用的列表,旨在衡量一份文件的100多个属性,包括快乐、痛苦、兴奋、夸大、政治、人际关系和需求。
使用字典来测量情绪有几个重要的优点。首先,一旦选择了字典,研究者的主体性就被避免了。其次,由于计算机程序将单词的频率计数制成表格,因此该方法适用于大样本。第三,有了公开的词典,复制其他研究人员的分析就更简单了。正如我们将在后面的部分中讨论的,对单词进行分类的一个重要部分是识别每个分类中出现频率最高的单词—即那些在最终统计中最具影响力的单词。
在会计和金融文献中,研究人员广泛使用了四种不同的单词表:Henry(2008)、Harvard 's GI、Diction、Loughran和McDonald(2011)。虽然研究人员主要关注积极和消极的词表,词典也通常包括有针对性的子类别的词主题,如不确定性,弱模态,约束,快乐,痛苦,极端情绪,甚至美德。尽管Diction和Harvard GI词汇表都没有考虑到金融文本,但研究人员已经使用该列表来衡量报纸文章、收益电话会议、年度报告(10- k格式)、IPO招股说明书和新闻稿中的语气。
3.2.1、Henry单词列表(2008)
我们知道的第一个专门为金融文本创建的单词列表是Henry[2008]。Henry[2008]词表好的方面是,她的词典是通过检查电信和计算机服务行业的收入新闻稿而创建的。他的清单的明显缺点是字数有限。例如,《亨利词汇表》中只有85个消极词汇,而《哈佛词汇表》中有超过4100个消极词汇。在商务交流中经常出现的负面词汇,如:loss(损失)、adverse(不利的)和impairment(损害),在他的列表中都未给出。在商业交流中,经理们有更多的方式来暗示负面语气,而不仅仅是亨利的负面清单上的85个词。
Price等人在2012年使用Henry[2008]的词表来衡量上市股票季度收益电话会议的语调。他们报告说,在为期三天和两个月的窗口期,在电话会议的问答环节中语气积极的公司股票回报率明显更高。相反,根据Henry[2008]列表的衡量,带有负面语调的电话会议,其额外收益为负。Price等人认为,Henry[2008]词典在衡量收益电话会议的基调方面比哈佛大学IV-4词汇表做得更好,因为只有Henry 列表记录了市场在最初反应窗口和60天漂移期的重要反应。类似地,Doran, Peterson和Price同年使用Henry[2008]的词表来关注房地产投资信托公司的收益电话会议。他们发现,电话会议的基调与电话会议期间的股票回报显著相关。
Davis等人2015年在收益电话会议期间调查了特定经理的乐观情绪。他们使用Henry列表、Diction、Loughran和McDonald的积极和消极词汇表来衡量情绪。作者使用Henry、Loughran和McDonald的词汇表,发现经理特有的语气与未来的经营业绩呈正相关。从措辞词表生成的语气与随后的资产回报率(ROA)值无关。
3.2.2、Harvard GI单词列表
最初,在会计和金融领域,大多数研究人员使用哈佛的GI和Diction单词列表,原因很简单,因为这些列表是最先可用的。考虑到词形变化,哈佛大学的负面词汇表包含4187个单词。Tetlock在一篇极具影响力的论文中,将《华尔街日报》每日专栏“与市场并肩”的语气与股市水平联系起来。他发现,每日专栏中高度的新闻悲观主义与随后较低的股市回报和随后较高的股市波动有关。有趣的是,股价下跌的压力并不是由《华尔街日报》专栏提供的有关公司估值的新基本信息造成的。
相反,Tetlock提出,“与市场同步”一栏代表投资者情绪。投资者的悲观情绪高涨,暂时拉低了道琼斯工业平均指数(Dow Jones Industrial Average)的水平。与大多数股票收益的文本分析文献一样,软信息的经济价值是有限的。Tetlock发现,悲观情绪每增加一个标准偏差,第二天道指就只会下跌8.1个基点。
在Tetlock之后,许多论文使用哈佛大学IV-4积极和消极词汇表来衡量报纸专栏的语气。例如,Tetlock, Saar-Tsechansky和MacSkassy研究了《华尔街日报》和道琼斯通讯社对标准普尔500指数成份股公司的报道。他们发现,在特定公司的新闻报道中,负面词汇出现频率越高,随后的收益就越低,即使在不考虑过去的会计信息和华尔街预测情况下也是如此。使用样本超过900000汤森路透旗下的新闻文章,Heston和Sinha于2015年发现哈佛净积极情绪测量(积极词频率-消极词频率)的一篇文章提到一个特定的公司生产高回报时间为公司文章的出版后一到两天。相反,他们发现,负面情绪新闻报道的公司短期股票回报率较低。
Kothari, Li和Short利用哈佛大学IV-4消极和积极词汇分类,研究了公司、分析师和新闻媒体披露的内容。他们发现,披露语气与股票回报波动率和分析师预测误差离散度相关。公司、分析师或媒体披露的信息越正面,波动性就越低,预测离差也就越小。相反,披露中包含的负面新信息与更高的波动性和分析师的分散度相关。
Hanley和Hoberg在2010年以1996-2005年期间的大量首次公开发行(ipo)为样本,研究了首次招股说明书(S-1格式)的语气如何影响定价和首日回报率。两位作者使用哈佛大学IV-4积极词汇表和消极词汇表来评估招股说明书的语气。在招股说明书的风险因素部分,Hanley和Hoberg发现,净基调越积极(正面词汇百分比减去负面词汇百分比),首日回报率越低,发行价调整的变化越小。他们认为,在投资者看来,经理和承销商的乐观论调是有关此次发行风险的可靠信号,因为他们的错误陈述将面临法律惩罚。
3.2.3、Diction乐观/悲观单词列表
就像哈佛的GI词分类一样,Diction也有35个不同的字典子分类。为了创建一个积极的单词列表,研究人员通常会将“赞扬”、“满意”和“鼓舞”这三个子类别结合起来放到乐观子标题中。对于消极的词语,则放到悲观主义标题中,包括责备、困难和否认。使用这种方法,乐观词有686个,悲观词有920个。在衡量文件语气方面,会计研究人员一直比金融研究人员更积极地使用措辞词表。
Davis、Piger和Sedor发现,在收益新闻发布中语气越积极(使用Diction词表)的公司,其随后的ROA越高。他们的论文提出,经理人在财报发布会上用来描述经营活动的语言,提供了一个关于管理层对其未来业绩预期的直接而微妙的信号。收益新闻发布的语气越积极,该公司接下来四个季度的ROA就越高。类似地,Davis和Tama-Sweet在10-K表格的MD&A部分找到了语气和未来ROA之间的重要联系。MD&A的语气越悲观,公司的后续ROA越低。Rogers, Van Buskirk和Zechman没有将盈利公告的语气与随后的经营业绩联系起来,而是考察了措辞的语气与股东诉讼之间的关系。通过采用配对的方法,他们发现,在收益报告中表现得越乐观的公司,被股东起诉的可能性就越高。据报道,净措辞乐观度(乐观词汇百分比减去悲观词汇百分比)每增加一个标准偏差,股东起诉的可能性就会增加52%。
3.2.4、上述单词列表的限制
Li、Loughran和McDonald批评使用哈佛大学IV-4和Diction列表来衡量公司文件中的管理情绪。例如,Li发现使用GI列表测量的10-K的MD&A部分的语调和未来的表现之间没有积极的关系。另外,Loughran和McDonald报告称,几乎75%的哈佛GI消极词汇在金融文件中没有悲观含义。
Loughran和McDonald认为,哈佛大学IV-4负面词汇,如税收、成本、资本、董事会、负债和折旧,在年度报告中通常不具有负面意义。他们还指出,哈佛大学的一些负面词汇可能代表了特定的行业。例如,管理部门对“crude, cancer, mine”的使用并没有负面意义,只是代表了石油、制药和采矿行业。他们警告说,试图在商业交流中测量情绪的研究人员不应该使用“来自商业使用领域之外的分类方案”。相反,专门为商务通信设计的单词列表应该用于度量商业文本的情绪。
Loughran和McDonald[2015]分析了乐观和悲观的用词,同样发现绝大多数的用词可能被错误分类。经常出现的乐观词汇,如“尊重”、“必要”、“权力”和“信任”,在被管理者用来描述未来或当前的运作时,通常不会有积极的意义。两位作者还质疑,在典型的会计信息披露环境下,像“不含”、“总量”和“痛苦”这样的悲观词汇是否具有负面意义。
3.2.5、Loughran和McDonald的单词列表
Loughran和McDonald通过检查1994-2008年间10- k的大样本词汇使用情况,创建了6个不同的单词列表(消极、积极、不确定性、好讼性、强情态和弱情态)。他们的方法是“创建一个相对详尽的单词列表,获得更少的遗漏”。他们根据一个词在商业环境中最有可能的解释来创建情绪列表。Loughran和McDonald (LM)的单词列表非常广泛:它们的字典包含354个积极词汇和2329个消极词汇。LM表与会计和金融文献中常用的其他三种词典相比有两个主要优势。首先,与亨利(Henry, 2008)的列表不同,它们相对全面。一般来说,通常出现的否定词或肯定词都不缺。其次,LM名单的创建考虑到了财务沟通。唯一可能进入他们字典的词是10- k经理们实际使用的词。
正如Kearney和Liu的文本分析综述论文所指出的,“LM列表在最近的研究中占据了主导地位”。一般论文都会使用LM词汇表(主要是负面词汇)来衡量商业交流的语气。例如,Feldman等人在2010年使用LM肯定词和否定词列表来研究市场对10-K和10-Q文件的大样本MD&A基调变化的即时反应。两位作者发现,当语气变得更为积极时,即使在控制了收和额外收益之后,股市回报率也会更高。
许多报纸用LM词汇表来衡量报纸文章/专栏的语气。研究《华尔街日报》“市场前沿”专栏的作者发现,更悲观的专栏语调,与第二天更负面的市场回报直接相关。Garcia使用LM积极词汇表和消极词汇表来衡量1905-2005年间《纽约时报》两个金融专栏的语气。他发现,报纸的人气在预测未来股票回报方面发挥了作用,尤其是在经济衰退时期。Gurun和Butler使用LM负面词汇的频率来量化报纸文章的语气,证明了当地广告收入和当地媒体倾向性之间的联系。与非本地公司的报道相比,本地报纸在关于本地公司的文章中使用的负面词汇要少得多。
对报纸文章的情绪分析,还可以揭示媒体在投资者追逐过去回报率高的共同基金的错误倾向中所扮演的角色。Solomon、Soltes和Sosyura发现,只有在媒体报道了投资者持有的基金时,投资者才会追逐过去回报率高的基金。两位作者还发现,针对基金的报纸文章,语气越积极(使用LM积极词汇表和消极词汇表),这些基金的季度投资者资本流入就越高。
公司可以在合并公告之前通过新闻发布策略来提高其股价吗?Ahern和Sosyura在200 -2008年期间的507起收购案例中发现,固定汇兑率的竞标者试图在合并的私下谈判阶段抬高自己的股价。竞标者发布的公司新闻稿增加了媒体报道的积极基调(使用LM积极/消极词汇表),并略微提高了收购者的股价。
基金经理们是否试图通过在财报发布会上的措辞来告知投资者或误导投资者,这是一个悬而未决的问题。Huang、Teoh和Zhang发现了强有力的证据证明收益新闻稿的语气实际上误导了市场参与者。他们使用1997-2007年期间的一个大样本,报告说,在收益新闻稿中使用LM消极与积极词汇营造出来的异常的积极情调与首次发布后长达3年的不良后续收益和现金流显著相关。
在与分析师的电话会议中,管理者的声音内容和音高是否为公司当时的回报甚至未来的表现提供了任何洞见?Mayew和Venkatachalam以2007年的收益电话会议音频文件为样本,衡量了管理者情绪状态的积极和消极方面。在以同时期股票收益为因变量的回归分析中,他们发现LM积极词频与较高的收益相关,而LM消极词频与较低的收益相关。重要的是,即使在控制了电话的语调之后,股票市场也会在电话的问答部分对经理的声音做出反应。积极的管理影响与较高的同期收益相关。
3.2.6、权重
在大多数情况下,我们不希望使用原始计数,因为它显然与文档长度紧密相关。简单地使用比例可以解决这个问题,但在某些情况下,我们可能还希望根据这个术语的不同寻常程度来调整分析中某个单词的权重。例如,在LM负面词汇中,在公司的定期披露中,“不利”一词出现的频率是“征用”、“误导”或“起诉”的1000倍。或许在负面情绪的列表中,不寻常的词应该得到更多的权重。
Loughran和McDonald从tf-idf标签下的文献中考虑了一种更常见的术语加权方案。将dft定义为包含术语t的文档集合中的文档数量。设N为该集合中的文档总数。那么文档频率的倒数是:
如果 是文档d中第t项的原始计数,ad是平均字数在d文件中计数,则:
Loughran和McDonald发现,这种方法产生的回归比使用简单比例的方法更适合。虽然一些其他论文也采用了这种转换,但大多数论文没有。考虑到现有的计算语言学文献中有许多可能的加权方案,该方法的这一方面允许研究人员在预先选择最终的经验模型时有太多的自由度。然而,增加这些测试能力的潜力表明,这些方法应该仔细研究。
总结我们对单词表的讨论,许多研究依赖于从其他学科衍生出的情感分类词典。Loughran和McDonald的研究结果表明,这种应用可能产生虚假的结果。在许多研究中,使用不同字典的实证结果往往非常相似。然而,在商务应用语境之外派生的单词列表的使用有可能出现错误,这些错误不仅仅是收集无效信息,还可能带来损失。
3.3、NAIVE BAYES法
在那些机器学习中可以替代的对词语归类的方法中,最受欢迎的是NAIVE BAYES法。这个方法有几大优势,首先,它是分析文本最古老、最成熟的方法之一。其次,因为阅读文本内容的是机器,而不是人,所以大量的数据可以很容易地包含在分析中。第三,一旦确定了文本测量的规则/过滤器,就不会有额外的研究者主观性影响到商务通信文档中语气的测量。
这种方法的主要弱点是它的实验结果很难被复制。因为这种方法对词语的分类是通过机器完成的,人类只是确认规则与学习方法。
最早在金融领域使用的该方法的是Antweiler和Frank(2004)。他们审查了雅虎上150万的股票信息。最初,只有1000个互联网股票信息发布的样本被用来训练该程序的过滤程序。虽然信息发布对股票收益的影响有限,但Antweiler和Frank发现,信息发布的数量与随后的股票收益波动有关。不出所料,帖子中分歧越大,随后的交易量越大。同样地,Das和Chen使用文本分析来衡量24只高科技股票留言板上的情绪。他们发现,股票留言板上的帖子与股票市场的水平、交易量和波动性有关。随后有许多研究使用该方法对金融与会计领域进行文本分析,得出了公司收益增长率,股价等指标与分析师报告,收益电话会议等文件的用词情绪有关。
3.4、文件主题结构
一些仍然属于“bag-of-words”领域的技术可以用于对文档中的常见主题进行分类,或者简单地识别文档文集中的主题。从广义上讲,这些技术与大多数技术一样,都试图减少术语文件矩阵(term-document matrix)的维数。简单地说,我们可以把这些技术看作是对单词的基本因素分析。这些技术在搜索引擎中的实用性加速了它们的发展。
这种类型的分类最早的方法之一是潜在语义分析(LSA),也称为潜在语义索引——使用奇异值分解来简化术语文档矩阵。对于诸如谷歌这样的互联网搜索公司来说,这种技术很有用,因为它可以将一个讨论汽车的页面看作与另一个讨论汽车的页面类似,同时根据潜在变量上的词的加载方式拒绝一个讨论累积异常回报(汽车)的页面。据我们所知,最早将LSA用于商业的是Boukus和Rosenberg,他们分析了联邦公开市场委员会的会议记录中的信息内容。该方法的特点是避免了同义词和多义词的计数方法的局限性。
Huang等人在2015年进行了这种方法在会计和财务领域的首批应用,他们使用这种技术来检查电话会议内容与后续分析师报告之间的主题差异。虽然传统方法很难分离出分析师实际提供的增量信息的数量,但是通过比较主题上的差异,作者能够分离出分析师报告所增加的价值。他们证明,分析师提供的重要且不同的信息,超出了电话会议的内容。它们在记录这种技术时提供的详细程度以及驱动结果的因素可以作为一个规范示例,说明应该如何引入新的文本方法。
“智能财会联盟”共同发起单位邀请函
学术前沿专题回顾
人才&实务专题回顾
会议动态专题回顾