查看原文
其他

文献笔记 | 上市公司年报文本分析研究现状

企研数据 社科大数据 2024-03-17



💡 研读文献,乃研究者日日精进之基石。“文献笔记”栏目,旨在将学术研究的精华提炼成简明扼要的笔记。通过精炼的解读,让读者快速把握学术动态。在这里,企研数据团队将不定期分享团队成员在研读前沿领域的学术论文过程中所总结的核心观点与创新发现。>>>点击查看往期“文献笔记”如果您想要与大家分享同系列文章,欢迎后台私信投稿~

1. 前言

年度报告作为上市公司管理层与外部投资者沟通的重要媒介,在引导投资者交易行为,提高资本市场定价效率方面发挥着重要作用。据企研数据统计显示,近20年来,中国上市公司发布的年度报告平均长度从2001年平均2.2万字增长到2021年7.4万字,从63页增加到220页,增幅高达3-4倍。
年度报告所包含的内容越来越丰富,也越来越复杂,读懂上市公司年度报告对投资者所具备的专业知识提出了更高的要求。随着年度报告篇幅的逐年增长(Lang et al, 2015;Dyer et al, 2017),报告中丰富的文本信息也提高了外部公共信息池的信息含量,长远来看降低了公司信息不对称(Chung et al, 2016;Chung et al, 2019)。是投资者了解公司经营状况的重要途径和公司与外部投资者沟通的重要渠道。
现有文献从情感语调(Feldman et al.,2010;Kang et al.,2018;Dutta al.,2019;赵昕等,2022;周升师和苏昕,2023)、可读性、前瞻性信息(Li,2010;Muslu et al. ,2015)以及结合机器学习模型等角度分析了年度报告的文本有用性。部分研究也发现,年报文本信息提供了有关公司竞争压力程度(Feng et al.,2013),识别财务造假(Lynnette et al.,2015),盈余和未来现金流(Frankel et al.,2016;Hoberg,2016;Ball et al.,2016),财务约束程度(Matthias et al.,2018),信用风险(Donovan et al.,2021)以及投资机会(Basu et al.,2021)方面的增量信息。
基于现有文本信息的研究现状,本文从以下几个方面梳理了现有从文本中挖掘出的主要指标,具体包括:语调、可读性、样板化程度、文本粘性、文本冗余化程度、Hard infomation 程度和具体化程度。

2. 语调

现有研究表明,财经文本语调信息能够影响投资者的交易决策(Baginski et al.,2018;卞世博等,2021),过度乐观的语调会加大公司诉讼风险(Rogers et al.,2011),降低公司融资成本(林晚发等,2022)和影响审计师风险评估(蔡闫东等,2022)。文本语调信息也存在行业溢出效应,Cho (2021)和Durnev and Mangen(2020)发现,同行公司的MD&A语调存在行业溢出效应,MD&A语调越乐观,其他同行公司未来的资本投入越多,投资效率越高。底璐璐等(2020)也发现,客户的年报语调信息会影响公司的现金持有水平,客户年报语调越负面,公司的现金持有水平越高。
从文本来源来看,现有研究主要借助年报或MD&A(Feldman et al., 2010;Kang et al., 2018;Dutta al., 2019;赵昕等, 2022;周升师和苏昕, 2023)、CEO信函(Patelli and Pedrini, 2014)、业绩预告(Baginski et al., 2016)、分析师报告(马黎珺等,2019)、盈余电话会议(Davis et al., 2011;William and Venkatachalam, 2012)和业绩说明会(谢德仁和林乐, 2015;林乐和谢德仁, 2017;甘丽凝等, 2019)等文本信息来衡量文本的语调。
从衡量方法来看,目前对于文本语调的衡量主要采用了词典法和机器学习的方法。对于词典法,财经文本语调的词典主要包括Loughran and Mcdonald(2011)和Bian et al.(2021),前者基于欧美上市公司10K文本构建,后者基于国内财经文本构建。基于现有词典,学者们分别统计积极词和消极词的占比情况,用于衡量文本的语调。部分学者也结合机器学习的算法,如:SVM模型,贝叶斯算法和Bert模型将财经文本分类为积极、消极和中性三类(Li,2010)。

3. 可读性

从文本可读性来看,年报文本可读性会影响资本市场的定价效率,文本可读性越低,信息使用者的信息获取成本越高,股价漂移越严重,市场定价效率也越低(You and Zhang,2009;Lee,2012)。其次,文本可读性也会影响公司的融资约束程度(罗进辉等,2020;Rjiba et al.,2021;逯东和宋昕倍,2021)、审计收费(Blanco et al.,2020;蔡春等,2021)和分析师跟踪(Lehavy et al.,2011)。文本可读性越差,公司融资约束越严重,审计收费越高,分析师跟踪越多。Lawrence(2013)也发现,年报可读性越差,个人投资者的投资行为越少。
现有文献从不同的角度构建指标来衡量文本可读性,国外文献常用的指标有Fog指数(Li, 2008)、文本长度或文件大小(Lee, 2012; Loughran and Mcdonald, 2014)等。王克敏等(2018)从逆接成分密度、会计术语密度、次常用词占比三个方面来衡量年报文本的可读性。徐巍等(2021)则用句均含字量、副词和连词占比以及二者标准化处理后的均值构建了反映中文年报可读性的指标。丘心颖等( 2016)则以完整句在年报所有句子中的比例、基础词汇在年报中所占的比例、汉字的平均笔画数为基础构建了中文年报可读性的衡量指标。

4. 样板化程度

样板化问题一直监管部门关注的重要问题,2021年证监会发布的《公开发行证券的公司信息披露内容与格式准则第2号——年度报告的内容与格式》对MD&A部分的信息披露内容提出了“语言简明清晰、通俗易懂,力戒空洞、模板化”的要求。尽管部分研究发现MD&A部分的财务文本信息中蕴含了公司基本面的增量信息(Donovan et al., 2021),但是也有研究表明MD&A部分的信息含量逐年降低,文本相似度和样板化程度逐年增加(Brown and Tucker,2010;Dyer et al., 2017),加之监管部门并未针对文本信息披露出台比较完善的监管制度,这也使得文本信息成为了管理层粉饰财务报告的重要工具,因此MD&A部分的文本信息有用性也备受质疑。
Lang et al (2015)以42个国家的年度报告为研究对象,分析了年报文本属性的变化趋势以及其潜在的经济后果后发现,年报的长度越长,样板化程度越低,年报可比性越高,公司的流动性,分析师跟踪人数以及机构投资者持股比例更高,表明年报文本质量的提高有利于提高公司股价流动性和改善外部信息环境。Brown and Tucker(2010)则发现,管理层对MD&A部分文本的修正幅度越大,投资者的反应越正面。赵子夜等(2019)同样发现,对于纵向样板化来说,当公司的财务风险较高时,MD&A的样板化程度越高,投资者的负面市场反应越强,而当公司的财务风险较低时,MD&A的样板化程度带来了正面的市场反应。而对于横向样板化来说,MD&A的样板化加大了投资者的出负面市场反应。Kristian et al.(2018)研究表明,市场对公司披露的年报的反应速度随着可脚本化的程度增加而增加。Cohen et al.(2020)研究10-Ks的变化可以预测未来的盈利、盈利能力、未来的新闻公告,甚至未来的公司的破产风险。
有关样板化的衡量指标主要包含三类。一类是基于计算文本相似度的衡量指标,一类则是基于N-gram模型的衡量指标,部分学者也借助词向量模型来衡量文本的特异质信息含量。
基于文本相似度指标,Brown and Tucker(2010)从 MD&A的文本信息相对于上一年内容修订的幅度分析了MD&A部分的修订的影响因素以及相关的经济后果,研究表明,公司发生较大经济事件是导致 MD&A部分内容发生变化的重要原因。部分研究也发现,样板化的文档可能与合规风险(钱爱民和朱大鹏,2020;Mcmullin,2014;Scott et al.,2022)和诉讼风险(Cazier et al.,2020)等有关。
基于N-gram模型,Cazier et al.(2020)发现尽管样板化的风险信息会给企业带来负面影响,但是企业也从冗长和样板化的风险信息中规避了被监管部分审查和处罚的风险。Scott et al.(2022)提供类似的证据表明,管理层在最初起草他们的文件时的抄袭行为虽然减少了私人信息的披露,降低了可读性,但是却让公司的披露更符合监管部门的规定,降低了监管风险。
基于词向量回归,Hanley and Hoberg(2010)和孟庆斌等(2017)的做法,通过文本向量化模型首先将MD&A部分的文本进行向量化处理后,然后通过回归分析的方式,剥离行业和市场特有的信息,最终获得反映公司特异质的文本信息。MD&A特异质文本信息越多,表明MD&A的文本信息含量越高。

5. 文本粘性

文本粘性指标反映了第T年的年报文本内容相对于上一年年报文本内容的重复程度。该指标目前应用较少,主要用来反映年报文本质量或者检验年报有关政策执行的政策效应,如:Dyer et al.(2017)则分析了年报文本内容的主题演变和文本质量的变化趋势。文本粘性的衡量主要借助N-gram模型来实现。

6. 文本冗余

文本冗余化程度主要衡量年报中相同的文本内容在同一个文件中重复出现次数。现有文献针对文本冗余有着不同的理解。一方面,文本信息的重复增加了投资者对重复信息的处理效率,但是却降低了投资者对其他非重复信息的处理效率。更多的交互性披露有利于减轻文本重复对投资者处理非重复信息的有害影响(Brown et al.,2020)。另一方面,Li (2017)却发现,并非所有的管理者都使用重复的披露来掩饰坏的业绩表现,相反,其研究发现管理层使用重复披露来强调一些特别重要事件,从而提高了投资者对这些信息的关注度。现有文献主要借助N-gram模型来衡量文本的冗余程度。

7. Hard infomation 程度

Lang et al(2015)和Dyer et al.(2017)的研究用金额和百分比占比来衡量年报文本的具体化程度。具体表现为,如果年报文本中包含讨论了大量的金额和百分比数字表明管理层对财务分析越具体,年报文本质量越高。

8. 具体化程度

Dyer et al.(2017)和李晓溪等(2019)分别用Stanford的 NER模块实现命名实体识别10K文本和招股说明书中的时间、地点、机构、人名、货币、百分比和日期等信息的占比来衡量文本的具体化程度。

参考文献


向上滑动阅览

[1]卞世博,管之凡,阎志鹏.答非所问与市场反应:基于业绩说明会的研究[J].管理科学学报,2021,24(04):109-126.

[2]蔡春,朱磊,郑倩雯等.多个大股东与高质量审计需求[J].会计研究,2021(10):176-189.

[3]蔡闫东,汪顺,陈一玲等.年报语调管理与审计师披露应对[J].审计研究,2022, 229(05):85-94+117.

[4]底璐璐,罗勇根,江伟等.客户年报语调具有供应链传染效应吗?——企业现金持有的视角[J].管理世界,2020,36(08):148-163.

[5]李晓溪,杨国超,饶品贵.交易所问询函有监管作用吗?——基于并购重组报告书的文本分析[J].经济研究,2019,54(05):181-198.

[6]林乐,谢德仁.分析师荐股更新利用管理层语调吗?——基于业绩说明会的文本分析[J].管理世界,2017,290(11):125-145+188.

[7]林晚发,赵仲匡,宋敏.管理层讨论与分析的语调操纵及其债券市场反应[J].管理世界,2022,38(01):164-180.

[8]逯东,宋昕倍.媒体报道、上市公司年报可读性与融资约束[J].管理科学学报,2021,24(12):45-61.

[9]罗进辉,彭逸菲,陈一林.年报篇幅与公司的权益融资成本[J].管理评论,2020,32(01):235-245.

[10]马黎珺,伊志宏,张澈.廉价交谈还是言之有据?——分析师报告文本的信息含量研究[J].管理世界,2019,35(07):182-200.

[11]孟庆斌,杨俊华,鲁冰.管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J].中国工业经济,2017,357(12):132-150.

[12]钱爱民,朱大鹏.财务报告文本相似度与违规处罚——基于文本分析的经验证据[J].会计研究,2020,395(09):44-58.

[13]丘心颖,郑小翠,邓可斌. 2016. 分析师能有效发挥专业解读信息的作用吗? ———基于汉字年报复杂性指标的研究. 经济学 ( 季刊) ,15: 1483~ 1506

[14]王克敏,王华杰,李栋栋等.年报文本信息复杂性与管理者自利——来自中国上市公司的证据[J].管理世界,2018,34(12):120-132+194.

[15]谢德仁,林乐.管理层语调能预示公司未来业绩吗?——基于我国上市公司年度业绩说明会的文本分析[J].会计研究,2015(02):20-27+93.

[16]徐巍,姚振晔,陈冬华.中文年报可读性:衡量与检验[J].会计研究,2021(03):28-44.

[17]赵昕,单晓文,王垒.MD&A语调对企业脱实向虚风险的预示效应研究[J].管理学报,2022,19(07):1092-1102.

[18]赵子夜,杨庆,杨楠.言多必失?管理层报告的样板化及其经济后果[J].管理科学学报,2019,22(03):53-70.

[19]周升师,苏昕.管理层讨论及分析语调对企业未来战略差异的预测作用研究[J].管理学报,2023,20(03):349-357.

[20]Baginski, S.P. , E. Demers, A. Kausarc, Y.J. Yu. 2018. Linguistic Tone and the Small Trader[J]. Accounting, Organizations and Society, 68-69: 21-37.

[21]Baginski, S.P., E. Demers, C. Wang, and J. Yu. 2016. Contemporaneous Verification of Language: Evidence from Management Earnings Forecasts[J]. Review of Accounting Studies, 21(1): 165−197.

[22]Ball, Christopher, G. Hoberg, and M. Vojislav. 2016. Disclosure, Business Change and Earnings Quality[R]. NBER Working Paper.

[23]Basu, S., X. Ma, and H. Briscoe-Tran. 2021. Measuring Multidimensional Investment Opportunity Sets with 10-K Text[J]. The Accounting Review, 97 (1) : 51-73.

[24]Bian, S., F. Li, and Z. Yan. Do Retail Investors Matter? [R] .NBER Working Paper, 2021.

[25]Blanco, B., P. Coram, S. Dhole, and P. Kent. 2020. How Do Auditors Respond to Low Annual Report Readability?[J]. J. Account. Public Policy, 106769.

[26]Brown, S.V., and J.W. Tucker. 2010. Large-Sample Evidence on Firms' Year-over-Year MD&A Modifications[J]. Journal of Accounting Research, 49 (2): 309-346.

[27]Cazier, R.A., J.L. Mcmullin, and J.S. Treu. 2020. Are Lengthy and Boilerplate Risk Factor Disclosures Inadequate? An Examination of Judicial and Regulatory Assessments of Risk Factor Language[J]. The Accounting Review, 96 (4) : 131-155.

[28]Cho, H., and V. Muslu. 2021. How Do Firms Change Investments Based on MD&A Disclosures of Peer Firms?[J]. The Accounting Review, 96 (2):177-204.

[29]Chung, D., K. Hrazdil, and N. Suwanyangyuan. 2016. Disclosure Quantity and the Efficiency of Price Discovery: Evidence from the Toronto Stock Exchange[J]. Review of Accounting and Finance, 15.

[30]Chung, D.Y., K. Hrazdil, J. Novak, and N. Suwanyangyuan. 2019. Does the Large Amount of Information in Corporate Disclosures Hinder or Enhance Price Discovery in The Capital Market?[J]. Journal of Contemporary Accounting and Economics, 15 (1): 36-52.

[31]Cohen, L.,C. Malloy, and Q.Nguyen. 2020. Lazy Prices[J]. The Journal of Finance, 75(3) : 1371-1415.

[32]Davis, A.K., J.M. Piger, and L.M. Sedor. 2011. Beyond the Numbers: Measuring the Information Content of Earnings Press Release Language[J]. Contemporary Accounting Research, 29(3): 845-868.

[33]Donovan, J., J. Jennings, K. Koharki and J. Lee. 2021. Measuring Credit Risk Using Qualitative Disclosure[J]. Review of Accounting Studies, 26(2): 815-863.

[34]Durnev, A , and C. Mangen. 2020. The Spillover Effects of Md&A Disclosures for Real Investment: The Role of Industry Competition[J]. Journal of Accounting and Economics, 70(1):101299.

[35]Dutta, S., M. Fuksa, and K. Macaulay. 2019. Determinants of MD&A Sentiment in Canada[J]. International Review of Economics and Finance, 60(C): 130-148.

[36]Dyer T., M. Lang, and L. Stice-Lawrence. 2017. The Evolution of 10-K Textual Disclosure: Evidence from Latent Dirichlet Allocation[J]. Journal of Accounting and Economics, 64(2-3) : 221-245.

[37]Feldman, R., S. Govindaraj, and J. Livnat. 2010. Management's Tone Change, Post-Earnings Announcement Drift and Accruals[J]. Review of Accounting Studies, 15(4):915-953.

[38]Feng L , Lundholm R , Minnis M . A Measure of Competition Based on 10‐K Filings. Journal of Accounting Research, 2013, 51(2).

[39]Frankel, R., J. Jennings, and J. Lee. 2016. Discussion of Using Unstructured and Qualitative Disclosures to Explain Accruals[J]. Journal of Accounting & Economics, 62(2): 209-227.

[40]Hanley, K.W., and G. Hoberg. 2010. The Information Content of IPO Prospectuses[J]. Review of Financial Studies, 23(7):2821-2864.

[41]Hoberg, G..2016. Discussion of Using Unstructured and Qualitative Disclosures to Explain Accruals[J]. Journal of Accounting and Economics, 62(2-3):228-233.

[42]Kang, T., D.H. Park, I. Han. 2018. Beyond the Numbers: the Effect of 10-K Tone on Firms' Performance Predictions Using Text Analytics[J]. Telematics and Informatics, 35 (2): 370-381.

[43]Lang, M., and L. Stice-Lawrence. 2015. Textual Analysis and International Financial Reporting: Large Sample Evidence[J]. Journal of Accounting and Economics, 60(2-3):110-135.

[44]Lawrence, A.. 2013. Individual Investors and Financial Disclosure[J]. Journal of Accounting & Economics, 56(1):130-147.

[45]Lee Y J .The Effect of Quarterly Report Readability on Information Efficiency of Stock Prices*[J].Contemporary Accounting Research, 2012, 29(4):1137-1170.

[46]Lehavy, R., F. Li, and K. Merkley. 2011. The Effect of Annual Report Readability on Analyst Following and the Properties of Their Earnings Forecasts.[J]. The Accounting Review, 86 (3): 1087-1115.

[47]Li, F.. 2008. Annual Report Readability, Current Earnings, and Earnings Persistence[J]. Journal of Accounting and Economics, 45(2-3), 221-247.

[48]Li, F.. 2010. The Information Content of Forward‐Looking Statements in Corporate Filings—A Naïve Bayesian Machine Learning Approach[J]. Journal of Accounting Research, 48(5):1049-1102.

[49]Li, H.H.. 2017. Repetitive Disclosures in the MDA[R]. NBER Working Paper.

[50]Loughran T , Mcdonald B .Measuring Readability in Financial Disclosures[J].The Journal of Finance, 2014, 69(4):1643-1671.

[51]Loughran T , Mcdonald B .When Is a Liability Not a Liability? Textual Analysis, Dictionaries, and 10-Ks[J].Journal of Finance, 2011.

[52]Lynnette, Purda, David, et al. Accounting Variables, Deception, and a Bag of Words: Assessing the Tools of Fraud Detection[J]. Contemporary Accounting Research, 2015.

[53]Matthias M M Buehlmaier & Toni M Whited, 2018. "Are Financial Constraints Priced? Evidence from Textual Analysis," Review of Financial Studies, Society for Financial Studies, vol. 31(7), pages 2693-2728.

[54]Mcmullin, J.. 2014. Can I Borrow Your Footnotes? Footnote Boilerplate's Learning Externality [R]. NBER Working Paper.

[55]Muslu, V., S. Radhakrishnan,K.R. Subramanyam, and D. Lim. 2015. Forward-Looking MD&A Disclosures and the Information Environment[J]. Management Science, 61(5): 931-948.

[56]Patelli, L., and M. Pedrini. 2014. Is the Optimism in CEO’s Letters to Shareholders Sincere? Impression Management Versus Communicative Action During the Economic Crisis[J]. J Bus Ethics, 124 (1) : 19-34 .

[57]Rjiba, H., S. Saadi, S. Boubaker, X.Y. Ding. 2021. Annual Report Readability and the Cost of Equity Capital[J].Journal of Corporate Finance, 67:101902.

[58]Rogers, J.L., A.V. Buskirk, and S. Zechman. 2011. Disclosure Tone and Shareholder Litigation[J]. The Accounting review, 86 (6): 2155-2183.

[59]Scott, R., A.N. Skinner and K. Valentine. 2022. The Disclosure Quality Consequences of Copying Standard-Setter Guidance[J]. Rev Account Stud, forthcoming.

[60]William, J.M., and M. Venkatachalam. 2012. The Power of Voice: Managerial Affective States and Future Firm Performance[J]. Journal of Finance, 67(1): 1-44.

[61]You, H., and X.J. Zhang. 2009. Financial reporting complexity and investor underreaction to 10-K information[J]. Review of Accounting Studies, 14(4): 559-586.


上市公司年报文本相关数据推荐

上市公司>>>上市公司财经文本指标信息>>>上市公司-定期财务报告文本数据上市公司-定期财务报告文本数据库基于全部A股上市公司公开披露的年度财务报告(以下简称:年报)全文所构建。该数据库在统计有关文本指标时,剔除了转码失败或者乱码的年报,年报全文来源于巨潮资讯网,通过爬虫和手工整理获得。该库包括“年报基础文本指标”“年报文本语调指标”“年报可读性指标”“年报文本相似度指标”“年报其他文本指标”5张表、65个指标。
  • 数据详情如下:
更多“上市公司-定期财务报告文本数据库”介绍请点击下方文章查看👇

新库上线 | 上市公司-定期财务报告文本数据库上线!包括65个年报文本指标




如需咨询数据,👇请扫码联系客服

长按扫码,添加客服


·END·

星标⭐我们不迷路!

想要文章及时到,文末“在看”少不了!



点击搜索你感兴趣的内容吧

往期推荐


新库上线 | 上市公司-定期财务报告文本数据库上线!包括65个年报文本指标

数据应用推荐 |《经济研究》:市场一体化对企业数字创新的影响——兼论数字创新衡量方法

每周一图 | 全国生猪产能数据历年变化趋势图(2009-2022年)

佳文推荐 | 公司治理实践新动向:从ESG到反ESG

共同富裕(第53期)|  国家发展改革委、国家数据局印发《数字经济促进共同富裕实施方案》


戳原文,更有料!
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存