查看原文
其他

CAR2023 | 文本分析在会计中的应用

大邓 大邓和他的Python
2024-09-09

一、文本分析在会计领域中的应用

Bochkay, Khrystyna, Stephen V. Brown, Andrew J. Leone, and Jennifer Wu Tucker. "Textual analysis in accounting: What's next?." Contemporary accounting research 40, no. 2 (2023): 765-805.


1.1 摘要

自然语言是商务沟通的重要形式。文本分析是指用自然语言处理(NLP)技术处理文本数据,从而得到某些感兴趣的测量值(信息)。我们调查了顶级会计期刊的出版物,并描述了会计文本分析的趋势和现状。我们将可用的 NLP 方法组织在一个统一的框架中。会计研究者经常使用文本分析来衡量披露情绪、可读性和披露数量;比较披露信息以确定相似性或差异;识别前瞻性信息;并检测主题。对于每一项任务,我们都解释了传统方法和基于机器学习(尤其是深度学习)的新方法。我们讨论如何建立基于文本的测量的构造有效性以及研究人员在实施 NLP 模型时面临的典型决策。最后,我们讨论了未来研究的机会。我们的结论是:(i) 文本分析已发展成为一种重要的研究方法,(ii) 会计研究人员应该增加对机器学习(尤其是深度学习)的了解和使用,以进行文本分析。


1.2 发文趋势

会计顶刊文本分析发文量如下图


1.3 数据源&所用指标




二、文本分析操作方法

文本分析各方法指南

  1. 数据获取&预处理步骤
  2. 词典选择(构建)步骤
  3. 监督机器学习步骤

2.1 数据获取&预处理

  1. 数据获取 使用人工手动或爬虫从EDGAR、公司网站、社交媒体等数据源采集下载
  2. 数据清洗  剔除HTML中的标签、非文本字符、特殊字符(如& ¥ $ 等)
  3. 分词 将文本转为颗粒度为词语的成分
  4. 文档筛选  字符数太短的文档删除掉
  5. 停用词 剔除文本中的停用词,如(中文如“的他呢了地”,英文如 the、in、a)
  6. 合并同类项(stemming&lemmatization)  文本中出现的increasing, increases, and increased,都整理为increase。

2.2 词典选择(构建)步骤

  1. 选择词典 选择符合研究目的的词典,如做文本的情感分析,可以选择用积极词典和消极词典。
  2. 词频统计  统计词语是否出现,还是统计词语出现次数
  3. 词语权重  确定所有计数是否具有相同的权重,或者某些单词或短语应获得更高或更低的权重(例如,更常见的单词获得更低的权重)。
  4. 词典验证 将字典在识别相关内容方面的表现与人工注释者进行比较。
  5. 确定指标 确定最终感兴趣变量的标量(例如,文档中的总单词数)

2.3 监督机器学习步骤

  1. 结果变量  决定如何表示感兴趣的变量:(i) 连续变量或 (ii) 分类变量
  2. 标注数据集  收集带标注信息的样本数据(例如,带标签的单词、句子、段落或文章)。标注平台(例如,Prodigy、Amazon Mechanical Turk、TagEditor、SMART 和 piaf)
  3. 分为训练集、测试集  将带标注的数据集拆分为子样本以进行训练、验证和测试。确保感兴趣的变量的每个类别都有很好的代表性
  4. 模型选择  如果采用深度学习模型,请决定模型(例如 BERT)以及是否对模型进行微调。如果使用传统机器学习,请选择特定模型(例如 NB、SVM 或 RF)
  5. 文本特征工程 使用词袋法或者词嵌入
  6. 评估模型  确定评估模型性能的指标。选项包括准确度、精确度、召回率、F 分数和 ROC-AUC
  7. 模型拟合  使用带注释的数据拟合模型,检查验证数据上的模型性能,并确定是否需要更多带注释的示例。这是一个迭代的过程
  8. 确定指标 确定最终感兴趣变量的标量(例如,文档中的总单词数)

精选内容

96G数据集 | 2亿条中国大陆企业工商注册信息

70G数据集 | 3571万条专利申请数据集(1985-2022年)

数据集 | 2006年-2022年企业社会责任报告

93G数据集 | 中国裁判文书网(2010~2021)

数据集 | 2001-2022年A股上市公司年报&管理层讨论与分析

数据集 | 3.9G全国POI地点兴趣点数据集

数据集 | 2014年-2022年监管问询函

管理世界 | 使用文本分析词构建并测量 短视主义

管理世界 | 使用 经营讨论与分析 测量 企业数字化指标

管理世界 | 用正则表达式、文本向量化、线性回归算法从md&a数据中计算 「企业融资约束指标

管理世界 | 政府与市场心理因素的经济影响及其测度

文本分析 | 中国企业高管团队创新注意力(含代码)

金融研究 | 使用Python构建「关键审计事项信息含量」

PNAS | 14000+篇心理学顶刊论文可复现性调研(含代码)

网络爬虫 | 使用Python采集B站弹幕和评论数据

网络爬虫 | 使用Python披露采集 Up 主视频详情信息

B站 | "高铁互殴"视频词云图绘制

可视化 | 绘制《三体》人物关系网络图

可视化 | 99-21年地方政府报告关键词变化趋势

使用 Word2Vec 和 TF-IDF 计算五类企业文化

采购合同数据集 | 政府采购何以牵动企业创新

实验数据 | 194城市楼市政策梳理(2010-2022)

数据集 | 07-21年上市公司「委托贷款公告」

单个csv文件体积大于电脑内存,怎么办?

高管数据 | 使用pandas对xlsx中的简介字段做文本分析

继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存