查看原文
其他

在会计研究中使用Python进行文本分析

大邓 大邓和他的Python 2022-07-09

最近在google搜Python在经管中的内容,意外发现专著:在会计研究中使用Python进行文本分析,内容特别新,专著中含有Python代码,也有会计领域文本分析的应用成果。

财会专业的科研人员Python初学者可以通过经管Python专栏课 Python网络爬虫文本分析  入门,再结合这部会计专著,能更好的开展会计领域的文本分析的研究。

文末有资料下载链接

摘要

会计研究中文本数据的重要性显着增加。为了帮助研究人员理解和使用文本数据,本专著定义和描述了文本数据的常用度量,然后演示了使用 Python 编程语言收集和处理文本数据。该专著充满了示例代码,这些代码复现了最近研究论文中的文本分析任务

在专著的第一部分,我们提供了 Python 入门指南。我们首先描述 Anaconda,它是 Python 的一个发行版,它提供了文本分析所需的库及其安装。然后,我们介绍了 Jupyter notebook,这是一种改进研究工作流程并促进可复制研究的编程环境。接下来,我们将教授 Python 编程的基础知识,并演示使用 Pandas 包中的表格数据的基础知识。

专著的第二部分侧重于会计研究中常用的具体文本分析方法和技术。我们首先介绍正则表达式,这是一种用于在文本中查找模式的复杂语言。然后我们将展示如何使用正则表达式从文本中提取特定部分。接下来,我们介绍将文本数据(非结构化数据)转换为表示感兴趣变量(结构化数据)的数值度量的想法。具体来说,我们介绍了基于字典的方法

  1. 测量文档情绪
  2. 计算文本复杂度
  3. 识别前瞻性句子和风险披露
  4. 收集文本中的信息量,以及
  5. 计算不同文本片段的相似度

对于这些任务中的每一个,我们引用相关论文并提供代码片段来实现这些论文中的相关指标。

最后,专著的第三部分侧重于自动化文本数据的收集。我们介绍了网页抓取并提供了从 EDGAR 下载文件的代码。

关键词

文本分析,数据收集,Python,自然语言处理



Using Python for Text Analysis in Accounting Research (forthcoming)目录

1. 引言

2. 在电脑中配置Python

  • 2.1 Python包的作用
  • 2.2 Anaconda软件版本
  • 2.3 安装Anaconda
  • 2.4 Anaconda的使用

3.  Jupyter Notebook

  • 3.1 案例
  • JupyterLab: Jupyter Notebook的开发版(最新版)
  • 如何启动JupyterLab
  • 在JupyterLab中写代码
  • Markdown标记语言与格式化文本代码块

4. Python编程语言简要介绍

  • 4.1 基础知识
  • 4.2 变量与数据类型
  • 4.3 操作
  • 4.4 print函数
  • 4.5 控制流
  • 4.6 函数
  • 4.7 集合类型数据-list、tuple、dictionaries
  • 4.8 处理字符串

5. 处理表数据:Pandas包

  • 5.1 Pandas使用场景
  • 5.2 导入import 声明
  • 5.3 加载数据、导出数据
  • 5.4 在pandas中查看数据
  • 5.5 筛选数据
  • 5.6 创建新列(字段)
  • 5.7 删除列(字段)、列(字段)名重命名
  • 5.8 对数据排序
  • 5.9 合并数据

6 正则表达式介绍

  • 6.1 查看文本中的模式
  • 6.2 字符与字符集
  • 6.3 Regex的定位与边界
  • 6.4 模式匹配次数限定
  • 6.5 分组
  • ...

7. 基于字典法 的文本分析

  • 7.1 字典法文本分析的优势
  • 7.2 理解字典
  • 7.3 识别文本中的词语与句子
  • 7.4 词干化、词形还原
  • 7.5 词语权重
  • 7.6 基于词典法的词频统计函数

8. 量化文本复杂度

  • 8.1 理解文本复杂度
  • 8.2 计算文本字符长度
  • 8.3 使用Fog指数测量文本可读性
  • 8.4 使用BOG指数测量文本可读性

9. 句子结构与分类

  • 9.1 识别前瞻性陈述forward-looking sentences
  • 9.2 使用字典法做文本分类
  • 9.3 识别句子的主语与宾语
  • 9.4 识别命名实体
  • 9.5 词性标注与命名实体识别任务

10. 测量文本相似度

  • 10.1 使用相似度比较文本
  • 10.2 长文本使用cosine相似度计算相似度
  • 10.3 短文本使用Levenshtein距离计算相似度
  • 10.4 使用word2vec词嵌入计算语义相似度

11. 识别文本中的具体信息

  • 11.1 文本识别与抽取
  • 11.2 案例: 从10-k filing中提取出MD&A
  • 11.3 案例: 从10-k html网页文件中提取处MD&A
  • 11.4 从XBRL金融报告中抽取文本

12. 从网络中收集数据

  • 12.1 在互联网中采集数据
  • 12.2 证券交易委员会的EDGAR数据
  • 12.3 网络爬虫
  • 12.4 关于api接口

致谢


参考文献(部分)

Bentley, J. W., T. E. Christensen, K. H. Gee, and B. C. Whipple. 2018. “Disentangling managers’ and analysts’ non-GAAP reporting”. Journal of Accounting Research. 56(4): 1039–1081.

Blankespoor, E. 2019. “The impact of information processing costs on firm disclosure choice: Evidence from the XBRL mandate”. Journal of Accounting Research. 57(4): 919–967.

Bochkay, K., R. Chychyla, and D. Nanda. 2019. “Dynamics of CEO disclosure style”. The Accounting Review. 94(4): 103–140.

Bochkay, K., J. Hales, and S. Chava. 2020. “Hyperbole or reality? Investor response to extreme language in earnings conference calls”. The Accounting Review. 95(2): 31–60.

Bochkay, K. and C. B. Levine. 2019. “Using MD&A to improve earnings forecasts”. Journal of Accounting, Auditing & Finance. 34(3): 458482.

Bozanic, Z., D. T. Roulstone, and A. Van Buskirk. 2018. “Management earnings forecasts and other forward-looking statements”. Journal of Accounting and Economics. 65(1): 1–20.

Chychyla, R., A. J. Leone, and M. Minutti-Meza. 2019. “Complexity of financial reporting standards and accounting expertise”. Journal of Accounting and Economics. 67(1): 226–253.

Gow, I. D., D. F. Larcker, and A. A. Zakolyukina. 2019. “Non-answers during conference calls”. Chicago Booth Research Paper. (19-01). Guay, W., D. Samuels, and D. Taylor. 2016. “Guiding through the Fog:Financial statement complexity and voluntary disclosure”. Journal of Accounting and Economics. 62(2): 234–269.

Heitmann, M., C. Siebert, J. Hartmann, and C. Schamp. 2020. “More Than a Feeling: Benchmarks for Sentiment Analysis Accuracy”. Working Paper, https://papers.ssrn.com/sol3/papers.cfm?abstract_ id=3489963.

本书下载

https://github.com/hiDaDeng/DaDengAndHisPython/blob/master/Using_Python_For_Text_Analysis_In_Accounting_Research.pdf

近期文章

视频专栏课 | Python网络爬虫与文本分析

Shifterator库 | 词移图分辨两文本用词风格差异

如何在DataFrame中使用If-Else条件语句创建新列

BERTopic 主题建模库 | 建议收藏

KeyBERT库 | 自动挖掘文本中的关键词

DataShare | 6000+个股票的每日财经新闻  

SmartScraper | 简单、自动、快捷的Python网络爬虫

SHAP | 机器学习模型解释库

读完本文你就了解什么是文本分析

文本分析在经管领域中的应用概述

综述:文本分析在市场营销研究中的应用

文本分析方法在《管理世界》(2021.5)中的应用

中文金融情感词典发布啦 | 附代码

wordexpansion包 | 新增词向量法构建领域词典

语法最简单的微博通用爬虫weibo_crawler

hiResearch 定义自己的科研首页

SciencePlots | 科研样式绘图库

plydata库 | 数据操作管道操作符>>

plotnine: Python版的ggplot2作图库

Wow~70G上市公司定期报告数据集

漂亮~pandas可以无缝衔接Bokeh  

YelpDaset: 酒店管理类数据集10+G

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存