在会计研究中使用Python进行文本分析
最近在google搜Python在经管中的内容,意外发现专著:在会计研究中使用Python进行文本分析,内容特别新,专著中含有Python代码,也有会计领域文本分析的应用成果。
财会专业的科研人员Python初学者可以通过经管Python专栏课 Python网络爬虫文本分析 入门,再结合这部会计专著,能更好的开展会计领域的文本分析的研究。
文末有资料下载链接
摘要
会计研究中文本数据的重要性显着增加。为了帮助研究人员理解和使用文本数据,本专著定义和描述了文本数据的常用度量,然后演示了使用 Python 编程语言收集和处理文本数据。该专著充满了示例代码,这些代码复现了最近研究论文中的文本分析任务。
在专著的第一部分,我们提供了 Python 入门指南。我们首先描述 Anaconda,它是 Python 的一个发行版,它提供了文本分析所需的库及其安装。然后,我们介绍了 Jupyter notebook,这是一种改进研究工作流程并促进可复制研究的编程环境。接下来,我们将教授 Python 编程的基础知识,并演示使用 Pandas 包中的表格数据的基础知识。
专著的第二部分侧重于会计研究中常用的具体文本分析方法和技术。我们首先介绍正则表达式,这是一种用于在文本中查找模式的复杂语言。然后我们将展示如何使用正则表达式从文本中提取特定部分。接下来,我们介绍将文本数据(非结构化数据)转换为表示感兴趣变量(结构化数据)的数值度量的想法。具体来说,我们介绍了基于字典的方法
测量文档情绪, 计算文本复杂度, 识别前瞻性句子和风险披露, 收集文本中的信息量,以及 计算不同文本片段的相似度。
对于这些任务中的每一个,我们引用相关论文并提供代码片段来实现这些论文中的相关指标。
最后,专著的第三部分侧重于自动化文本数据的收集。我们介绍了网页抓取并提供了从 EDGAR 下载文件的代码。
关键词
文本分析,数据收集,Python,自然语言处理
Using Python for Text Analysis in Accounting Research (forthcoming)目录
1. 引言
2. 在电脑中配置Python
2.1 Python包的作用 2.2 Anaconda软件版本 2.3 安装Anaconda 2.4 Anaconda的使用
3. Jupyter Notebook
3.1 案例 JupyterLab: Jupyter Notebook的开发版(最新版) 如何启动JupyterLab 在JupyterLab中写代码 Markdown标记语言与格式化文本代码块
4. Python编程语言简要介绍
4.1 基础知识 4.2 变量与数据类型 4.3 操作 4.4 print函数 4.5 控制流 4.6 函数 4.7 集合类型数据-list、tuple、dictionaries 4.8 处理字符串
5. 处理表数据:Pandas包
5.1 Pandas使用场景 5.2 导入import 声明 5.3 加载数据、导出数据 5.4 在pandas中查看数据 5.5 筛选数据 5.6 创建新列(字段) 5.7 删除列(字段)、列(字段)名重命名 5.8 对数据排序 5.9 合并数据
6 正则表达式介绍
6.1 查看文本中的模式 6.2 字符与字符集 6.3 Regex的定位与边界 6.4 模式匹配次数限定 6.5 分组 ...
7. 基于字典法 的文本分析
7.1 字典法文本分析的优势 7.2 理解字典 7.3 识别文本中的词语与句子 7.4 词干化、词形还原 7.5 词语权重 7.6 基于词典法的词频统计函数
8. 量化文本复杂度
8.1 理解文本复杂度 8.2 计算文本字符长度 8.3 使用Fog指数测量文本可读性 8.4 使用BOG指数测量文本可读性
9. 句子结构与分类
9.1 识别前瞻性陈述forward-looking sentences 9.2 使用字典法做文本分类 9.3 识别句子的主语与宾语 9.4 识别命名实体 9.5 词性标注与命名实体识别任务
10. 测量文本相似度
10.1 使用相似度比较文本 10.2 长文本使用cosine相似度计算相似度 10.3 短文本使用Levenshtein距离计算相似度 10.4 使用word2vec词嵌入计算语义相似度
11. 识别文本中的具体信息
11.1 文本识别与抽取 11.2 案例: 从10-k filing中提取出MD&A 11.3 案例: 从10-k html网页文件中提取处MD&A 11.4 从XBRL金融报告中抽取文本
12. 从网络中收集数据
12.1 在互联网中采集数据 12.2 证券交易委员会的EDGAR数据 12.3 网络爬虫 12.4 关于api接口
致谢
参考文献(部分)
Bentley, J. W., T. E. Christensen, K. H. Gee, and B. C. Whipple. 2018. “Disentangling managers’ and analysts’ non-GAAP reporting”. Journal of Accounting Research. 56(4): 1039–1081.
Blankespoor, E. 2019. “The impact of information processing costs on firm disclosure choice: Evidence from the XBRL mandate”. Journal of Accounting Research. 57(4): 919–967.
Bochkay, K., R. Chychyla, and D. Nanda. 2019. “Dynamics of CEO disclosure style”. The Accounting Review. 94(4): 103–140.
Bochkay, K., J. Hales, and S. Chava. 2020. “Hyperbole or reality? Investor response to extreme language in earnings conference calls”. The Accounting Review. 95(2): 31–60.
Bochkay, K. and C. B. Levine. 2019. “Using MD&A to improve earnings forecasts”. Journal of Accounting, Auditing & Finance. 34(3): 458482.
Bozanic, Z., D. T. Roulstone, and A. Van Buskirk. 2018. “Management earnings forecasts and other forward-looking statements”. Journal of Accounting and Economics. 65(1): 1–20.
Chychyla, R., A. J. Leone, and M. Minutti-Meza. 2019. “Complexity of financial reporting standards and accounting expertise”. Journal of Accounting and Economics. 67(1): 226–253.
Gow, I. D., D. F. Larcker, and A. A. Zakolyukina. 2019. “Non-answers during conference calls”. Chicago Booth Research Paper. (19-01). Guay, W., D. Samuels, and D. Taylor. 2016. “Guiding through the Fog:Financial statement complexity and voluntary disclosure”. Journal of Accounting and Economics. 62(2): 234–269.
Heitmann, M., C. Siebert, J. Hartmann, and C. Schamp. 2020. “More Than a Feeling: Benchmarks for Sentiment Analysis Accuracy”. Working Paper, https://papers.ssrn.com/sol3/papers.cfm?abstract_ id=3489963.
本书下载
https://github.com/hiDaDeng/DaDengAndHisPython/blob/master/Using_Python_For_Text_Analysis_In_Accounting_Research.pdf
近期文章
如何在DataFrame中使用If-Else条件语句创建新列