查看原文
其他

数据集 | 2001-2022年A股上市公司年报&管理层讨论与分析

大邓 大邓和他的Python
2024-09-09


2001-2022年A股年报数据集,含2个文件,共2G。

  • 年报 A01-22.xlsx

  • 管理层讨论与分析 mda01-22.xlsx

xlsx与csv相比,同样的数据量,文件体积会小很多。截图对比

注意, 当数据的记录数小于100w条, 数据如果不考虑体积,存储到csv和xlsx都是okay的,推荐xlsx。当数据记录数大于100w, 只能存储到csv。



数据获取

内容为付费数据集, 转发积攒50+  或 50元购买, 加微信 372335839, 备注「姓名-学校-专业」



一、年报数据

2001-2022年, 年报数据

import pandas as pd

df = pd.read_excel('A01-22.xlsx')
df.head()

Run


len(df)

Run

55222



二、MD&A数据

2001-2022年MD&A数据

import pandas as pd

mda_df = pd.read_excel('mda01-22.xlsx')
mda_df.head()

Run


len(mda_df)

Run

55439

精选内容

93G数据集 | 中国裁判文书网(2010-2021)

96G数据集 | 2亿条中国大陆企业工商注册信息

数据集 | 3571万条专利申请数据集(1985-2022年)

CAR2023 | 文本分析在会计中的应用

管理世界 | 使用文本分析词构建并测量 短视主义

管理世界 | 使用 经营讨论与分析 测量 企业数字化指标

管理世界 | 用正则表达式、文本向量化、线性回归算法从md&a数据中计算 「企业融资约束指标

管理世界 | 机器学习如何赋能管理学研究?——国内外前沿综述和未来展望

中国管理科学 | 使用业绩说明会文本数据测量上市公司前瞻性信息

管理科学学报 | 使用LDA算法计算政策扩散速度与扩散程度

心理科学进展 | 语义距离与创造性思维关系的元分析

JMR | 测量消费者的「语言确定性

文本分析 | 中国企业高管团队创新注意力(含代码)

金融研究 | 使用Python构建「关键审计事项信息含量」

案例代码 | 使用正则表达式判别微博用户mbti类型

可视化 | 99-21年地方政府报告关键词变化趋势

使用 Word2Vec 和 TF-IDF 计算五类企业文化

数据集 | 2006年-2022年企业社会责任报告

数据集 | 2001-2022年A股上市公司年报&管理层讨论与分析

数据集 | 07-21年上市公司「委托贷款公告」

数据集 | 200w政府采购合同公告明细数据(1996.6-2022.12)

数据集 | 84w条业绩说明会问答数据(2005-2023)

单个csv文件体积大于电脑内存,怎么办?

继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存