数据集(更新) | 2001-2023年A股上市公司年报&管理层讨论与分析

大邓和他的Python

2024-09-10

Tips: 公众号推送后内容只能更改一次，且只能改20字符。如果内容出问题，或者想更新内容，只能重复推送。为了更好的阅读体验，建议阅读本文博客版，链接地址https://textdata.cn/blog/2023-03-23-china-a-share-market-dataset-mda-from-01-to-21/

一、数据集介绍

2001-2023年A股年报数据集，含 4 个文件，约 15G。

- 管理层讨论与分析txt.zip
- 年报txt.zip
- A01-23.csv.gz
- mda01-23.csv.gz

注意

zip文件夹是原始数据，解压后内部为 txt 文件。
gz文件为汇总数据，解压后是csv文件。

二、年报数据

2001-2023年年报数据。数据中只有year、code、text三个字段，如果想增加诸如公司简称、行业等信息，可以使用 数据集 | A股上市公司基本信息 进行并表。

import pandas as pd

anual_report_df = pd.read_csv('A01-23.csv.gz', compression='gzip')
anual_report_df

年报记录数

len(anual_report_df)

Run

上市公司总数

anual_report_df.code.nunique()

Run

三、MD&A数据

2001-2023年MD&A数据，数据中只有year、code、text三个字段，如果想增加诸如公司简称、行业等信息，可以使用 数据集 | A股上市公司基本信息 进行并表。

mda_df = pd.read_csv('mda01-23.csv.gz', compression='gzip')
mda_df

len(mda_df)

Run

上市公司总数

mda_df.code.nunique()

Run

四、说明

从代码运行发现， md&a记录量少于年报记录量。这是由于 mda01-23.csv.gz 是从 A01-23.csv.gz 中生成的，由于上市公司的年报不是一套模板生成的，每个公司模板不同，甚至每个公司前后年度报告的排版也会发生变化。在编程提取md&a的过程中，会因排版规则不能穷举，导致md&a样本量略微小于年报的样本量。提取md&a的工具是大邓开发的cntext2.1.1库，使用的内置函数 mda=ct.extract_mda(text)。

anual_report_df['year'] = anual_report_df['year'].astype(int)
mda_df['year'] = mda_df['year'].astype(int)

print('查看每年mda记录量与年报记录量之比')
for year in range(2001, 2024):
    mda_record_num = len(mda_df[mda_df.year==year])
    anual_report_record_num = len(anual_report_df[anual_report_df.year==year])
    print(f'{year} :', mda_record_num/anual_report_record_num)

Run

查看每年mda记录量与年报记录量之比
2001 : 0.6546700942587832
2002 : 0.8569105691056911
2003 : 0.9287925696594427
2004 : 0.9550398839738942
2005 : 0.9707602339181286
2006 : 0.9745879120879121
2007 : 0.9821882951653944
2008 : 0.9846153846153847
2009 : 0.9859075535512966
2010 : 0.9868544600938968
2011 : 0.9894291754756871
2012 : 0.9891696750902527
2013 : 0.9901458415451321
2014 : 0.9905767056162834
2015 : 0.9922616953921913
2016 : 0.9926681542875359
2017 : 0.9934528892684316
2018 : 0.9892384105960265
2019 : 0.9639227642276422
2020 : 0.9642857142857143
2021 : 0.9310064935064936
2022 : 0.9838492597577388
2023 : 0.9901137847416527

五、获取数据

数据集 100 元，加微信 372335839，备注「姓名-学校-专业」。

Tips: 公众号推送后内容只能更改一次，且只能改20字符。如果内容出问题，或者想更新内容，只能重复推送。为了更好的阅读体验，建议阅读本文博客版，链接地址

https://textdata.cn/blog/2023-03-23-china-a-share-market-dataset-mda-from-01-to-21/

精选内容

LIST | 社科(经管)可用数据集列表
推荐 | 文本分析库cntext2.x使用手册
LIST | 文本分析代码列表
LIST | 社科(经管)文本挖掘文献列表
代码 | 使用 MD&A文本测量「企业不确定性感知FEPU」
中国工业经济(更新) | MD&A信息含量指标构建代码实现
管理科学学报 | 使用「软余弦相似度」测量业绩说明会「答非所问程度」
文献&代码 | 使用Python计算语义品牌评分(Semantic Brand Score)
数据集(更新) | 2001-2022年A股上市公司年报&管理层讨论与分析
数据集(更新) | 372w政府采购合同公告明细数据（2024.03）
数据集 | 人民网政府留言板原始文本(2011-2023.12)
数据集 | 人民日报/经济日报/光明日报等 7 家新闻数据集
可视化 | 人民日报语料反映七十年文化演变
数据集 | 3571万条专利申请数据集(1985-2022年)
数据集 | 专利转让数据集(1985-2021)
数据集 | 3394w条豆瓣书评数据集
数据集 | 豆瓣电影影评数据集
数据集 | 使用1000w条豆瓣影评训练Word2Vec
代码 | 使用 3571w 专利申请数据集构造面板数据
代码 | 使用「新闻数据集」计算「经济政策不确定性」指数
数据集 | 国省市三级gov工作报告文本
代码 | 使用「新闻数据」生成概念词频「面板数据」
代码 | 使用 3571w 专利申请数据集构造面板数据
代码 | 使用gov工作报告生成数字化词频「面板数据」

继续滑动看下一个

大邓和他的Python

向上滑动看下一个

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！

数据集(更新) | 2001-2023年A股上市公司年报&管理层讨论与分析

一、数据集介绍

二、年报数据

三、MD&A数据

四、说明

五、获取数据

精选内容

您可能也对以下帖子感兴趣

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！

生成图片，分享到微信朋友圈

数据集(更新) | 2001-2023年A股上市公司年报&管理层讨论与分析

一、数据集介绍

二、年报数据

三、MD&A数据

四、说明

五、获取数据

精选内容

您可能也对以下帖子感兴趣