其他
数据集 | 07-21年上市公司「委托贷款公告」
一、数据集概况
- 数据来源:沪深A股非金融类上市公司披露的委托贷款公告
- 时间跨度:2007—2022年
- 所需指标
- 贷款提供方和接收方名称
- 借贷双方股权关联关系
- 委托贷款金额
- 利率
- 贷款期限等借贷条款信息
数据集不大,只有2297条记录。
import os
os.listdir()
Run
['raw_data',
'委托贷款.csv',
'img',
'委托贷款(含有hash_id,跟pdf文件名一致).csv',
'委托贷款.ipynb',
'数据说明.txt']
二、导入数据
委托贷款.csv 委托贷款(含有hash_id,跟pdf文件名一致).csv 比1多了hash_id
两个csv均整理自raw_data, 把很多pdf汇总到csv中。这两个csv数据差异不大,这里只读取 「委托贷款(含有hash_id,跟pdf文件名一致).csv」。
import pandas as pd
df = pd.read_csv('委托贷款(含有hash_id,跟pdf文件名一致).csv')
df.head()
#记录数
len(df)
Run
2297
#不同「公告分类」的记录数
pd.DataFrame(df['公告分类'].value_counts())
#「公告年份」的记录数
pd.DataFrame(df['公告年份'].value_counts().sort_index())
#公告的文本长度
df['公告内容'].str.len()
Run
0 466.0
1 1026.0
2 2938.0
3 3035.0
4 921.0
...
2292 456.0
2293 1116.0
2294 477.0
2295 1900.0
2296 2950.0
Name: 公告内容, Length: 2297, dtype: float64
四、数据集获取
链接: https://pan.baidu.com/s/1py-yNLirCbxBPqeJ-LN9dA 提取码: rz3d
精选内容
管理世界 | 用正则表达式、文本向量化、线性回归算法从md&a数据中计算 「企业融资约束指标」
PNAS | 14000+篇心理学顶刊论文可复现性调研(含代码)
可视化 | 词嵌入模型用于计算社科领域刻板印象等信息(含代码)
可视化 | 文本数据分成n等份、词云图、情绪变化趋势、相似度变化趋势