如何用文本分析度量企业ESG属性信息
文献
Mansouri S, Momtaz P P. Financing sustainable entrepreneurship: ESG measurement, valuation, and performance[J]. Journal of Business Venturing, 2022, 37(6):106258.
摘要
可持续发展导向对初创企业的初始估值有积极影响,但对其融资后财务业绩有负面影响。在其他条件相同的情况下,将可持续发展方向提高一个标准差将使初创公司的融资金额增加 28%,并将投资者每个融资后年度的异常回报减少 16%。结果适用于基于区块链的众筹活动(也称为首次代币发行(ICO)或代币发行)的大量样本。本文一个关键的贡献是使用机器学习方法从文本数据中评估初创公司环境、社会和治理(ESG)属性
开发算法:量化初创企业的ESG属性
现有研究对如何衡量初创企业的ESG属性还未形成统一框架,且存在以下两个问题:(1)现有的ESG指标主要由几个数据供应商提供,而供应商之间的相关性非常低;(2)现有的ESG评级不适用于初创企业,即存在数据缺失。因此,本文采用一种机器学习的方法,量化初创企业的ESG属性:
1.文本预处理:从公司网站等收集ICO白皮书后,使用斯坦福大学开发的CoreNLP管道生成句子的依赖性表示,并识别一些搭配词;
2.建立种子词:收集《金融时报》中所有带有“ESG投资、道德金钱”标签的文章,采用标准的词袋模型提炼出现频率最高的二元组、三元组词汇,然后对这些词汇进行人工筛查,并在此基础上手动添加一些与代币发行有关的词汇,得到三个维度的种子词数为:70、38、46;
3.选取联想词:使用Word2vec模型扩充种子词,为ESG的每个维度挑选500个最为相近的术语,经再次筛查后,得到三个维度的词典数量为:508、463、524;
4.计算ESG分数
在(1)式中,代表白皮书i中术语的计数,c(n)是相应的单词列表的大小,即用频率来表征企业在某一维度的得分,然后将三个维度的得分加总得到最终的ESG分数;
精选内容
70G数据集 | 3571万条专利申请数据集(1985-2022年)
数据集 | 2001-2022年A股上市公司年报&管理层讨论与分析
管理世界 | 用正则表达式、文本向量化、线性回归算法从md&a数据中计算 「企业融资约束指标」
中国管理科学 | 使用业绩说明会文本数据测量上市公司前瞻性信息
PNAS | 14000+篇心理学顶刊论文可复现性调研(含代码)
网络爬虫 | 使用Python披露采集 Up 主视频详情信息
数据集 | 200w政府采购合同公告明细数据(1996.6-2022.12)
数据集 | 84w条业绩说明会问答数据(2005-2023)
高管数据 | 使用pandas对xlsx中的简介字段做文本分析