查看原文
其他

TFID | 金融机构面板数据:构建思路及可能存在的问题(一)

企研数据 社科大数据 2022-12-31


感谢浙江工商大学泰隆金融学院为数据采集清洗提供的资助!

一、金融许可证

为加强金融机构的准入管理,促进金融机构依法经营,中国银行保险监督管理委员会(以下简称“银保监会”)2003年颁布实施《金融许可证管理办法》(以下简称《管理办法》)。
《管理办法》所称金融许可证是指银保监会依法颁发的特许金融机构经营金融业务的法律文件,适用于银保监会监管的、经批准经营金融业务的金融机构,包括政策性银行、商业银行、农村合作银行、城市信用社、农村信用社、村镇银行、贷款公司、农村资金互助社、金融资产管理公司、信托公司、企业集团财务公司、金融租赁公司、汽车金融公司、货币经纪公司等。
银保监会负责行使金融许可证的颁发、更换、吊销等职权,并依法向社会披露金融许可证持有、退出、新设和失控信息,具体可参见“金融许可证信息公开网”[1],如图1所示。
图1:金融许可证信息公开网

二、面板数据构建思路

理论上,我们可以根据金融许可证的持有和退出情况,构建历年金融机构的面板数据(面板时间以各年年底为准)。以构建分年的城市级面板为例,具体计算公式如下:

某年度某城市金融机构数量=上年年底金融机构数量+本年度新设金融机构数量-本年度退出金融机构数量

举个例子,假设我们已经采集了银保监会2022年2月28日发布的金融许可证信息,包括:① 金融许可证持有信息表,共计227260条;② 金融许可证退出信息表,共计6616条。其中,表①即为2022年2月28日的存量金融机构数据。若想通过表①和表②推导出2021年12月31日的存量金融机构数据,可通过以下几个步骤实现:

(1)根据“批准成立日期”从表①中筛选出“2021-12-31至2022-02-28”期间的新设金融机构数量

(2)根据“退出日期”从表②中筛选出“2021-12-31至2022-02-28”期间的退出金融机构数量

(3)根据前文计算公式,推算得到:2021年12月31日存量金融机构数量=2022年2月28日金融机构数量-“2021-12-31至2022-02-28”期间的新设金融机构数量+“2021-12-31至2022-02-28”期间的退出金融机构数量。

三、可能存在的问题

1、“早期”金融许可证退出信息缺失

参照上述方法,可通过表①和表②推导出其他各年的金融机构数据,从而构建历年金融机构的面板数据。然而,遗憾的是,“金融许可证信息公开网”仅公示了近二年的金融机构退出数据,更早期的退出信息是缺失的,如图2所示。因此,实际上基于当前采集的金融许可证信息(持有和退出),最多只能构建近两年的金融机构面板数据。庆幸的是,经过多年数据采集、整合,企研数据目前拥有2015-2022年金融许可证退出数据,可支撑构建2015-2021年金融机构面板数据。特别需要注意的是,市面上出现的各种长面板数据是否考虑了“仅公示近二年的金融机构退出数据”这一问题,并对其进行有效处理,需要使用者有所警惕。表1中对比了不考虑“金融机构退出”这一现实情况下得到的面板数据(见第3列),显然与第2列考虑退出数据所得到的结果有明显差别。
图2:金融许可证信息公开网机构退出数据

2、根据“批准成立日期”处理得到的存量金融机构数据高于实际值

在构建金融机构面板数据的过程中,步骤(1)应该使用“发证日期”还是“批准成立日期”呢?
“发证日期”是监管部门对金融机构颁(换)发许可证的制证日期;“批准成立日期”则为监管部门批准该机构设立的日期。理论上,经批准设立的金融机构,只有在获得银保监会颁发的金融许可证后,才能依法经营金融业务。因此,若采用“批准成立日期”筛选新设金融机构,会使得步骤(1)的筛选结果低于实际数量,从而高估步骤(3)的计算结果。因此,理论上我们应该根据“发证日期”来筛选新设金融机构。
然而,金融许可证换领或重新申领,导致初始发证信息被覆盖。若采用“发证日期”筛选新设金融机构数量,计算得到的金融机构数量将远低于实际数量
根据《管理办法》第八条相关规定,金融机构更名或营业地址变更应当按规定换领金融许可证,许可证破损或遗失则当按规定重新申领。重申(换)领的金融许可证的“发证日期”将调整为重申(换)领日期。目前,“金融许可证信息公开网”仅保留了金融机构最新的重申(换)领的金融许可证信息,不再保留旧的许可证信息
例如,2022年2月28日,我们在网站上查询到“阿拉善左旗方大村镇银行股份有限公司”的发证日期是“2022-02-27”,如图3所示。2021年7月16日,我们从网站上采集到的数据显示,“阿拉善左旗方大村镇银行股份有限公司”的发证日期是“2021-03-05”,如图4所示。通过对比图3和图4,我们发现,“阿拉善左旗方大村镇银行股份有限公司”发证日期的调整是因为机构地址变更导致的许可证换领。
综合以上情况,我们最终选择以“批准成立日期”作为新设金融机构的筛选条件。当然,如前文所述,这么处理无法避免地使得结果被高估

图3:阿拉善左旗方大村镇银行股份有限公司(查询时间:2022年2月28日)

图4:阿拉善左旗方大村镇银行股份有限公司(查询时间:2021年7月16日)

四、2015-2021年金融机构面板数据展示

(一)数据概况

基于上述面板数据的构建思路,我们可以根据2015-2022年金融许可证退出数据和2022年金融许可证持有数据,构建2015-2021年金融机构面板数据,具体结果如表1的结果(2)所示。结果(1)主要根据中国银行业协会发布的一系列《中国银行业服务报告》整理得到,可视为实际金融机构数量的参考标准。结果(3)则是直接根据2022年金融许可证持有数据的“批准成立日期”统计得到的结果。显然,相较于结果(3),结果(2)更接近于实际的金融机构数量。也就是说,不考虑退出数据将会明显低估各年金融机构的存量数据,特别是2015-2017年的数据

表1:2015-2021年金融机构数量对比

为方便用户使用,我们在原始面板数据的基础上,根据金融机构地址信息进一步清理得到了经纬度坐标(火星坐标系),样例数据如表2所示。

表2:2015-2021年金融机构面板数据样例

(二)更多数据

此外,我们还为面板中的金融机构匹配了对应的机构ID,TFID云桌面用户可根据机构ID匹配TFID中国普惠金融机构专题数据库中的其他信息,包括基本信息、营业网点、对外投资、历史信息、工商年报、信用信息、知识产权、招聘大数据、数字化、普惠贷款十大模块。详细变量清单,请扫以下二维码获取。
长按扫码,查看变量清单

(三)可视化呈现

1、机构类型

2、地域分布

五、其他可替代方案

如前文所述,由于“金融许可证信息公开网”仅公示近两年的金融机构退出数据,故无法基于当前网站抓取的银保监金融许可证信息构建完整的金融机构面板数据。TFID凭借企研数据采集的历年数据可以追溯到2015年,但更早期的面板数据构建,仅凭从“金融许可证信息公开网”获得的数据已不够用。那么,是否有其他可替代的解决方案呢
——市场监管部门的企业注册大数据,为构建完整的金融机构面板数据提供另外一种解决方案。金融机构作为一类市场经营主体,尽管比较特殊,但其生产经营也必须在市场监管部门登记注册。也就是说,理论上来自市场监管部门的,包括所有已退出企业信息的注册大数据中包含了所有的金融机构主体的注册信息。因此,我们可以通过文本数据挖掘的方法,基于机构名称和经营范围,从全量的企业注册大数据库中识别出所有金融机构,从而构建完整的,可追溯更久年份的金融机构面板数据
下期推文,我们将介绍如何基于企业注册大数据构建更完整的金融机构面板数据,并对两种解决方案的面板数据结果进行对比。小小地剧透一下,其实两种解决方案各有优劣,详情请关注下期推文!

参考资料

[1]

“金融许可证信息公开网”: https://xkz.cbirc.gov.cn/jr/


加入企研·中国学术大数据平台数据分享群,获取更多数据资源及新鲜资讯


·END·

星标⭐我们不迷路!

想要文章及时到,文末“在看”少不了!



点击搜索你感兴趣的内容吧


往期推荐


绿色发展 | 重磅!正式签署合作开发框架协议

共同富裕 | 本周热点速递

数据分享群积分活动惊喜来袭!快来兑换数据吧!

加入社群 | 一个免费分享数据的中国学术大数据社群(文末有彩蛋)

企研·中国学术大数据平台 | 十八个热点专题数据库!你想要的数据这里都有

数据分享群积分活动惊喜来袭!快来兑换数据吧!

加入社群 | 一个免费分享数据的中国学术大数据社群(文末有彩蛋)



戳原文,更有料!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存