其他
Part1前言在当前这个信息泛滥的时代,及时、可靠和尽量精准的数据对我们获取知识、理解现实和解决问题变得越来越关键。这催生了一批面对政商学、产学研各个领域专业数据服务公司。企研数据专注社科领域的专业数据库研发和建设服务,是国内较早将全量工商注册企业数据应用于科研领域的专业公司。团队对全量工商注册数据的应用可以追溯到创始人在北京大学从事博士后研究工作期间所参与的朗润-龙信创新创业指数项目。公司于2018年正式成立之后,我们尝试用这份理论上包含中国所有企业基本信息的数据库,深度探索了其在规模以上工业企业数据库、海关数据库、专利数据库等的纵向和横向匹配方面的应用价值,形成的研究报告免费分享在公众号上,读者可以在企研·学习专区下载工作论文形式的pdf文件(网址为:xue.qiyandata.com,以下是截图)。图源“企研·学习专区”,网址:xue.qiyandata.com公司正式成立之后,始终坚持边干边学,努力加深对中国全量工商注册企业数据库的研究,不仅在此基础上探索了其在三农、绿色发展和数字经济等领域的科研应用,还持续为有关部委、大型国企提供相关数据服务。我们深知这份数据的复杂程度,以及数据安全的重要性,5年来团队始终保持清醒的头脑,坚持从应用层面去开发和销售相关数据产品,而拒绝落地售卖全量的基础数据。尽管我们知道,在金融领域,一份全量工商注册数据库+更新服务,动辄大几十万,甚至数百万。近期,销售部门得到一些客户反馈,认为通过云桌面账号的方式使用这个数据库并不合理,因为“市面上”已经有不少数据服务商公开售卖这份数据,并且价格极为便宜。我们深知,只有通过对数据有细致的前期处理和谨慎分析,才能确保其准确性和完整性,从而得出可靠的数据分析结果。为了一探究竟,企研数据·研发部抱着“学习使人进步”的态度,对买到的其中一份数据进行了质量分析,正如我们之前曾经分析互联网上流传的2014、2015年规模以上工业企业数据库那样(传送门:2014年工业企业数据库质量调查报告、2015年工业企业数据库质量调查报告),形成了这份质量考察报告。具体来说,本文试图利用企研数据掌握并运营多年的全量工商企业注册数据库(我们接下来称之为“企研版”)以及一些国家市场监管部门公开发布的统计数据,对这份原始出处不明的中国全量工商企业数据集(我们接下来称呼其为“A版”)的质量进行考察。主要将从数据量和数据质量两个方面展开,以期帮助读者更好地选择和使用数据。Part2从数据量上看,企研版市场主体数量明显高于A版,且更接近于国家统计局公布的官方统计值。我们通过A版数据的“企业类型”指标发现,该数据集不仅包含“企业”的登记注册信息,还包含“个体工商户”的注册信息。为分别对比不同类别经营主体(企业和个体工商户)的数量,我们尝试对A版数据的经营主体类型进行划分。然而遗憾的是,该数据集的“企业类型”指标缺失率高达53.15%,导致无法简单根据该指标对经营主体类型进行划分。随后,我们尝试通过“统一社会信用代码”指标,来辅助识别“企业类型”指标缺失记录的经营主体类型。然而统计发现,A版数据约有7655万条记录(占比约为51%)的“统一社会信用代码”和“企业类型”指标均为缺失状态。总之,根据当前A版数据集的已有的指标和指标缺失情况,我们暂时无法对企业和个体工商户两类经营主体进行区分。🎨小知识:我们可通过“统一社会信用代码”前两位为“92”,对个体工商户经营主体进行识别(关于统一社会信用代码更为详细的说明可见往期推文