查看原文
其他

采购合同数据集 | 政府采购何以牵动企业创新

大邓 大邓和他的Python
2024-09-09

一、数据集概况

中国地方政府采购合同数据是中国政府采购网中国政府购买服务信息平台披露的政府采购合同信息,主要囊括了采购人(甲方)、采购人所属行政区、供应商(乙方)以及合同金额等关键信息。数据自 2008-06-12 ~ 2021-02-03, 共有 648538 条 。

网址: http://www.cgpnews.cn/

数据集链接: https://pan.baidu.com/s/1Gm7vhd2jGH95DYSaFUIO7g 提取码: 53m8 


字段字段标题字段说明
purchaser采购人采购人(甲方)
address所属地域采购人(甲方)所属地域
administrative_code行政区代码采购人(甲方)所属行政区代码(中华人民共和国 6 位行政区划代码,中华人民共和国民政部 2019 年 6 月版)
provincial_region省级行政区采购人(甲方)所属省级行政区(中华人民共和国的第 一级行政区,中国共计 34 个省级行政区,包括 23 个省、 5 个自治区、4 个直辖市、2 个特别行政区)
perfecture_division地级行政区采购人(甲方)所属地级行政区(中华人民共和国的第 二级行政区,中国大陆共计 333 个地级行政区,包括 293 个地级市、7 个地区、30 个自治州、3 个盟)
supplier供应商名称供应商(乙方)名称
industry所属行业供应商(乙方)名称所属行业
contract_number合同编号合同编号
contract_name合同名称合同名称
contract_amount合同金额合同金额(单位: 万元)
project_number项目编号项目编号
project_name项目名称项目名称
contract_date签订日期签订日期
announcement_date公告日期公告日期
agency代理机构代理机构
contract_id合同标识合同唯一标识符
if_joint是否众包一个采购合同是否对应多家供应商。是记为“1”,否记为 “0”
数据集链接: https://pan.baidu.com/s/1Gm7vhd2jGH95DYSaFUIO7g 提取码: 53m8 



二、读取数据集

import pandas as pd

df = pd.read_csv('data/中国地方政府采购合同.csv', encoding='utf-8', low_memory=False)
df.head()


len(df)

Run

648538

df['contract_date']

Run

    0        2020-12-02
    1        2020-06-14
    2        2020-05-28
    3        2020-05-14
    4        2020-05-13
                ...    
    648533   2018-11-07
    648534   2018-11-07
    648535   2018-11-07
    648536   2018-11-01
    648537   2018-10-30
    Name: contract_date, Length: 648538, dtype: datetime64[ns]



三、相关论文

孙薇,叶初升.政府采购何以牵动企业创新——兼论需求侧政策“拉力”与供给侧政策“推力”的协同[J].中国工业经济,2023,(01):1-19.

3.1 方法

通过 Python爬虫技术 获取中国政府采购新闻网 2015—2020 年 64 余万条政府采购合同数据,采用 文本分析方法 识别出政府创新采购,进而利用政府创新采购合同与中国 A 股上市企业匹配数据,实证检验政府创 新采购的创新效应及其影响机制,并对需求侧的政府创新支持“拉力”和供给侧的政府创新支持“推力”进行异质性分析,进一步探讨了两侧创新支持政策实施中的协同性问题,从而为政府精准施策提供学术依据。


3.2 创新

本文的边际贡献在于:

  • 基于政府采购合同数据,使用文本分析方法,从总体的政府采购中识 别出政府创新采购,为准确评估政府采购政策的创新效应创造了前提条件
  • ②在一个理论框架内阐 明了政府创新采购影响企业创新的机制,并进行了相应的实证检验,从理论和实证两个方面丰富了 需求侧创新政策激励效应的研究;
  • ③从政策组合的整体视角考察了两侧创新支持政策的协同性问 题,为新发展阶段全面提升中国创新激励政策的实施效果、更好发挥“有为政府”在创新驱动中的作 用提供了重要的政策启示。

3.3 算法

本文将各级国家机关和事业单位对创新产品和服务的采购界定为政府创新采购,并应用文本分析方法从总体的政府采购中加以识别

本文使用的政府采购查询系统,对于每一份合同,网站都披露了合同名称、签订日期、合同金额、供应商名称、采购人 名称、所属地区等信息。由于从 2015 年开始可以查询到较为详细的采购合同信息,因此,本文选取 2015—2020 年作为实证研究的年份区间。

(1)基于文本分析的政府创新采购识别。本文的文本分析基于 Python 的 jieba分词实现。为提升分词结果的可靠性,本文构建了行业词库和停用词库,以形成对 Jieba 分词自带词库的有益补充。基于以上词库,对《重大技术装备自主创新指导目录(2012)》和《战略性新兴产业分类(2018)》中的 “重点产品和服务目录”以及手工收集的各地区创新产品目录进行分词 ,并对分词结果进行精细化的人工筛选,最终得到包含“智能电网” “液相色谱仪” “智能医疗系统” “物联网网关” “旋翼无人机” “管道机器人” 等 3000 余个词汇的政府创新采购关键词库。随后,对 2015—2020 年 64 余万条政 府采购合同的“合同名称”“ 主要标的名称”和“规格型号或服务要求”进行分词。如果某个政府采购合同的以上三项信息中包含关键词库内任意一个关键词,那么该合同就被认定为政府创新采购合同

(2)“政府创新采购合同-上市企业”匹配。在对各企业供应商的名称初步清洗之后,采用 Python 的 levenshtein distance 算法,进行“政府创新采购合同—上市企业”匹配。为提升匹配精度, 同时开展模糊匹配和精确匹配,并以人工校对的方式汇总匹配结果。 考虑到上市企业往往会有较多子公司参与政府采购的招投标,本文手工整理了分年度的上市企业母、子公司名称,据此匹配,并将匹配结果合并。最终共有 873 家上市企业匹配到政府创新采购合同,在本文的总样本中,每家上市企业平均获得政府创新采购合同约 1.21 份。



四、Python技术细节

  1. 网络爬虫采集政府采购网数据
  2. jieba分词
  • 导入创新技术相关词,更新jieba自定义词库
  • 分词
  1. 使用if语句判断是否含某创新词
  2. 文本相似度进行采购合同上市公司匹配。levenshtein distance

相关技术细节及应用,课程内都有涉及, 欢迎系统学习我的Python课程



精选文章

管理世界 | 使用文本分析词构建并测量短视主义

管理世界 | 使用 经营讨论与分析 测量 企业数字化指标

管理世界 | 用正则表达式、文本向量化、线性回归算法从md&a数据中计算 「企业融资约束指标

可视化 | 词嵌入模型用于计算社科领域刻板印象等信息(含代码)

可视化 | 绘制《三体》人物关系网络图

可视化 | 使用决策树分析小红书帖子数据(含代码)

转载 | 基于词嵌入技术的心理学研究: 方法及应用

赶快收藏 | 社会科学文本挖掘技术资料汇总

B站社会科学文本分析视频合集

词嵌入技术在社会科学领域进行数据挖掘常见39个FAQ汇总

文本分析 | 中国企业高管团队创新注意力(含代码)

文本分析 | MD&A 信息含量指标构建代码实现

金融研究 | 使用Python构建「关键审计事项信息含量」

支持开票 | Python实证指标构建与文本分析

金融研究 | 文本相似度计算与可视化

转载 | 社会计算驱动的社会科学研究方法

推荐 | 社科(经管)文本分析快速指南

视频分享 | 文本分析在经管研究中的应用

转载 | 金融学文本大数据挖掘方法与研究进展

转载 | 大数据驱动的「社会经济地位」分析研究综述

使用 Word2Vec 和 TF-IDF 计算五类企业文化

如何用「图嵌入」将企业、高管职业经历表征为向量数据

JM2022综述 | 黄金领域: 为营销研究(新洞察)采集网络数据

MS | 使用网络算法识别创新的颠覆性与否

认知的测量 | 向量距离vs语义投影

Asent库 | 英文文本数据情感分析

PNAS | 文本网络分析&文化桥梁Python代码实现

PNAS | 使用语义距离测量一个人的创新力(发散思维)得分

PNAS | 历史文本中的语言积极性反映了动态的环境和心理因素(含Python代码)

tomotopy | 速度最快的LDA主题模型

数据集 | cctv新闻联播文稿数据

数据集 | 睡前消息文稿数据集

EDGAR | 25年数据的预训练词向量模型(含代码)

2G数据集 | 80w知乎用户问答数据

继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存