查看原文
其他

当期荐读 2019年第1期 | 高铁促进了沿线城市之间的学术合作吗?

图书情报知识 图书情报知识 2021-03-13

曾轩芩  韩天尧  康乐乐  李 江

(南京大学信息管理学院)

摘要

[目的/意义]以高铁对科研合作的影响为例,探讨技术进步拉近时空距离之后产生的社会影响。 [研究设计/方法]基于微软学术数据收录的中国京沪高铁沿线城市发表于2000—2016 年间的论文,采用对非平稳时间序列的一阶差分与非参数假设检验,比较了京沪高铁开通前后沿线城市合作强度的变化。 [结论/发现]京沪高铁开通之后,沿线城市的学术合作强度发生了显著提升,中小城市从中受益更大。 此外,论证了这种提升并非经济发展与人力投入等因素所致。 [创新/价值]文献数据与交通数据的结合显示高铁线路正在改变城市时空格局,与大城市相比,中小城市的科研成果在交通发展中得到更大的提升。

关键词


学术合作 京沪高铁 合作强度 

非参数假设检验  一阶差分


高铁发展的十年,也是中国城镇化发展最快的十年。 中国高铁带来的,不仅是人们出行速度的不断刷新,还有中国城市的不断发展与改变。 交通的便捷拉近了城市间的距离,促进了城市间出行来往,以及经济、社会等方面的沟通。城市间的交流能够促进多元化技术、经济和社会因素进一步融合,推动国家的创新和发展。人们对公共交通所带来的城市联通效应日益关注,基于高铁的城市建设逐步被推进,开始出现高铁城市圈、经济圈等新概念。 未来中国高铁路网的搭建与建设和交通运输综合体系将会逐步形成,高铁沿线城镇将进一步发展,在高铁高速发展的同时,中国区域间的科学合作越来越紧密,新的学术联盟、学术生态圈也将逐渐形成,甚至可能出现“高铁沿线学术圈“。

高铁促进了城市之间的学术合作吗? 这个问题值得被更加深入的探讨。


1

文献评述

早在2001 年,Newman 就从高度集群的作者网络中发现,科学合作的现象在几乎所有的研究领域内广泛存在[1,2]。现今,超过90% 的出版物都是以合作形式完成的,合作甚至已经变成部分科研工作开展的前提条件[3]

为了能够更好地发挥科学合作的效能,学者们开始探索影响科学合作的因素。 目前,学者们已经找到证据证明学者间的地理距离、性别、国籍、机构、学科、研究主题、学术年龄和学术地位等均会在一定程度上影响科学合作,这与学者的同质偏好、关系传递和优先依附等心理因素有一定的关联[4]。 学者倾向于与地理距离更紧密[5-7]、学术年龄更相近[8-9]、拥有共同研究主题或兴趣[10-12]的学者合作。而随着现代化社会的发展和全球化的到来,国际合作、跨学科合作、跨机构合作和城市合作等具有一定差异化的合作形式越来越普遍,虽然这些团队需要克服一定的文化差异[13,14],但越来越多的研究项目需要这种多样性[15]。 有适当的学科多样性和技术多样性的合作被证实可以获得更多样化的知识[16],且更可能促进创新[17,18],而跨机构和行业合作有更大可能成功的输出专利[19]和出版物[20]。此外,学者合作的可能性也与他们在科学网络中熟悉的人的数量、合作次数和共同合作者数量显著相关[21,22],且学者更倾向于与学术地位高[23]、所在国家科研实力强[24]和自身发表论文次数更多的学者合作[25]

在国际论文的共同作者的选择偏好研究中,学者认为地理和政治因素是占有主导地位的[26]。学者使用出版物的引用次数作为其影响力的指标进行测量的时候也发现,高影响力出版物的作者的地理多样性更大[27,28],因此,地理位置在合作中的研究不可被忽视。 即便目前地理距离的阻碍正在逐渐被发达的交通方式和联通工具弱化,其中,领土边界在解释共同出版活动中的重要性也日益降低,但迄今为止,密切的地理距离也还是会促进科学合作,因为这可能会提高研究的有效性,并降低搜集、协调和沟通活动的成本[29]

在中国,地理位置接近也早被认为是决定中国跨区域合作的重要因素[30]。 后续学者进行了更多的实证分析,Scherngel和Hu通过 CNKI数据库中合著论文计量找出了地理距离会在一定程度上阻碍31 个国内区域间中文出版物合作的证据[31]。 Ma等使用ISI数据库探究了1990—2010 年间60 个城市的合作演变网络,并发现地理邻近度对城市间科学合作的影响逐年增强[32]。而目前中国飞速发展的高速列车打破了空间阻碍,为跨区域、跨城市合作提供了便利条件。 Jiang等[33]已使用2012 年224 个城市间专利合作的数据,以两城市间是否开通高铁为事件,发现在通过高速铁路连接的城市之间更有可能进行专利研发合作。 Dong 等[34]排除人员流动、旅行速度等因素的情况下,发现如果城市开通了高铁,则该城市的科研人员论文将在发表的数量和质量方面都有显著的提高。

目前关于高铁与学术合作之间关系的论文还很少,在Jiang等[35]和 Dong[36]等的论文中,主要是通过城市是否有高铁站或城市间是否开通高铁来进行城市间科学合作的研究。 从时间方面,单独对一条高铁开通前后进行学术合作变化的深入探索的研究目前还空缺。


2

数据与方法

2.1

数据来源与处理

2.1.1 城市合作数据

研究者从开放的微软学术数据库中获得1.7 亿篇文献题录,从作者的地址中导出共超过1200 万条有“China”的论文的编号、作者、地址和发表年份的数据,构建含5,133,118篇论文的数据集。 接下来,研究者设计城市匹配表和大学- 城市匹配表。城市匹配表中主要采用国内所有地级以上城市的拼音小写形式和其中文名称,并加入有别称的城市英文(如呼和浩特:huhehot、hohhot等)。 并对城市中的特殊情况进行如下处理:①对于可能存在分隔符号的城市(如西安:xi ’ an等),如果去掉分隔符号前后不会引起匹配结果歧义,则将含有分隔符号前后的城市名称对应到没有分隔符号的城市名称(如泰安:taian与tai'an对应到taian),否则只采用含有分隔符号的形式进行匹配。 ②对于英文名称存在重名情况的城市(如苏州和宿州、台州和泰州、宜春和伊春等),暂不做区分。 ③对于国内自治州,将其州名和其州府都统一对应到自治州州府(如红河州:honghe和蒙自市:mengzi),对于州名有歧义但是没有地级市以上州府的情况则做删除处理(如青海海南藏族自治州与海南省,共删除自治州5个),对于州府没有文献的自治州,匹配州内有文献的地方(阿坝州匹配到汶川县:wenchuan)。 大学- 城市匹配表中,研究者搜集了国内主要本科大学800所的中英文全称,并从学信网院校库获取国内目前所有的大学名称及其所在地址,通过使用中文城市名称表对地址进行匹配后识别出大学所在城市,得到这800所主流院校的中英文名称和城市对应的匹配表。 ④在研究中暂时不计算港澳台数据,但是为了集中解决匹配问题并使得匹配精度和程度最大化,我们先将港澳台及其内部地级市加入匹配表中,之后再剔除。



研究者在前向匹配测试中发现,由于名称拼音的包含性(如德州:dezhou 和鄂州:ezhou 等),容易出现部分匹配的问题。 为了解决问题,我们将匹配表按字符串长度进行排序,并将所有地址按照逗号进行分割,对于分割后的地址字符串列表使用匹配表从后往前运用“后向匹配+最长匹配”的原则进行遍历和匹配,完成了大部分数据的匹配。 之后,我们对未匹配数据集进行分析,主要有几点发现:①部分大 学 采 用 的 是 “univ.” 的 简 称 而 非“university”;②有部分研究所未匹配;③部分城市分隔符号未使用英文分隔符号,而采用中文分隔符。以此为依据,我们制作了补充匹配表,对未匹配数据集进行进一步匹配。   对于重名问题,使用省份名称、邮政编码、机构名称等信息对其进行区分。

使用后向匹配问题按照英文地址书写规则,地址一般从行政区域级别从小往大书写,后向匹配过程中若遇到省级名称与城市名称一致的情况,则可能出现匹配错误(如吉林省和吉林市),研究者手工对匹配到吉林市的地址进行筛选并纠正了这一偏差。 所有数据处理的流程如图1所示。

最终,完成了约97.4% 左右的地址与城市的匹配,共有匹配论文4,999,657篇,清洗出2000—2016年所有论文城市合作的数据,完成数据的采集和清洗工作。

之后除去港澳台地区数据,用333个地级行政区构建了333∗333 个合作矩阵,其中包括地级行政区、地区、自治州和盟。 若一篇论文中作者所在城市不一致,则将其中出现过的城市合作矩阵对应位置加1,如一篇论文由北京、上海和杭州的三地的作者合著,则记北京与上海、上海与杭州、杭州与北京的合作各一次,若论文作者均来自于同一城市,则不做处理,最终得到2000—2016 国内城市合作矩阵和国内城市每年合作论文总量。


2.1.2 高铁数据

中国高铁,指的是平均运营速度在200km/h 以上的基础设施设计速度标准高,可供火车在轨道上安全行驶的高速铁路。 日前,中国逐渐实现高铁网络在国内主体城市群的全面覆盖,根据《中长期铁路网规划》,未来要形成以“八纵八横”主通道为骨架、区域连接线衔接、城际铁路补充的高速铁路网,实现省会城市高速铁路通达、区际之间高效便捷相连。 为研究高铁与城市科研合作的关系,我们整理了从2008年京津城际铁路开通以来,至2012年开通的所有高铁,最终选定京沪线为主要参考对象。 主要有以下几点理由:①若高铁与科研合作存在一定的影响,则能够查询到的论文产出应该存在1-2 年左右的滞后期,目前能够全面采集到的数据截止为2016年,为能够更好地观察高铁前后变化,应该留有2年左右的观察期,所以应该选择2012 年之前开通的高铁,京沪高铁于2011 年6 月全线通车,开通时间吻合;②京沪高铁连通了目前国内三个最大的合作中心城市:北京、上海和南京,且是国家铁路规划 “八横八纵”政策中高速铁路的主通道之一,全长1318千米,设有24个车站,能够有足够的站点和合作数量进行分析;③京沪高铁目前穿过的是国内东部地区,路线上有较多的大学和研究机构,其城市间科研合作的数量相对更多,更易观察到趋势。

目前京沪线上必经高铁站除了丹阳、滕州、曲阜、昆山和定远之外,有北京、天津、廊坊、沧州、德州、济南、徐州、苏州、无锡、南京、上海、常州、镇江、蚌埠、宿州、沧州、枣庄和滁州共18 个地级及以上城市。 我们从城市合作论文数据集中提取出来上述城市的2000—2016年的科研合作情况。


2.1.3 城市发展数据

在已有文献中,已经使用经济和地理因素来测度科研合作情况,由于地理距离不会直接发生变化,可能会受到高铁开通的影响;而经济水平差距的增大也会对合作产生负面影响。 此外,科研人员的数量也会直接关系到科研成果的产出。 所以我们从中经网统计数据库上采集了京沪线上所选择的18 个城市的经济数据(GDP)和科研人员数量(普通高等学校专任教师数)(见表1、表2),作为影响科研合作的其他控制因素(德州、宿州科研人员数据缺失)。


2.2

研究方法

我们通过分析2000—2016年城市科研合作,总结出城市合作变化的趋势。 之后测量京沪线上城市之间科研合作的强度的变化,通过排除经济和科研人员投入因素来检验高铁与城市科研合作之间的关系


2.2.1 测度指标

研究中我们设定如下参数指标和检验策略:全国热门及变化巨大城市衡量:为衡量2000—2016 年主要城市的合作变化,我们对2000和2016年的每个城市的合作数量进行统计和排名,将2016 年排名在10%的城市认为是目前城市合作的中心和热门城市,这些城市中过去17 年间排名涨跌幅度变化超过25%的认为是存在大幅度变动的城市。

城市科研实力:科研实力为每个城市每年度发文总量,一篇论文中若有一个及以上该城市作者发文,则给该城市发文数量加1。 最终得到2000—2016年国内所有城市发文总量,作为城市综合实力的测量指标。

城市科研合作强度:为了更好地测量城市合作,研究者设定科研合作强度指标,即科研合作强度=与京沪线上其他城市合作总数/城市科研实力。

城市对科研合作强度: 即测算两城市间合作数量与其自身科研实力的相对强度, 城市对科研合作强度=两城市 AB间合作总数/城市 A 科研实力∗城市B科研实力。

城市合作相似度: 测算两城市间与所有城市合作向量间的余弦相似度。 城市 A与城市 B的相似度即为,Similarity=cos(θ)=A·B /(| A | | B |)。


2.2.2 一阶差分与非参数检验

分析策略:由于城市经济、人力投入与合作强度的趋势均为随社会经济发展而不断增加,体现在时间序列上会使得时间序列成为非平稳时间序列。 若要研究高铁对城市合作强度的影响,就要对时间序列进行一阶差分,对增量进行检验。 考虑到城市之间增量差异较大,故采用增量除以前一年量即增幅进行检验。 如果高铁开通前后样本城市合作强度增幅存在显著性差异,且影响城市合作强度之经济与人力投入增幅在高铁开通前后不存在显著性差异,则可得到高铁开通对城市之间的合作有一定作用的结论。 考虑到合作论文的产出代表了合作的成果,其对于城市之间合作的强度提高的反应具有一定的滞后效应,故本文采用观察高铁开通前1年与开通滞后1年的两组数据来进行实证检验。 对一组样本在实验或政策前后的水平差异的显著性检验方法通常根据样本总体的分布来决定。 若样本总体分布满足正态分布,则使用t检验;若样本总体分布未知,一般采用 KS检验或 Wilcox检验。

相关性系数检验:计算两组数据之间的协方差来看两组数据之间的相关性。


3

结果

3.1

京沪高铁沿线的合作

我们发现,在这17 年时间中,无论是城市对间合作的总数量还是参与合作的城市对量都呈现出指数级的增长(见图2)。 通过分析挑选出2000 年、2005年、2010年和2016年这四个时间节点后进行城市合作总量和合作排名变化情况等统计,主要有以下几点发现:①参与科学合作的城市数量逐年增加,尤其是2010年及之前变化更为明显;②东部发达地区逐渐成长为城市合作的主要区域;③北京在城市合作中一直占有中心地位,上海和南京主要位居其次;④在省会城市中,广州、杭州、西安、重庆和长沙等东南部、中部和西南部城市逐渐成长为科学合作的中坚力量,相反,兰州、合肥、石家庄、长春、武汉、沈阳和昆明等北部和中西部城市在科学合作中的吸引力日渐降低;⑤在其他城市中,深圳、青岛、宁波、镇江、温州等东部城市也渐成为科学合作的热门城市。



通过趋势分析,研究者想进一步探究交通的发达是否促进了城市合作,使得东部地区城市合作成长迅速。 在科研合作强度的计算中,研究者发现,在2012年之后,京沪线上所有城市与其他京沪线上城市合作的合作强度明显增加,考虑发文滞后期,该时间与高铁开通时间基本吻合(见图3)。

具体到京沪线上城市对之间的合作中,研究者计算了高铁开通前五年(2007—2011年)和后五年( 2 0 1 2—2 0 1 6年) 的城市对合作强度, 节点大小表示该城市五年内城市总发文量之和, 线条粗细表示五年内城市对科研合作的相对强度之和。 为了使得图像 更 好 的 展 示, 我 们 将 合 作 强 度 的 值 放 大1,0 0 0,0 0 0倍, 并且为了更好地观察相对合作强度的变化, 我们控制了节点的比例(见图4、 图5)。 通过分析, 主要有以下几点发现: ①京沪线上科研的主力还是集中在北京、 上海和南京等大型城市; ②高铁开通后, 几乎京沪线上所有城市与其他京沪线上的各个城市的城市对科研合作强度有明显提升; ③京沪高铁开通后线路上中小型城市间的合作强度提升幅度比大中型城市更显著。



将2 0 1 1年和2 0 1 4 年城市合作矩阵中京沪线上所有城市与其他所有地级城市合作数量提取出来并计算城市间合作相似度, 发现在京沪高铁开通后仅有德州 一 个 城市与其他城市相似度总和呈下降趋势, 其他所有京沪高铁沿线城市合作的对象和合作数量的相似度变得更高了。 为了更好地可视化, 将德州数据去除后, 得到高铁开通前后京沪线上城市相似度增长率(见图6)。



在由城市科研强度从大到小排列后可以明显看出,科研较强的大中型城市之间(北京、上海、南京、天津和济南)的相似度增加情况并不明显,中小型城市之间与大中型城市和中小型城市之间的城市合作相似度提升相对更为明显。


3.2

从合作的影响因素中去除经济

与科研人力投入——一阶差分与非参数检验

截至目前,研究者还没有办法确定合作强度的增加是因为高铁的开通,经济、科研人员等其他因素可能也会对一个城市的科研实力和科研合作产生影响。

为进一步证明城市 GDP 产出和城市科研人员数量会对城市科研合作产生影响,我们将2007—2011年的京沪线城市科研合作强度均值与经济、科研人员数据的均值按年份进行相关性分析,发现其间具有较强正相关性(相关系数分别为0.952和0.998),经济发达程度与城市科研人员的多少与京沪线上各城市合作强度高低相关。

具体到本文所述京沪高铁,因其开通时间为2011年6月,故选择2011—2012年代表高铁开通前的观察年,2013—2014年代表受到高铁开通影响的效果年。此外,合作强度的增加与前文所述之城市经济与科研人员实力的增强相关,而后者近年来随社会发展处于上升阶段。 故本文对时间序列进行一阶差分,用增量除以前一年量得到增幅,对增幅进行检验。

我们选择京沪高铁沿线城市,分别对其观察年与效果年的合作强度增幅差异、经济增幅差异与科研人员数量增幅差异进行显著性检验。 经济增幅采用GDP增长率来描述,科研人员数量增幅采用普通高等学校专任教师数来描述。 所定义变量如下。

stren2011—2012:2011—2012 年科研合作强度增长率

stren2013—2014:2013—2014 年科研合作强度增长率

eco2011—2012:2011—2012年GDP增长率

eco2013—2014:2013—2014年GDP增长率

edu2011—2012:2011—2012 年普通高等学校专任教师数增长率

edu2013—2014:2013—2014 年普通高等学校专任教师数增长率

首先对样本集的变量采用正态性检验以确定样本变量是否符合正态分布。 这里使用 Shapiro-Wilk检验方法。

假设H0:样本总体符合正态分布;假设 H1:样本总体不符合正态分布。 若检验结果p值小于0.01代表拒绝假设H0,接受假设H1(见表3)。


由检验结果知,与科研人员投入增幅相关的两个变量所反映样本总体符合正态分布,故对其增幅采用t检验。研发强度增幅与经济增幅的总体不符合正态分布,故对观察年与效果年的研发强度增幅与经济增幅的组间差异采用非参数检验,这里采用KS检验与 Wilcox检验两种方式。

假设H3:两组样本的分布不存在显著性差异;

假设H4:两组样本的分布存在显著性差异。 若检验结果p值小于0.01 代表拒绝假设 H3,接受假设 H4(见表4)。


故可知,观察年与效果年经济与科研人员投入增幅均不显著,而科研强度增幅显著。 若不考虑其它潜在因素,可得到高铁开通与科研强度增幅之间有较强的相关关系。


4

结论与讨论

我们从微软学术上导出所有地址在中国的论文编号、发表时间和作者地址,通过构建城市和机构的匹配表并进行匹配,清洗出2000—2016 年所有论文作者所在城市,并根据论文编号清洗出对应的城市合作矩阵。 据统计和观察,在这17 年中,无论是城市对间合作的总数量还是参与城市合作的城市对个数都呈现指数级增长。 通过观察城市合作数量及其合作地位的演变,我们发现参与科学合作的城市数量逐年增加,尤其是2010 年及之前变化更为明显;东部地区逐渐成长为城市合作的主要区域;北京在城市合作中一直占有中心地位,上海和南京主要位居其次;在省会城市中,广州、杭州、西安、重庆和长沙等东南部、中部和西南部城市逐渐成长为科学合作的中坚力量,相反,兰州、合肥、石家庄、长春、武汉、沈阳和昆明等北部和中西部城市在科学合作中的吸引力日渐降低;东部城市也主要成长为合作的热门城市。

为进一步探究高铁与城市合作之间的关系,我们选取京沪高铁作为分析对象,发现在2012 年及以后,京沪高铁上城市与其他线上城市合作数量在其总合作数量的占比明显上升。 之后通过计算城市对科研合作强度,发现京沪线上主要的科研还是集中在北京、上海和南京等大型城市。 高铁开通后,京沪线上所有城市与其他京沪线上的各个城市的城市对科研合作强度有明显提升,且沿线中小型城市的提升幅度比大中型城市更显著。 并且高铁开通后京沪线上绝大多数城市与京沪线上其他城市合作相似度的总和在提升,这种提升在科研实力相对较强的大中型城市与中小城市之间以及中小型城市之间,比大中型城市之间的提升更加明显。

高铁如同互联网、航空设施一般,改变了城市和区域间的时空关系、人们的出行观念和生活方式,为城市带来了新的发展机遇。 对于科研实力发展不均衡的现状,高铁带来的交通便利正在改变时空格局,中小城市正在快速崛起。 本研究在确认京沪高铁开通与沿线城市合作强度之间的相关关系后,采用差分检验的方法去除了学术合作影响因素中的经济和人力因素,因此认为高铁促进了城市之间的学术合作。

本研究仅排除了部分可获得的因素对城市合作的影响,也未能使用因果推论,因此存在一定的不足。 后续研究将进一步改进和完善。


参考文献:



致谢:南京大学信息管理学院助理研究员闵超为论文提出了宝贵的修改建议,南京大学本科生韩韬、南京信息工程大学本科生刘硕在数据处理与分析过程中提供了帮助。


作者贡献说明

李江:提出研究思路,设计研究方案,论文最终版本修订;

曾轩芩:采集、清洗和分析数据,论文起草及最终版本修订;

韩天尧:采集、清洗和分析数据,论文起草;

康乐乐:论文最终版本修订。

支撑数据

支撑数据由作者自存储,Email:zengxuanqin@smail.nju.edu.cn.

1 韩天尧.Openacademic.ibd.数据下载与存储.

2 曾轩芩.coauther2000-2016.xlsx.数据处理.

本文原载于《图书情报知识》2019年第1期88-98页

版权归《图书情报知识》所有,欢迎转发到朋友圈,转载请联系后台。



制版编辑 | 朱静


当期荐读 2019第1期 | LIS学科的视界——UNC-SILS院长Gary Marchionini教授学术访谈

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存