学人说丨数据告诉你,论文引文里有多少性别偏见
The following article is from 知识分子 Author 瑾岩
pixabay.com
前 言
科学界是社会的一部分,对女性的歧视一直存在。歧视或偏见仿佛一只 “无形的手”,虽然看不见摸不着,但又是确确实实存在的,阻挡着女性的学术发展道路。撰文|瑾 岩责编|王一苇
● ● ●
近年来,随着性别平等意识提升和性别不平等相关研究增多,科学界的性别不平衡问题日渐凸显。不仅从事科学研究的女性比例持续偏低,这种性别不平等还仿佛章鱼的触手,从薪酬,基金,合作功劳,教学评估到雇佣,晋升,遍及学术领域的方方面面 [1]。
2020年6月19日,《自然神经科学》(Nature Neuroscience)杂志上发表的一项研究分析了6万多篇神经科学类论文,发现其引用的参考文献的作者性别,比通过数据库预测出来的引文作者性别比例包含更多的男性作者文章。更重要的是,他们发现这种不平衡主要是由男性的引用习惯导致的,并且随着时间的推移,这种不平衡现象仍在加剧 [2]。
这项研究指出,在多个领域,尤其是天文学 [3],国际关系 [4] 和政治科学 [5] 中,均有研究发现由女性主导的研究被严重低估。学者罗西特(M. W. Rossiter)曾提出,科学界存在 “玛蒂尔达效应”(Matilda Effect),即女性所做研究的重要性经常被忽视,而男性的贡献被认为是更重要的,人们更愿意给予男性更高的评价。那么在已经发表的文章中,这种影响的存在可能会产生引文和声誉上的不平等。
在某些情况下,引用者知道他们引文的作者性别,这时偏见是显性的。但多数情况下,他们并不知情,仅仅凭借推断猜测引文的作者性别,偏见则是隐性的。无论是已知或推断性别,在引用文章时,偏见都有可能在其中起作用。
这项研究从引文数据统计网站科学网(Web of Science,WoS)数据库中,提取了自1995至2018年,发表在《自然神经科学》,《神经》,《大脑》,《神经科学杂志》,《神经成像》五种顶级神经科学期刊上共61,416篇研究性文章综述或会议文章,用于统计分析。
研究者假设文章引文作者姓名对应的性别是未知的,通过两个公开的姓名性别相关概率数据库—社会保障署(SSA)婴儿名字数据集和包含约80万个名字的付费数据库 Gender API,给文章作者分配性别。当作者的名字被识别为女性/男性的可能性≥0.70,就会给引文作者定义为女性/男性。
通过这种方法,研究者有效地捕获了引用行为中的性别偏见,并且进行了量化。
01
女性发文已有 “半边天”
首先,研究者统计分析了男性和女性发文章的比例,发现男性主导的文章和女性主导的文章在数量上已经趋于平衡。
所有样本中,从1995年到2018年,以女性为第一作者(是这项科研成果的主要贡献者)或最后一位作者(通常为通讯作者,即这项成果的责任者和受益人)的文章所占比例以每年约0.60%的速度增长。每种期刊上增长速度有所不同,总体上,这五种期刊中,以女性作为第一作者或最后一位作者的文章占所有文章的总比例从1995年的36%增加到2018年的50%(图1)。
相对于总体性别比例,引文性别比例失衡
既然男性和女性发文章总量不相上下,那么这些文章中的引文作者性别比例是怎样的呢?研究者发现相对于总体作者比例,引文作者的性别比例严重失衡,引用男性为主导的文章远远多于女性为主导的文章。
具体来说,研究者量化了神经科学文章中的引用行为,专门研究了2009-2018年间发表的31,418篇论文中的303,886条引文。随后,他们计算了四个类别被引用论文的数量,即第一作者和最后作者,分别为男男,女男,男女,女女,并将每个类别中的引文数量,与假设从论文库中随机抽取参考文献,所期望的引文数量进行比较。在这30多万条引文中,不同性别作者引文较预期的比例如下:
图2 在随机抽取模型下,将引文不同性别群体作者的百分比与其预期比例进行比较,过度引用和不足引用的百分比(图源,参考文献[2])
考虑文章的相关特征后,引用仍失衡
接下来,研究者考虑了论文的相关特征后,发现以男性为主导的文章仍然被过度引用,以女性为主导的文章引用量过低。
上述将引文与总体作者比例进行比较时,并未考虑已发表论文的其他属性,这可能会导致文章或多或少地被后来的学者引用。比如五年以内发表的文章,由于其研究结果较新颖,所以更有可能被引用。由于存在文章特征的潜在关系干扰,性别与引文率之间的联系就很难判定。
为了解决这个问题,研究者将性别和文章特征之间的可能存在的关系纳入分析,选择了与引用行为可能相关的五个文章特征:发表年份;发表的期刊;作者数量;文章性质(研究性文章还是综述);第一作者和最后作者的论文发表总数。研究者建立了一个包含以上五个特征的数学模型,当给每篇文章套用这个模型时,就会得出这篇文章是属于男男,女男,男女,女女类别的一组的预期概率。接下来,将观察到的引文率,与预期引文率进行比较。在2009-2018年间的303,886次引用中,分析数据如下:
图3 相关特征模型下,将引文中的性别比例与与在各个领域引用的相似的文章的性别比例进行比较。与预期比例相比,显示了对不同性别群体作者的过度和不足引用。(图源,参考文献[2])
失衡背后:男性更倾向引用男性文章?
那么这种巨大的引文失衡是由什么导致的?研究者提出假设:男性在引用文章时,更倾向于引用男性的文章。
为了验证假设,研究者将文章分为两组,即以男性为第一作者和最后作者的文章(又称为MM,即男男),和以女性作为第一作者或最后作者的文章(以下简称为W∪W, 包含女男,男女和女女的文章),比较这两组引用文章的类型。
在2009-2018年间,五种期刊上发表的31,418篇文章中,大约51%为MM,49%为W∪W。两组引用文章较预期的比例如下图:
图4 MM和W∪W引文列表中不同性别作者的过度引用和不足引用的程度。与以女性为第一作者或最后一位作者的论文相比,以男性为第一作者和最后一位作者的论文对男性的引用程度更高(图源,参考文献[2])
MM和W∪W两组,引用参考文献显示出非常大的差异。MM组更加倾向于引用以男性为主导的文章,而在W∪W组中,对女性主导文章的引用增加,这显然离不开女性在引用行为中的领导角色。这说明参考文献中的性别不平衡现象,主要是由男性作者的引用惯例所致。
引文性别失衡正在加剧
除了总体的引用行为外,随着领域的日益多样化,研究者通过量化,发现女性主导文章的引文将随着时间的推移减少。也就说,如果不施加任何干预措施,这种引文的性别失衡将会加剧。
通过计算和比较以男性为主导的文章作者引文比例与预期比例之间的年绝对差异,研究者发现观察到的引文比例与预期比例之间,差异正在以每年0.41%的速度增长。在按作者的性别划分时,发现以男性为主导的文章的参考文献的过度引用程度,一直比女性为主导的文章增长更快。
图5 引用和被引作者的性别引用率的时间趋势(图源,参考文献[2])
在以男性为主导的文章作者的引文中,观察到的引用男性作者的文章比例,每年正以约0.15%的速度略有增加。而以女性为主导的文章作者的引文中,这一比例有微弱下降,每年以-0.08%的速度变化。尽管女性学者们引用男性工作的比例相对稳定,但缺乏改变导致引文中的性别比例越来越无法代表多元化的领域。
社交网络与引用行为之间的关系
在2019年发表的一项研究中,报道了研究人员更倾向于与同性别的研究人员一起工作 [6]。由于感知和亲和力偏见,可能导致了男性过度引用男性,而女性轻微过度引用女性的论文。但是研究者发现在考虑了作者社交网络结构之后,引文性别比例的失衡仍然存在。
研究者量化了文章作者与其共同作者社交网络的性别失衡。共同作者网络中的男性人数,男性人数更多,这一特征在以男性为主导的工作中尤为明显。这种社交网络中的性别差异,与引文行为中性别差异相似。因此研究者建模,并进行回归分析,确定了作者的社交网络导致了男性论文的过度引用。
但是值得注意的是,排除了作者社交网络性别的影响后,男性作者对男性文章的过度引用约有三分之二仍然存在,而女性领导的团队更倾向于成比例的引用。
图6 排除社交网络结构影响后,男性作者对男男文章的过度引用(图源,参考文献[2])
07
推动性别平等,消除偏见,任重而道远
综上所述,这项研究为我们提供了神经科学引文中存在性别不平等的证据。也就是说,男性不太可能引用女性的工作,这可能源于男性对女性的自觉或无意识偏见,导致他们对女性主导工作的更多负面评价。
通常,性别不平等由系统偏见和个人偏见所致。系统性偏见是指在团体中起作用的歧视性价值观,做法和机制。在个人层面上的偏见,既可是显而易见的,如对特定群体有意识持有的或表达的偏见,也可以是隐性的,如潜意识中存在的歧视态度,导致的偏见性言语和社会行为。比如我们在介绍科研工作者的时候,总是会刻意强调 “女科学家”,“女教授”,“女博士”,但很少有人这样介绍一位男性的身份,从某种程度讲,已经显示出对名字的隐性偏见 [7]。
神经科学领域面临的结构性社会不平等,例如明显的性别失衡,在其他科学学科也存在。虽然说解决失衡问题通常取决于当权者(如期刊编辑,基金评审人和机构,部门主席和科学协会主席),但许多失衡都是由研究人员造成的,并且是长久存在的。
尽管引文这一衡量标准不完全代表科研成果的价值,但它们可能会影响同行对研究背后学者的重视程度,进而影响演讲邀请,基金,奖励,任期,晋升,列入教学大纲和教学评估等一系列的活动。这篇文章所展示的引文失衡,只露出了科学界不平等的冰山一角,推动性别平等,消除偏见或歧视,依然任重而道远。
WIN with brains and actions
撰文 | 曾凡钢(尔湾加州大学)
1992年,在神经学会的年会上,我买了一件印有 “WIN with brains” 的T恤衫。我很喜欢这件T恤的字和图案,当时,几位摆摊的青春洋溢的女学生,郑重地告诉我:WIN不光是 “赢”, 而且是 “Women In Neuroscience” 的缩写(见下图)。
近三十年过去了,这件T恤我依旧偶尔穿上球场,而她们又赢到了什么?
今天瑾岩的文章告诉我们:在过去三十年里,虽然进入神经科学的女性人数不断增加,如今达半数左右,但反映她们学术地位的一个重要指标,即文章引用率却不升反降。其根源是男性作者多引男性作者文章,而少引女性作者文章。
文章引用率的性别差异从过去的20%到现在的40%左右,这一差别不是随机的,而是人为的,反映出历史和社会的、有意或无意的对女性神经工作者的歧视,也因此导致了整个体系的性别失衡:目前,在美国神经科学领域,女学生人数占半,但女教授不到三分之一,女领导更少。
瑾岩的文章主要基于宾西法尼亚大学 Danielle Bassett 教授作为通信作者发表在自然一神经科学的论文,这是一位在神经网络和人类行为研究领域非常杰出的女性,大学和研究生学的都是物理专业,曾是 MacArthur 天才奖最年轻的获奖者(2014年33岁)。
我和原文作者交流过,还引用原文数据作过学术报告和作为制定新政策的依据。原文是正式、原创的研究论文,瑾岩的文章增强了原文可读性。或许读者可以从如下几个角度来读瑾岩的文章和原文。
对大数据分析有兴趣的读者,或可以去看看原文的数据采集和分析手段—— 如何从名字判断作者性别,从汉语拼音的姓名猜出性别;剔除各种影响因素如自引等等。您会欣赏作者的严谨思维,剥茧抽丝,得到令人信服证据的过程。
对于科学工作者来说,包括我自己在内,一直觉得科学本身就是公平的代名词,怎么会对女性作者歧视?数据不撒谎,所以我们要正视女性作者歧视这个问题,搞清问题起源,怎么纠正这个问题。
对于大众读者来说,这篇文章关注是神经科学领域的事,但有证据显示这类性别歧视现象存在于其它专业和行业,甚至深入包括女性自身的潜意识。更可怕的是,性别歧视会和种族、年龄、残障、社会经济地位等相关,造成双重和多重歧视。
也许您不是女性,也许您还没有受到任何身份偏见的困扰,但我们生活在一个偏见可能无处不在的环境里,关注某一切面的不公,就是为了追求整体公正的人类社会。
当年摆摊的女学生成长为教授了吗?今天的女学生会实现她们的梦想吗?
我建议下届神经年会T恤加上:WIN with brains and actions.
制版编辑 | 卢卡斯