挖矿 | 连字符(-)在Web of Science中的妙用/兼谈词形还原和词干提取
Web of Science是Clarivate出版的多学科信息系统,也是平日大家使用较多的数据库平台。
如果你需要在Web of Science平台检索文章标题中含有pseudo color(伪色彩)的文献,你会如何构造检索式?
提示:
别漏了color的不同变格形式——colors,coloring,colored
pseudo colorization,pseudo colorize和pseudo coloration不符合检索要求,不应作为检索词。
你编写的检索式长啥样?
检索A:直接键入词组
A. TI=pseudo color
浏览这个检索式得到的检索结果,你会发现不少命中记录的标题中pseudo color并不是以词组形式呈现,例如:文章标题为Conscious Perception of Color in Pseudo-"Blindsight"的记录。
原因:
系统将你的检索式解析为TI=pseudo AND color
检索B:使用精确检索算符
B. TI=”pseudo color”
相信你会想到使用精确匹配检索算符(半角双引号” ”)来规定两个检索词为词组。
但是,这样做尽管实现了词组检索,精确匹配却排除了检索词的其他变格形式,例如:Pseudo Colors,Pseudo Coloring,Pseudo colored等都未被系统视为检索词。
检索C:考虑color其他拼写
C. TI=(”pseudo color” OR ”pseudo colour”)
太好了!
你想起了颜色对应的英文单词存在两种不同的拼写形式——color(US)和colour(UK),但仍然没有解决缺失单词其他变格形式的问题。
检索D:使用通配符
D. TI=”pseudo colo$r*”
对!可以使用通配符,扩大检索访问,提高查全率。
在Web of Science检索系统有3种通配符——星号(*)代表0个或多个字符;美元符($)代表0个或1个字符;问号(?)代表1个字符。
可是还有问题啊!
你会发现命中记录标题中不仅有你需要的pseudo color,pseudo colour,pseudo colors,pseudo colours,pseudo coloring,pseudo colouring,pseudo colored和pseudo coloured,同时还可能有你并不需要的pseudo colorize,pseudo colorization,pseudo coloration,pseudo colourize,pseudo colourization,pseudo colouration ……(第二个单词以color或colour开头的各种情形,以及两个单词之间有连字符的表达都有可能被系统认为符合你的检索要求)。
别忘了我们的检索要求!
pseudo colo(u)rization,pseudo colo(u)rize和pseudo colo(u)ration)并不满足检索要求,因此检索结果中就有了不是真正需要的记录,即存在我们常说的噪声(noise)。
检索E:考虑所有恰当的检索词,并用美元符($)简化
E. TI=(“pseudo colo$r” OR “pseudo colo$rs” OR “pseudo colo$ring” OR “pseudo colo$red”)
很棒很棒!
用这个检索式,可以查得又全又准!
但就是有点麻烦(键入字符还是不少啊😒)
还有更漂亮的检索式吗?
Sure!
有请连字符(-)登场!
检索F:妙用连字符(-)
让我们先来了解一下Web of Science检索系统中的连字符(-)。
Web of Science检索系统会将主题/标题字段检索词中的连字符(-)视为空格,即
键入TI= pseudo-color,命中记录的标题中包含pseudo-color或pseudo color ……(请原谅我在此处偷懒省略了colour的拼写形式)
请注意!尽管连字符(-)被系统当做空格处理,但如果没有中间的连字符,例如前面的检索式A
TI= pseudo color,会被系统解读为你的检索要求是TI=(pseudo AND color)。
关于连字符,你想到了什么?
连字符虽然被Web of Science检索系统视为空格,但又不仅仅被当做空格处理,系统会认为你指定用其连接的两个词紧密相邻,且前后顺序不变,即相当于词组。
有人会说,既然是词组检索,我可以使用精确匹配,同时使用截词符,正如上面给出的检索式E。
没错,检索式E已经很全面了,而且没有噪声,真的很厉害!
但但但……
这样构造检索式不够漂亮啊~敲这么多字符,花时间不说还容易有遗漏和敲错!
因此,对于当前的检索需求,最优检索式应该是——
F. TI=pseudo-color
你可能会想:不对呀?color的其他变格形式不能丢呀,colour也必须考虑啊!
没错!绝对不能丢!必须全面考虑!
悄悄告诉你:
检索式F实际已经解决了你所担心的问题。
为什么呢?
你知道WOS检索系统具有词形还原(lemmatization)和词干提取(stemming)的功能吗?
🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸
【词形还原】
词形还原功能的实现是以后台的词典为基础,即系统会将你键入的检索词还原为单词的原形,然后将该原形的所有其他变格形式都视为你的检索词,例如,键入color,系统认为你的检索词是color,colors,coloring和colored中的任何一个。
词形还原的另一个重要作用是基于词典找出其他拼写形式,即color会映射到colour。
不信?试试在其他条件完全相同的前提下,用单词的不同变格形式或者不同拼写形式进行检索,看得到的命中记录数是否相同。
【词干提取】
词干提取是基于特定算法的,不同检索系统可能使用不同的词干提取器。
当你键入一个单词作为检索词时,系统会将与该词具有相同词干的词视为同义词,从而扩大检索范围。
【禁用词形还原和词干提取功能】
默认情况下,Web of Science检索系统在对主题和标题检索时,自动执行词形还原和词干提取功能。当你不希望使用这两个功能时,可以使用精确匹配检索(使用半角双引号或者打开检索界面中的“Exact Search”)。例如:
两个检索式 TI=mouse和TI=”mouse”,前者会自动匹配mouse和mice,后者仅匹配mouse。
无论是否有连字符,使用精确匹配检索(使用半角双引号或者打开检索界面中的“Exact Search”),或者单词中包含了通配符,系统不启用词形还原或词干提取的功能。
🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸
总结
使用连字符(-)构建检索式pseudo-color,利用系统自动执行的词形还原和词干提取功能,可实现:
① 词组检索——连字符(-)的作用,避免因使用精确检索屏蔽了其他变格形式的情形;
② 检索词由color增加到color及其变格形式,以及colour及其变格形式——Lemmatization功能,较使用截词符得到的结果更精准;
③ 将检索范围扩大到具有相同词干的单词——Stemming功能。
【附】
在Web of Science信息系统分别执行从A到F的7个检索式,检索结果(20210906)供参考。
扫描二维码👇,获得更多“挖矿”文章
作者、排版:林佳
审核:王媛
相关链接:
读书文化月 | 挖矿:查重系统如何选?查前你要仔细看(2021版)
读书文化月 | 挖矿•检索在Ka波段下,与三代半导体氮化镓应用相关的最新论文,利用Inspec检索效率提升90%
读书文化月|挖矿•清华大学师生在Springer Nature出版的英文专著推介(2)