当期荐读 2020年第3期 | 数字图书馆信息服务的融合与创新———基于2019 年JCDL 年会论文的综述(内含视频摘要)
ISSN 1003-2797
CN 42-1085/G2
双月刊
同行评审期刊
梁少博1 吴 丹1 ,2
(1 . 武汉大学信息管理学院,武汉 430072;
2. 武汉大学图书情报实验教学中心,武汉 430072)
目的/意义
本文通过对2019 年国际数字图书馆联合会议(Joint Conference on Digital Library, JCDL)的录用论文进行整体回顾,梳理了本届年会的最新研究成果与学科发展动态,以助国内图情领域学者更好地了解本届年会成果,把握国际数字图书馆领域研究的前沿热点问题。
研究设计/方法
采用文献综述的方法进行研究。
结论/发现
本届年会更加关注数字图书馆如何通过多源数据的融合、数字人文馆藏资源的利用等实现信息服务深度融合;数字图书馆如何通过海量大数据挖掘与利用、用户行为分析提升其服务水平;如何通过对学术文本资源深入挖掘,实现信息计量学在学术评审、学术评价等方面的创新应用。
创新/价值
本文揭示了国际数字图书馆领域的最新发展态势,展望了未来数字图书馆领域的学术前沿方向。
关键词
国际数字图书馆联合会议(JCDL) 数字图书馆 信息服务 数字人文 信息行为 信息推荐 学术评价
1 引言
由国际计算机协会(ACM)和电气电子工程师学会(IEEE)联合举办的国际数字图书馆联合会议(Joint Conference on Digital Library, JCDL) 是一个主要讨论数字图书馆及其相关的技术、实践和社会问题的国际学术会议。该会议作为数字图书馆领域最重要的国际学术会议,每年通过举办年会、分会等活动,吸引来自全球计算机科学、信息科学、图书情报等多个领域的研究学者参加,围绕数字图书馆相关技术、实践和社会相关研究问题,展开跨学科的交流与合作。近年来,该会议特别重视以机器学习、人工智能为代表的新一代信息技术等在数字图书馆领域的应用。历届JCDL年会收录的研究成果比较客观、全面地反映了国际数字图书馆领域的研究热点与发展方向,对国内图情学界的学术研究、理论与实践教学、图书馆实践业务的开展都具有重要的借鉴意义。
2019年6月,第十九届国际数字图书馆联合会议由美国伊利诺伊州大学厄巴纳-香槟分校信息科学学院主办。本文主要通过对本届年会相关论文进行内容分析与综述,重点讨论各国学者的最新研究进展,探究数字图书馆领域的发展态势,以帮助国内图情领域的学者全面了解本届年会及其最新的研究动态,把握当前国际数字图书馆领域研究的前沿热点问题。
2 年会论文收录概况
本届年会的主题是 “Curated Knowledge, Connected People, Extraordinary Results” ,共录取长论文26篇(录取率29.5%)、短论文16篇(录取率24.2%),以及52篇海报和8篇演示文稿。参加年会的学者来自与数字图书馆研究与实践相关的学科和专业,包括计算机科学、信息科学、档案科学、博物馆学、医学社会学等。
本届年会还举办了4场研讨会(Workshop)、5场培训会(Tutorial)、2场专题讨论会(Panel),以及1场博士生论坛,吸引了来自全球29个国家的研究学者、研究生,其中美国、中国和德国作者数量位居前三,参会人员来自计算机科学、信息科学、图书馆学、档案科学与实践、博物馆研究与实践、医学社会科学和人文科学等多个学科领域。
2.1 主题词分布
通过对本届年会所有收录文章的关键词进行词频统计分析,有助于从宏观层面了解本届年会重点关注的研究主题。从图1的结果可以发现,“digital library” “digital humanity” “digital curation” “information retrieval ” “social media” “scholar data” “log analysis” “linked data” “big data” “research data” 等成为本届年会较为关注的一些研究主题。
2.2 关键词共现关系
笔者还对收录文献的关键词进行了共现关系分析,通过不同文献关键词的共现关系,一定程度上能够反映出本届年会重点关注的学科领域与具体研究问题。从图2可以看出,围绕“digital library”“digital humanity”“crowd sourcing” “scholar data” “socialmedia”“peer review” 等关键词发生共现关系较多。
综合上述主题词词频分布、关键词共现关系与聚类分布,以及对本届年会收录文献的内容分析,笔者发现,本届年会重点关注了以下方面的研究内容:①数字图书馆如何通过多源数据的融合、数字人文馆藏资源的利用等实现信息服务深度融合;②数字图书馆如何通过海量大数据的挖掘与利用,以及用户行为分析来提升数字图书馆服务水平;③如何通过对学术文本资源的深入挖掘,实现信息计量学在学术评审、学术评价等方面的创新应用。
3 数字图书馆服务深度融合
3.1 基于关联数据的数字图书馆服务
当前,关联数据已经逐渐被视为一种轻量级的语义网实现技术,在数字图书馆领域得到广泛研究与应用。本届年会上,学者们就关联数据如何应用于学科服务、关联数据的实践应用现状等展开了探讨。McKenna等人[1]进行了一项调查,研究信息专业人员(如图书管理员、档案管理员、编目员等)在关联数据方面的现状。研究结果表明信息专业人员参与数据关联的过程是提升关联数据服务的关键性步骤,因此他们开发了一个专门面向图书馆领域、旨在促进信息人员参与数据关联过程的互联方法NAISC,这一方法主要包括了实体选取、实体互联、添加互联源头信息、发布与可视化四个流程;并通过NAISC方法的用户评价,发现其易用性和实用性有助于实现关联数据互联。
当研究人员对一个新的领域展开研究时,往往借助于由数字图书馆的学科专家手工构建的文献推荐列表来熟悉现有领域的文献,然而这项工作现在面临着学科文献激增与推荐列表滞后的情况。Figueira等人[2]研究了如何自动生成阅读推荐列表,作者通过对一个大型数据集的分析发现,读者对于这些文献推荐列表的需求大多是相互冲突的,在此基础上比较了25种不同的自动生成文献列表的方法,发现通过排序学习算法和聚类算法的结果要优于现有的方法。
此外,在数字人文领域中,关联数据也能够发挥一定的应用价值。例如,Ambavi等人提出了一个人物传记自动生成框架(BioGen)[3],来解决手工编纂人物传记时效性差的问题,该框架(BioGen)能够自动生成一个简短的传记句子集合,这些句子聚合了人物的多个生活事件,并通过用户评价发现,该框架自动生成的传记与维基百科中由用户人工撰写的传记有显著的相似性。
当前,数字图书馆已经投入大量精力来发布关联数据,并面向广大用户提供搜索服务,但由于关联数据的链接有限,这些数据集的利用价值还未充分得到开发。如何通过对关联数据相关问题的研究,如对视觉资源的多维度聚合提升数字图书馆移动视觉搜索服务[4],以及如何通过概念匹配等方法提高数字图书馆关联数据关联有效性[5]等,进而充分挖掘数字图书馆领域的数据价值成为未来一个重要的研究方向。
3.2 数字图书馆资源深度融合与服务创新
在本届年会上,学者们在数字图书馆资源融合这一领域从资源构建、资源组织、资源描述、资源识别等方面展开了研究。
当下,全球数字图书馆和数字档案馆的数量及其馆藏数量不断增长,这给构建语料库的工作带来了新的挑战。Hahn等人[6]提出了一种新的语料库构建工作流程,不需要重新构建语料库,通过搜索分散在互联网中的数字化内容片段,检查其数字化质量,选择质量最高的数字版本,最后将这些质量优异的数字化内容片段汇总成一个集成语料库,并通过对1785—1849年出版的德国浪漫主义文学作品大量不完整和重叠的片段进行组装,构建了一个完整的文学语料库。
数字图书馆的信息组织在资源融合方面也是一个重要问题,数字图书馆中的大量文档可以通过文本分类的方法进行分类。文本分类的结果很大程度取决于标记训练数据的质量,而手工注释文档的过程往往耗时耗力,Elekes等人[7]提出一个文本分类预处理的方法,即通过包含语义距离度量和特定任务术语分布的概率模型,对语义相似的术语进行聚类,从而能够有效地提升文档分类的准确性。在书目索引方面,Agata和Ueda[8]开发了数字化图书索引,主要包括了日本、美国和英国国家目录数据库中的书目,通过调查发现,这些国家的数字化书目总量不断上升,但不同国家数字化书目的分类体系各有不同,为了提高资源融合的水平,建立国际通用的数字化书目索引十分必要。Otani等人[9]则聚焦特色馆藏资源的信息组织,调研了日本漫画文化的相关书目信息,发现日本漫画和漫画作者的书目信息尚未被日本国家书目收录,而这是日本国家数字图书馆建设缺失的一个重要部分。
数字图书馆资源融合要解决的另一个问题是如何准确地描述资源,而互联网上的大量资源,存在着资源内容与元数据描述不相符的问题。Shipma等人[10]以互联网中手语视频为例,通过多模式手语检测和识别分类器的方法对视频内容进行采集,并研究如何提升文本元数据和视频特征结合的准确性,研究发现基于视频内容来对视频主题进行分类能够有效解决这一问题。Yu等人[11]则进一步研究了数字图书馆中异构数据的融合问题,将不同信息源的数据转换成统一的元数据格式,从异构数据中提取出科学实体和实体关系,实现了数据融合。
此外,数字图书馆资源融合过程中需要对大量的纸质资源进行数字化识别与集成。Jatowt等人[12]对纸质文献资源的识别错误进行了统计分析,维度包括编辑操作、长度效应、错误字符位置、实词与非词错误以及词边界,并依据分析结果提出了与编辑距离阈值、频繁编辑操作类型、错误字符位置等相关的改进建议,通过更高效的信息提取手段,深入挖掘资源的内容信息,并构建成数字资源,进而发挥其最大的利用价值。
当前我国的对数字图书馆资源融合的服务与创新方面的研究主要围绕图书馆发展的新形态,服务形式与内容的整合,信息资源的整合等方面展开,如数字图书馆在新媒体融合服务方面的发展路径[13],以及图书馆等公共文化机构在资源整合中的政策、资金、技术等问题[14]。结合本届年会论文特点来看,公共文化机构资源融合已经成为图情学界的一个研究热点,特别是如何对不同文化机构的多源、异构化的海量信息资源进行深度融合成为一个核心问题,这一问题的解决能够有效地推动图书馆、美术馆、博物馆等公共文化机构的服务创新。
3.3 数字人文馆藏资源构建与利用
近年来,融合了多个学科理论和技术方法的数字人文成为图情学科一个热门研究主题。在本届会议中,中国学者在数字人文方面的研究得到了全球学者的关注,并引发了热烈讨论。例如Liu等人[15]以百家思想流派的知识图创作为例,探讨知识图在数字人文学科知识组织中的应用价值和实现路径,提出了知识表示、知识提取、知识存储、语义搜索和知识可视化的知识图构建思路,这一思路能够应用到其他数字人文领域的研究中。Wu等人[16]对抗日战争期间的口述历史、期刊杂志、数字文献、会议文献等进行整理,初步建立了以口述史为基础的战时藏品保护本体论模型,这一研究对数字图书馆的特色馆藏资源分类体系的设计能够起到指导作用,并帮助历史研究者提供学术研究的新线索。还有学者以敦煌壁画为例[17],构建了数字人文图像语义信息单元的聚合和显示框架,并提出了相应的交互式图像表达方法。国外学者中,Nanni等人[18]通过对近100年的英国议会辩论记录进行语义注释,计算基于词向量的语义相似性,将关键概念进行举例集合,抽取出移民、社会安全、金融、北爱尔兰等重要的辩论议题,这一方法能够运用到大规模的历史会议文献、政策文献的分析中。
尽管数字馆藏在文化遗产领域的研究和实践已经得到了足够的重视,但当前对数字馆藏活动的实证和比较研究相对较少。Post等人[19]通过描述和比较12个文化遗产机构的数字馆藏工作流程,发现这些机构的规模、数字馆藏的性质、可利用资源以及数字馆藏活动的发展水平各不相同;作者认为提高对不同制度背景下的数字化馆藏工作流程的认识,以及对数字馆藏活动的社会、技术因素的深入调研,能够有助于促进数字馆藏软件、实践和技术方面的发展。
数字人文领域的学者还关注了如何对可读数字资源进行分析,特别是数字文献内容中的不同词性的文本如何分类处理;Lucic等人[20]发现基于平滑无监督聚类的并列词检测方法能够显著提高检测准确性,并提高文本后续处理的准确性、可读性。Fenlony[21]基于内容语境分析框架,对数字人文藏品资源进行定性内容分析,以描述其资源成分及其相互关系,并将资源成分和关系映射到研究模型中,探讨了该模型在数字人文研究方面的优势。此外,由于当前互联网上充斥海量的、质量参差不齐的信息,特别是用户生成内容网站上的大量文档,对其进行质量评估能够帮助用户更好的利用这些信息资源。Shen等人[22]发现语法性、可读性、专业知识深度等因素均会影响文档的质量,通过分析这些文档中的视觉要素等隐式质量指标(如图像、字体和视觉布局等),同时结合文本文字内容,能够更好地提升文档质量评估的效果。
综合以上来看,数字图书馆依托其特色馆藏资源展开数字人文研究成为一个学科发展的趋势,国内学者也开始关注图书馆在数字人文背景下的数据组织与重构服务[23],并通过多元化方法和数字化手段,如知识图谱[24]等,研究如何对人文历史资源展开研究。
3.4 数字图书馆开放数据的现状与挑战
开放数据是近年来图书情报科学、数据科学的一个重要议题,美国、欧洲等国家和地区在开放数据方面从立法、政策、制度等多方面提供了相应保障,以推动开放数据的利用。然而,Weber等人[25]对美国85个公共图书馆的开放数据实践工作的调查表明,仅有不到半数的图书馆发布了开放数据,并且图书馆的经费规模、人员规模与开放数据的程度并没有显著关系;已经发布了开放数据的公共图书馆中,发布最多的是地理空间类(地图)的数据信息,公共图书馆在开放数据方面的潜力远远没有得到发挥。Joo和Peter[26]研究了图书馆员对科学数据服务的态度,调查发现图书馆员认为相比计算机技术,与教育、咨询相关的知识和技能更为重要;同时开展大学其他研究机构与专职数据图书馆员的合作是提升科学数据服务的关键。
在数字图书馆开放数据政策方面,Herrmannova等人[27]对近五年公开出版的80多万篇论文进行了大规模分析,发现自英国提出“UKREF2021OA”政策后,研究人员公开研究成果的比例得到了明显提升。Gryk等人[28]强调了开放科学数据存储数据库建设的重要性,并提出了15条建设原则,如公平原则等,研究者认为在科学数据创建的初期,以及数据存储的过程中,都应遵守统一的建设原则,以保障公众的获取权利。
在数字图书馆开放数据管理方面,美国能源部实验室洛斯阿拉莫斯国家实验室在数字图书馆中开发了协作数据管理框架“Nucleus”[29],研究了数字图书馆中的科学数据管理问题。由图书馆员和档案管理员组成的研究团队,依托美国费城儿童医院,实施制定了一个生物医学研究数据档案和数据发现目录,采用档案评价法来评价存在数据管理和保存问题的大规模生物医学研究数据[30]。而针对当前档案项目级描述性元数据不能满足不同生物医学数据的复杂发现需求的问题,研究者正在寻求开发定制描述性元数据的模式。
开放数据也能够帮助研究人员更好地掌握学科发展的进程,有助于数字图书馆帮助研究人员发现正在进行阶段的学术研究,能够帮助研究人员确定潜在的学术合作伙伴,并避免重复研究,节约学术资源。以往研究人员掌握学科最新动态的主要途径是科技查新,然而这些工作的主要依据是已经发表的学术研究成果,数字图书馆在支持研究人员如何发现正在进行的和尚未发表的研究方面尚有欠缺。然而Breitinger等人[31]的研究发现,要使学术研究人员公开正在进行的研究还存在着较大的挑战,主要是学术信任度、及时性、规避学术抄袭等,因此在设计未来的学术搜索推荐系统时,要充分考虑这些因素,从而推动学术研究和科研数据的合理公开。
综合以上内容来看,尽管当前不同国家和地区针对开放数据从立法、政策、制度、资金等多个方面开展实践活动,但开放数据的总体量还远远不够,开放数据的价值还没有得到充分挖掘。对于数字图书馆界来说,研究制定开放数据的资源描述标准,提升数字图书馆员的开放数据服务能力与意识,将成为未来一段时期内的研究重点。
4 数字图书馆用户信息行为与信息推荐
用户信息行为一直是图书情报学科研究的一个重要内容,本届年会上与数字图书馆用户信息行为相关的研究也十分丰富,学者们重点关注了数字图书馆用户信息交互行为模式、数字图书馆信息检索与推荐、众包任务平台上的用户行为影响因素等议题。
4.1 基于大规模日志的数字图书馆交互行为
当前,对搜索引擎日志的分析在交互式信息检索中已经十分普遍,这一方法能够有效地发现大规模用户群体行为特征。近年来,这一方法在数字图书馆领域也得到了广泛的应用。Barifah和Landoni[32]对数字图书馆大规模用户日志数据进行分析,识别出数字图书馆用户的的三种主要模式:搜寻、导航、检索。
数字文化遗产涵盖了大量的数字化图像、视频和文字,具有较高的历史价值与学术研究价值,但人们对这些数字文化遗产真正的关注点,以及如何搜索到用户真正感兴趣的内容,还未得到充分研究。Sumikawa等[33]对法国国家图书馆为期15个月的大规模日志数据展开分析,重点研究了查询中实体的类型以及与搜索查询关联的时间过滤器的方式,发现对搜索实体的检查可以反映出当下最常用的实体类型,由此可向用户推荐与这些实体相关的结果,从而提升搜索体验。此外,本届会议组织了名为“Creation of a DL by the Communities and for the Communities” 的研讨会,He等人[34]对ACM数字图书馆的大规模日志数据进行了挖掘,发现ACM数据库中除了计算机科学、信息科学、工程学等领域外,用户对医学、人工智能等主题的搜索呈现出上升的趋势。
在日志分析研究中,搜索会话一直是一个重要的研究视角,以往搜索会话的分类主要依据时间阈值,但这也导致了用户持续性的搜索任务被切分到不同搜索会话中,影响了用户信息行为的精准分析。Hienert和Kern[35]对数字图书馆用户信息搜索过程中长会话的主题进行了分析,提出了将用户搜索会话依据搜索主题进行分割的方法,并提出基于同义词库和分类系统的数字图书馆知识组织系统架构,实现对用户搜索任务和搜索动机的精准识别。
本届会议还对用户在数字图书馆界面的交互展开了研究。Mischo等人[36]对数字图书馆的用户界面风格类型对用户信息满足程度的影响展开研究,发现馆藏资源记录信息完整显示能够提升用户的点击率。以往的读者使用数据库往往是通过台式计算机,而移动互联网环境下,读者希望通过移动智能设备也可以顺畅地使用数字图书馆的服务,尽管移动设备受限于屏幕尺寸,但触屏实现了更为多样的触控交互体验。Buchanan和McKay[37]对数字图书馆浏览页面的触摸和滚动两种交互模式的研究发现,滚动式的交互模式会导致用户对信息的接受度较低,限制了数字图书馆信息呈现的效果。
从上述本届年会关于数字图书馆用户交互行为的研究内容来看,当前对数字图书馆用户行为的研究大多是通过大规模的用户行为日志数据展开。国内也有学者通过对OPAC数据的分析,对数字图书馆用户的搜寻路径[38]、检索方式[39]、后续点击[40]等行为展开研究,这些行为还主要关注在用户检索方面的行为特征。结合本届年会论文特点,未来针对数字图书馆用户研究,要更加关注如何通过日志行为数据的分析,在搜索结果推荐、交互界面设计等方面实现突破。
4.2 数字图书馆多元化信息推荐
本届年会主要围绕构建多元化的推荐系统、提升多元化信息推荐水平展开讨论。在学术研究的过程中,研究人员往往需要在互联网上搜索分布在不同网站、搜索引擎、数字图书馆、数据库上的网络信息,因此很多数字图书馆逐渐推出了综合性的聚合式搜索系统,帮助研究人员使用统一的检索通道检索信息,减轻文献检索的负担。当前的学术信息聚合式搜索系统大多是依托于数字图书馆,用户可以搜索研究数据集、出版物、调查问卷中的问题、调查工具和软件工具等,不同信息源的深度整合和链接提升了资源的可发现度。Hienert等人[41]搭建了一个社会科学信息综合系统,将不同信息整合和链接提高了数字图书馆检索系统的资源查全率,使研究人员更容易找到信息并加以利用。
也有学者关注了网络在线教学逐渐普及的背景下,人们对数学数字图书馆的利用需求。数学数字图书馆可以帮助检索数学文献,但如何搜索文献中的数学概念并非像使用通用搜索引擎,或普通数字图书馆一样便捷。Mansouri等人对[42]Parsijoo搜索引擎的大规模用户日志数据挖掘结果表明,用户在搜索数学相关概念的搜索任务中,搜索会话更长,且成功率较低。因此这一类搜索引擎需要提升专门处理数学符号的功能,并能够有效地实现查询优化和查询重构。
在提升数字图书馆多元化信息推荐水平方面,学者分别在算法优化、提升硬件等角度展开了讨论。传统的数字图书馆检索系统是基于关键词与目标文档的吻合度,但往往存在检全率不高的情况,Kyozuka等人[43]对这一方法进行了进一步完善,通过对用户的初始查询进行分析,删除掉一些关键词来扩展搜索范围,然后对每个查询式进行结果排序,从而帮助用户搜索到与其搜索需求相关的、但查询式中未包含相应关键词的数字资源。Park[44]从用户提交查询式的另一个角度展开了研究,针对用户未能输入合适关键词的搜索任务,提出了为用户推荐个性化搜索词的解决方案,从而帮助用户完成个性化搜索,特别是探寻式搜索任务。来自日本的学者[45]研究了如何将同一作者在不同学术数据库之间进行匹配、自动整合记录的方法,发现综合多个信息源的综合排名结果,比单一数据源的检索结果排名对读者更加有帮助。Wildemann和Holzmann[46]则提出了通过分级资源标识符集合来描述命名实体随时间的变化,解决资源查找时间相关性的问题,提升数字馆藏资源获取速率。Collins和Beel[47]在标准术语的推荐方法基础上,结合了文档嵌入和关键词短语,提升了数字图书馆信息推荐水平。提升数字馆藏资源获取速率,硬件提升也是一个解决途径,例如通过设计一种简单并可扩展的文件格式和易于并行运算的算法,将内存映射进行压缩,结合文件内部的二进制搜索方法,可以有效提升数字馆藏资源查找效率。同时,也有学者[48]提出通过建立一个缓存系统,利用机器学习模型预测馆藏资源档案存量,从而减少系统响应时间。
近年来,随着以深度学习、人工智能为代表的新一代信息技术的广泛应用,信息系统如何更好地为用户提供个性化的信息推荐结果,成为国内信息检索领域的一个热点话题。如夏立新等人提出智慧型数字图书馆的建设与服务中,要融合“资源”、“人”、“空间”三个核心要素[49],曾子明等人则提出了融合情境感知的数字图书馆个性化服务模型[50]。国内学者目前针对深度学习、人工智能等技术在数字图书馆领域的应用研究还处在理论探讨、模式探索阶段,尚未开展丰富的基于海量大数据的应用研究,针对数字图书馆用户的多元化推荐的研究尚显不足,这也是亟需加强的一个方面。
4.3 众包任务情境下的用户信息行为
数字图书馆界的研究学者还关注了众包平台上的用户信息行为,这是本届年会相比往届会议的一个新特点。Shen等人[51]针对众包平台在社会治理领域的前景进行了探讨,提出在发生社会紧急事件中,可以向工作发布紧急信息管理的众包任务,并通过移动社交媒体加强宣传效果,从而提升社会紧急事件信息的处理效率。Lee等人[52]从社会交换理论的角度研究智慧城市移动众包平台上的用户信息行为,发现用户的积极情绪和易用性对社会交换结构具有影响,而信息特征对生产性交换结构有影响。Han等人[53]则对数字人文众包任务中,自我效能感和熟悉度两个因素对众包任务参与者完成任务的影响展开研究,发现参与者对众包任务的熟悉度(如对背景知识、对众包平台熟悉度等)对任务的顺利完成有着显著影响。
5 信息计量学的创新应用
5.1 学术文本深度挖掘利用
本届年会的学者们重点从期刊投稿推荐、科学价值发现等角度,探讨了学术文本数据的深度挖掘和利用。现有的大部分期刊推荐系统通过从投稿文章的标题和摘要部分提取关键词,与特定领域词汇的加权匹配生成期刊投稿推荐结果。Ghosal等人[54]将文献正文及其资助信息等特征纳入推荐算法,实现了更有效的期刊投稿推荐结果。
近年来,学术文献的自动摘要成为文本挖掘和信息计量学的一个研究热点。有学者[55]提出,利用句子之间的相对位置,提取以搜索关键词为中心的同空间距离的句子集,能够帮助生成不同层次的文档摘要。Zhang等人[56]探究了如何利用深度学习的方法对研究论文的非结构化摘要进行自动识别,从而帮助读者快速掌握学术论文要点。研究发现深度学习的算法要优于SVM等机器学习算法的识别效果,这一发现对于解释研究论文中的科学发现也具有重要意义。
在学术文献的计量分析中,对重名等问题进行消歧,是一项重要的处理工作。有学者[57]提出了一种非参数贝叶斯框架,该框架采用了Dirichlet过程高斯混合模型作为姓名消歧的核心,并提出了序列重要性抽样方法,从而提升了对姓名消歧预测的精度。除了传统的著者合作关系、文献引证分析,也有学者[58]对论文的资助机构、研究资金来源等展开分析,例如对谷歌资助发表的论文研究发现,企业重点涉及的业务领域是决定其支持学术研究的最核心因素。
5.2 学术评审服务创新
本届年会上很多学者通过对学术论文信息挖掘,探讨了如何在学术期刊、会议投稿及评审环节实现服务创新。
当今随着学科融合和学术交流的进程逐渐加快,学术期刊、会议等接收的投稿量越来越多,而这其中有很大部分不符合期刊或会议的选稿主题,这给期刊编辑带来了大量冗杂的审稿工作。Ghosal等[59]研究了人工智能如何帮助期刊编辑或者学术会议委员会来识别投稿是否符合期刊与学术会议的选题,通过在实际数据集上运用多模态深度神经架构,发现这一方法能够帮助期刊编辑或者学术会议委员会对不符合主题的投稿进行标记。他们还进一步发现了基于监督机器学习的方法同样能够显著提高对投稿主题预先审核的效果[60]。Ghosal等人[61]还通过利用半监督学习算法,将投稿文献的主题贴合程度进行分组,实现了期刊、学术会议投稿的预审。这些方法能够有效地实现学术论文投稿的机器预审。
在对投稿学术论文进行主题符合程度识别的基础上,判断和识别学术论文是否剽窃,对教育研究机构、出版商和资助机构来说也十分重要,当前的学术抄袭检测系统能够有效地复制和适度改写文本的实例,但如何发现和识别通过阐述、翻译、非文本内容重复等“隐性抄袭”还存在挑战。以学术论文中的数学公式、算法表达内容等为例,Meuschke等人[62]将数学内容相似性评估、学术引文和文本识别相结合,引入了新的相似性度量,从而提升了识别工程科学和数学科学领域学术抄袭识别的准确度,这一方法是对传统基于文本的学术文献相似度检测的有力补充。
而具体到学术论文投稿的评审环节,不同的评审人的评审意见能够反映出对审阅稿件的情感偏向,而对评审人的情感偏向进行分析能够更好的帮助编辑做出最终的评审决定。因此,有学者[63]通过深度神经网络算法,将论文评审意见中的情感信息进行识别,并依据评审人的评论及其平均情感极性,预测最终的评阅分数与评审决定。这一研究成果能够有效地运用到未来的学术论文评审环节,对评审人的评论情感偏向进行预测,从而帮助期刊和学术会议做出更加科学的评审决定。
5.3 学术评价机制创新
在文献计量学中,引文数量、引文网络等一直是重点研究范畴。但对于被引文献在引证论文中发挥的作用,以及如何发生学术演变,尚未得到充分研究。Mohapatra等人[64]提出了一种新的引文分析数据结构——影响分散树(Influence Dispersion Tree,IDT),从理论和实证两个方面研究了IDT的结构特征,提出了用影响分散指数(Influence Dispersion Index)和规范化影响发散指数(Normalized Influence Divergence)两个指标来量化论文的影响。此外,有学者将计算机科学的会议举办地、会议作者等信息视为回归分析问题,并依据相应指标对学术会议进行打分,进而提出了质量评价模型,用于评估学术会议的影响力[65]。Pride等人[66]的研究介绍了其开发的学术引文分类平台,该平台鼓励作者在平台上对引文进行快速注释和分类,通过构建标注引文数据集来建立用户训练识别引文影响力的模型。
近年来,随着社交网络的兴起,学术研究成果在社交网络的传播效果也被纳入到学术评价体系中。以Facebook为例,Freeman等人[67]研究了社交网络用户通过不同的表情符号对社交网络中学术研究成果的评价,并依据点击结果评价了学术成果在社交网络的影响力。Shaikh和Alhoori[68]利用多个分类模型,通过社交媒体数据的特征来预测专利引文,这一成果能够应用到审查专利的实际应用性方面。Cong等人[69]则对学术研究成果在社交媒体宣传的文本挖掘分析,发现如果文章中出现较少的专业术语,会更加吸引普通读者阅读。
对于一般出版物的评价,Choi[70]以儿童书籍为例,对网络上儿童书籍的书评进行了主题挖掘,并利用主题建模的方法将书评分为11个类型,并进一步检测了11个类型书评的情感偏向,这一研究对理解网络书评,进而对儿童书籍展开评价具有重要意义。
综合以上本届年会论文的特点来看,当前针对学术文本的深入挖掘成为图书情报领域、计算机领域等共同研究的一个跨学科话题,自然语言处理技术、机器学习技术等也得到了广泛的应用。信息计量学一直是情报学研究的重要领域,本届年会中关于信息计量学领域的研究,突破了传统引文分析,在研究内容和维度上更加面向学术界的现实问题,特别是关注了基于文献数据的学术文本深度挖掘、学术评审实践创新、学术评价机制创新等,这也为未来信息计量学如何加强学术领域的实践应用提供了新的思路和发展方向。
6 结语
国际数字图书馆联合会议作为数字图书馆领域最具有影响力的学术会议,其每年的会议主题,以及收录的文章研究主题能够反映当下数字图书馆领域的研究热点与未来的研究趋势。综合本文对本届年会论文的分析来看,数字图书馆领域未来理论和实践的研究热点和前沿发展方向包括以下几点:
(1)数据的重要性在数字图书馆研究中将更加突出
结合本届年会论文的特点来看,关联数据、开放数据在数字图书馆业务工作中的重要作用将进一步凸显;同时,大规模的用户行为数据在识别用户信息行为模式、提升信息检索与推荐服务方面的研究维度将更加丰富,未来的研究要进一步突破传统行为研究的范式,关注以用户为核心的系统设计、功能完善与服务推荐。
(2)基于大数据的数字图书馆用户行为研究与推荐将成为学科研究的重要方向
当前基于大规模日志数据的挖掘已经得到了用户信息行为研究领域的重视,在数字图书馆领域的现有研究中,对大规模日志数据的挖掘角度较为单一。本届会议的最新研究成果为这一方面的研究提供了新的研究视野,未来通过日志数据充分挖掘用户行为模式,并从中得到对系统设计与交互界面设计等方面的启示,将成为一个研究热点。
(3)未来数字图书馆领域的研究将更加关注社会现实问题
结合本届年会论文的分析,数字图书馆领域未来能够在数字人文历史资源的挖掘和分析、医学数据的挖掘利用、残疾人等弱势群体的信息需求等方面发挥更具有建设性的重要作用,并且能够将研究成果服务于社会经济、农业建设等方面。
(4)资源融合与服务创新将成为数字图书馆届未来工作的重点内容
未来,数字图书馆领域的学者需要更加关注如何通过多源数据的融合、数字人文馆藏资源的利用等实现信息服务的深度融合;同时,还要关注对用户行为的分析,从而提升数字图书馆服务水平。
(5)以机器学习为代表的新一代信息技术将进一步与数字图书馆领域研究融合
2018年的国际数字图书馆联合会议曾举办了名为“Cyber infrastructure for Digital Libraries and Archives: Integrating Data Management, Analysis, and Publication”的研讨会[71],探讨了机器学习的相关工具、算法在数字图书馆、档案馆提升基于数据驱动的智能信息服务方面的作用。本届年会上,深度学习、人工智能、机器学习的技术手段和自然语言处理、文本挖掘的结合更为紧密。未来,这些信息技术将更加充分地运用在信息计量学、信息检索、信息推荐等领域。
参考文献
*本文原载于《图书情报知识》2020年第6期97-108页
版权归《图书情报知识》所有,欢迎转发到朋友圈,转载请联系后台。
制版编辑 | 姚志臻
END
当期荐读 2020年第3期 | 当计算机科学遇到信息科学 ———马里兰大学信息学院院长Keith Marzullo教授学术访谈
当期荐读 2020年第2期 | 科研人员流动中的性别差异研究(内含视频摘要)