当期荐读 2020年第5期 | 数据信息新探索新实践
Photo by Dessy Dimcheva on Unsplash.
摘要
以数据科学为背景,透视图书情报视角下的数据信息领域新问题,包括面向政府决策服务的数据能力培养、信息流行病与健康信息学、基于Altmetrics的网络科学论文扩散追踪、向知识迈进的用户画像、社交媒体信息归档等,反映数据信息研究领域的新发展和新动向。
关键词
数据能力 政府决策服务 信息流行病
健康信息学 科学论文扩散 Altmetrics
用户画像 社交媒体 信息归档
本文包含5篇单篇文章
面向政府决策服务的数据能力培养
信息流行病学与健康信息学
基于Altmetrics追踪网络环境中科学论文的扩散
用户画像:向知识迈进
社交媒体信息归档:逻辑、技术与实施路径
面向政府决策服务的数据能力培养
黄如花 石乐怡
(武汉大学信息管理学院,武汉,430072)
国家主席习近平已就数据与信息在国家治理与决策中的重要作用做过多次指示:“信息是国家治理的重要依据”“运用大数据提升国家治理现代化水平”“要鼓励运用大数据、人工智能、云计算等数字技术,在疫情监测分析、病毒溯源、防控救治、资源调配等方面更好发挥支撑作用”[1-3]。
利用数据与信息辅助决策是图书馆的重要职能与核心竞争力。《中华人民共和国公共图书馆法》[4]指出服务国家立法和决策是国家图书馆的重要职能之一;《“十三五”时期全国公共图书馆事业发展规划》强调公共图书馆要为政府科学决策提供咨询服务[5]。经济合作与发展组织(OECD)认为,以政府为主的公共部门要做出数据驱动的决策、提升社会服务工作的效益与价值,就需要与“数据专家”(DataSpecialists)密切合作[6],图书馆及其专业人才能够胜任数据专家的工作。国际图书馆协会联合会(IFLA)在《所有人的渠道和机遇:图书馆如何促进联合国2030年议程》[7]中指出图书馆为政府决策人员提供可持续发展的实时信息,助力政府实现可持续发展目标。2018年,IFLA在《图书馆与良好的治理》[8]中声明“信息是良好治理的核心”“图书馆能够基于信息和数据为政策制定、电子政务、政府问责、开放政府等相关领域提供决策支撑”。
为提升图书馆服务于政府决策的能力,迫切需要培养图书情报人员的数据能力。限于篇幅,本文暂且围绕采集多源数据、遴选优质数据、分析与利用数据这三类图书情报人员必须掌握的数据能力展开论述。纵观数据采集、加工、组织、分析、利用、保存的整个数据生命周期,面向政府决策服务的数据能力培养还有更多值得拓展和深入的内容。
1
采集多源数据的能力
大数据资源的决策支持功能可以帮助治理主体及时了解国内外局势、公众需求、政策效果反馈信息以及存在的问题[9]。只有依赖于可靠来源的经济、科技、教育、文化、贸易、民生、交通等各领域的数据,精准采集反映社会动向的实时数据,才能避免信息不全导致的决策失误。
要能够采集直击社会热点问题的经济与社会发展数据。可以从130个各级政府数据开放平台[10]采集经济与社会发展的地方数据,比如地区行业发展、辖区人口分布等;从国家统计局网站、中国政府网的数据专栏、“皮书数据库:中国与世界经济社会发展数据库”等平台采集国家数据,比如宏观经济运行情况、工业农业普查公告等;还要从联合国UNdata、联合国教科文组织UIS.Stat、经济合作与发展组织OECDdata、欧盟EUOpenDataPortal等平台上获取人口、教育、经济、地理、交通等主题的数据,以把握国际经济与社会发展形势。
要能够采集权威的党政、时政数据与信息,以促进对党政机关部署规划、国际政党主流观点、国内外时政热点话题等内容的理解。“人民数据”“学习路上——习近平总书记系列重要讲话大型网络数据库”“‘一带一路’研究与决策支持平台”等都是极具代表性的党政、时政信息平台。“人民数据”也能够提供国外的党政、时政数据与信息,但是还应当注重扩大数据来源,从国际知名媒体,比如纽约时报、华盛顿邮报、路透社等获取国外的党政、时政数据与信息。
各类社情民意数据也是采集的重点,网络舆情数据、线下投诉信息、市民热线、市民信箱等对政府了解社情民意、改善服务、制订决策、规划部署起着重要作用。美国国务院公共事务局专设一个负责监控社交媒体上那些可能影响国家利益的事件、动态及网民反应的小组,以及时调整工作方向[11];北京市政府部门分析市民热线电话数据,在归类处理的基础上提出跨属地和跨部门的综合治理方向[12];上海市政府开发“上海消费维权大数据智能管理平台”,通过采集和分析维权数据辅助工商部门的管理决策[13]。来自新浪微博、微信、贴吧、Facebook、LinkedIn等社交媒体的数据采集难度大,要注重借助采集工具和技术,比如新浪舆情通、百度舆情、众云大数据平台;华盛顿大学iSchool在Coursera开设的借助API采集Twitter、Youtube数据的相关课程也可供参考[14]。
要具备采集代表性和权威性强、反映国内外科技进展的学界热点的科学数据的能力。科学数据对经济发展、政府决策、科技创新、科学研究都具有重要意义[15],教育、科技方面的决策更是需要科学数据的支撑。数据来源包括但不应局限于机构层面的科学数据,国家层面的获取渠道可参考收录权威科学数据的美国NTIS及四大报告[16]、中国科学院现有的11个国家科学数据中心[17]、国家科技报告服务系统、中国国家调查数据库等;国际上的科学数据平台可参考EUDAT、OpenAIRE、Figshare、ICPSR等。
2
遴选优质数据的能力
光明日报评论强调,数据真实准确是科学决策的前提[18]。数据不真实、不准确、不及时很可能影响政府决策的质量,甚至导致决策失误,带来严重不良影响。因此,图书情报人员必须要掌握为政府决策遴选优质数据的能力,数据准确、真实、及时是基础,数据符合政府决策需求是关键。
要能够从权威渠道获取数据与信息。海量的数据与信息良莠不齐,来自权威渠道的数据与信息质量相对较高,能够有效降低遴选难度。除了上述提及的各级政府网站、国际组织和地区组织数据平台、权威党政时政信息平台、可靠媒体平台等,专家访谈、专业著述与期刊、权威机构报道等也是获取真实有效数据的重要渠道。以国外党政、时政数据与信息为例,美国知名媒体监督组织AdFontesMedia的最新媒体偏见与可靠性评级结果显示,卫报、路透社、美国国家电台等媒体评分最高[19],可以从这些国外媒体获取相对可靠的国际时政数据。
要能够遴选符合需求的有用数据。英国数字保存联盟(DPC)指出,不仅要保存数据,还要保存数据的意义、可读性、与上下文的关联,即强调了所保存数据要具有可用性和有用性[20]。政府的常规决策主要需要民生保障服务相关领域的数据,应急决策主要需要突发事件实时监控等数据,战略决策则需要国家、地区或领域各层级的数据,以全面分析、充分权衡和科学预判战略决策的现实基础、风险利弊和发展趋势[21]。因此要能够根据政府部门的具体需求,制订个性化的数据方案,有所侧重地遴选数据,实现数据价值的最大化。另外,政府的决策工作往往涉及多个领域,因此在评价和选择的过程中,要多方求教、审慎查证、吸纳专业建议。以此次新冠肺炎为例,各级行政部门在进行疫情防控的相关决策时,会征询、听取医学专家和众多学界专家的建议,这也是此次抗“疫”战斗取得胜利的重要原因。可见,还要培养图书情报人员主动求知、敢于发问的意识,做到多维度、多视角、多渠道遴选优质数据、提取有效信息。
3
分析与利用数据的能力
只有在数据的数量和种类足够多的情况下,才能实现更全面和深入的挖掘与分析,以揭示事物之间的关联和规律,提升数据对决策工作的实际效用。
基于多种数据的分析能够有效提升预测准确率,提升实际工作的效率。当前国内多家政府机构签约采用的UrbanAir系统充分体现了多源数据融合的特点,除了采集最为相关的空气质量数据,还采集了气象数据、交通流量数据、厂矿数据、城市路网结构等不同领域的数据,大大提升了雾霾指数的预测准确率[22];美国圣克鲁斯警察局通过综合分析当地的犯罪时间与地点记录、ATM机位置、公共汽车路线、当地天气以及社交媒体数据,总结管辖区域内的犯罪模式,进而预测重点区域的犯罪几率以加强治安管理,大大降低了当地犯罪率[23,24]。
基于多种数据的分析能够形成有力的数据支撑,有助于制订个性化和更精准的工作策略。杭州市政府使用阿里云开发的“杭州城市数据大脑”采集数以百亿计的城市交通管理数据、公共服务数据、运营商数据、互联网数据,通过视频识别算法等分析技术,帮助政府部门制订更合理的交通方案[25]。此次新冠疫情防控工作中,各级政府部门结合出行轨迹流动信息、社交信息、消费数据、暴露接触史等多种数据,推算相应的疾病传播路径,为传染病溯源分析提供理论依据[26]。温州市政府通过组织、整合、挖掘人员流动、病例分布、疫区情况、治疗情况、区域风险等海量数据,辅以可视化技术,制作防控作战地图系统,有效辅助职能部门及时地调整防控策略[27]。
可见,在数据渗透到各行各业的背景下,分析并利用数据做出高效决策的能力是面向政府决策服务的数据能力培养的重中之重。因此,要加强图书情报人才通过数据分析以提升决策效率的能力。加州大学伯克利分校iSchool[28]、伊利诺伊大学厄巴纳-香槟分校iSchool[29]开设的相关课程不仅要求学生掌握数据可视化技术,还要具备决策思维,能够结合数据可视化图像总结并准确表达分析结果、为做出明确决策提供详细依据。一些有条件的平台,还通过实习实训的机会,培养政府决策服务的潜在人才,华盛顿大学iSchool在美国博物馆和图书馆服务署(IMLS)的资助下开展“开放数据素养项目”(Open Data Literacy Project)[30],引导学生与华盛顿交通局工作人员共同进行决策研究,为部门工作事务的开展提出建议[31]。
日新月异的大数据时代,对图书情报人员的数据处理与分析的要求越来越高。图书情报界应当积极利用开放教育资源,不断提升核心竞争力。IBM在Coursera上开设的“使用Python进行数据分析”课程,有利于培养政府决策服务人员的数据统计、建模、可视化与趋势预测等多项能力[32]。笔者长期从事数据素养教育相关研究与实践[33],旨在助力图书情报人员提升数据分析技能[34]。为政府决策服务培养高质量图书情报人才是长远大计,还需要学界与业界的同行携手,让图书情报学科和人才为我国国家治理和发展贡献更多力量。
参考文献
信息流行病学与健康信息学
周晓英 裴俊良
(中国人民大学信息资源管理学院,北京,100872)
2019—2020年伴随着新冠肺炎疫情的传播,出现了与新冠肺炎相关的信息疫情的传播。被称为“信息流行病”的信息疫情带来了很多值得我们深思的社会问题和信息问题,由此凸显了关注“信息流行病”的信息流行病学的重要性。本文对信息流行病和信息流行病学以及健康信息学进行介绍,并对信息流行病学与健康信息学的关联进行分析。
1 信息流行病和信息流行病学
//1.1 信息流行病
全媒体时代在线信息获取越来越受到依赖,而在线信息中虚假、错误、有害信息的比例上升,不良信息充斥所带来的严重后果对疫情防控、社会稳定、经济发展等方面产生负面影响,导致信息流行病的兴起和传播。
信息流行病也称为“信息疫情”,是伴随着2019—2020年新冠肺炎疫情传播并普遍受到关注的一个社会现象或信息现象,它不是传统意义上的流行病,但类似流行病一样传播;它本身不是直接影响到人的身体状况的疾病,但是影响到人的心理状况或者影响到人的行动状况,从而间接影响到人的身体状况的疾病。2020年世界卫生组织(WHO)给信息流行病下的定义是“信息流行病是指在流行病期间发生的信息过剩。准确及不准确的信息一同,以类似于流行病的方式,通过数字和物理信息系统在人群中传播,导致人们很难在需要时找到可信赖的资源和可靠的指导。”[1,2]
信息流行病现象早已有之,但学者们认为,2019—2020年新冠肺炎疫情信息却是首次通过社交媒体爆发性传播的“信息流行病”,并表现出了一些与以往信息流行病传播明显不同的特质[3]。新冠肺炎疫情期间的信息传播为我们研究全媒体环境下信息流行病提供了一个较好的分析样本,有助于以此为主要研究素材,开展信息流行病现象的分析和研究。新冠肺炎疫情作为全球性的重大公共卫生危机事件,引发了大量真假难辨的信息传播的“信息疫情”,为此WHO和各国学者提醒公众要注意防范。WHO专家和各国学者还以“信息流行病”来描述这种现象,倡导通过官方的行动和开展“信息流行病学”的研究,为今后可能出现的信息流行病防治提供理论、方法和工具的支持。
//1.2 信息流行病学
最早的信息流行病研究发表于1996年,与本次的信息流行病问题稍有不同,该研究对互联网上的营养资源进行评估[4],这类研究在当时并未获得关注。直到1997年,Impicciatore等在BMJ发表了一篇相关研究之后,信息流行病学研究才被人们所广泛认识。2002年,Gunther Eysenbach首次提出“信息流行病学(Infodemiology)”的概念,认为信息流行病学是有关健康信息和虚假信息决定因素和分布研究的新兴学科及方法,信息流行病学的研究领域是最佳证据(一些专家知道的)和实践(大多数人所做或相信的)之间存在知识转换差距的领域,此外,信息流行病学还对“高质量”信息的标记进行研究[5]。2009年,Eysenbach正式将信息流行病学定义为信息在电子媒介(尤其是互联网)或人群中的传播及其决定因素的科学,其最终目的是为公共卫生和公共政策提供信息[6],这一定义获得了广泛的认可。
2009年,Eysenbach提出了信息流行病学研究框架,将信息流行病学研究明确区分为基于需求的研究和基于供给的研究。基于需求的研究是指使用Web1.0工具对包括互联网搜索数据在内的人的信息行为数据进行的研究,例如使用GoogleTrends和搜索引擎查询进行的研究。基于供给的研究是指使用Web2.0工具对包括社交媒体内容在内的用户生成内容(UGC)进行的研究,例如使用Twitter、博客、Wiki和在线论坛的用户发布内容进行的研究。在意识到单独基于需求侧或单独基于供给侧的信息流行病学研究存在局限之后,有学者进行了基于需求与基于供给的混合研究,即同时使用Web1.0和Web2.0工具进行研究[7]。此外,还有学者不使用Web工具进行信息流行病学研究[8]。从研究内容上看,信息流行病学的应用研究占据主导地位,研究数量远超信息流行病学理论研究和方法论研究。利用互联网搜索数据和社交媒体数据,学者们进行了多方面的应用研究,例如应用于疾病预测、药物不良反应挖掘、搜索行为模式挖掘、公众参与和政府回应的识别、健康影响分析、处方滥用分析、信息质量评估等。
2 健康信息学
健康信息学是一门信息科学、计算机通讯科学、医学等多学科交叉的学科。美国国家医学图书馆提出的健康信息学的定义为:健康信息学是在医疗健康服务的提供、管理和规划中基于IT创新的设计、开发、采纳和应用方面的跨学科研究。该学科在医疗和健康领域利用资源、设备和方法来优化信息的获取、存储、检索和利用[9]。南弗洛里达大学健康在线对健康信息学的定义是:关于医疗健康信息的获取、存储、检索和利用的学科,目的是促进不同的医疗保健提供方更好协同合作[10]。
健康信息学的学科发展历史不长,学科发展过程中又由于对健康的认识和理解的发展变化、计算机通讯技术的发展变化、信息管理和利用手段的发展变化,学科的内涵和外延发生着变化。但健康信息学的核心,即优化信息的获取、存储、检索和利用,促进医疗保健提供方的协同合作,促进公众健康的宗旨是不变的。
3 信息流行病学与健康信息学的关联
//3.1 信息流行病学与健康信息学互为促进
健康信息学研究如何通过技术的手段帮助医疗健康专业人士或普通民众采集信息和利用信息,支持医疗健康专业人士用信息开展医疗健康相关活动,支持普通民众用信息维护自己的健康。健康信息学对信息的视角是可以作为决策支持素材的信息,对信息的处理重点在于使用信息技术按照信息使用者的需要进行加工(这也是信息管理学对信息的视角)和利用平台提供服务。而信息流行病传播情况下,社会需要的对信息的处理更加侧重于信息源头控制、信息质量保证和信息鉴别筛选。
在保证信息能够有效地服务受众、支持健康决策方面,信息流行病学研究的目标与健康信息学的研究目标是相一致的,因此它与健康信息学的研究内容有一定的交集。信息流行病可以作为健康信息学的研究对象之一,信息流行病学研究可以作为健康信息学的分支学科,也许可以成为健康信息学的一个新的发展领域。另一方面,反过来看,健康信息学的科学、循证的思路和方法是制止信息流行病传播的有效方法之一,正如希腊健康信息学专家JohnMantas教授所说,健康信息学通过收集和分析大数据,数据和信息的可视化,比较、计划和设计流行病学的决策制定等方面,为流行病学家、生物统计学家、公共卫生专家和决策者提供工具和方法,健康信息学的这些科学和循证的方法对于防治有害信息、错误信息、虚假信息的传播效果很好[11]。
//3.2 信息流行病学为健康信息学带来新的议题
信息流行病学从信息、人和技术等三个方面给健康信息学带来新的议题。
“信息”方面,信息流行病本质上是流行病期间发生的信息过剩,涉及到健康信息流的各个方面。为了科学、高效地应对信息流行病,需要对健康信息流的各个方面进行深入研究,包括:健康信息生产研究(例如:研究信息过剩的形成机制和影响因素、可信信息生产的路径与对策)、健康信息传播研究(例如:研究可信信息的传播机制、虚假有害信息的传播路径),健康信息评价研究(例如:研究健康信息的质量评价、虚假健康信息的识别)。
“人”方面,在健康信息的生产与传播过程中,人是接受信息的主体,也是利用信息的主体,人与信息的互动是健康信息学的重要议题,而信息流行病的兴起和传播需要我们进一步对人的健康信息需求、健康信息行为与态度、健康信息素养进行深入研究。
“技术”方面,围绕疫情产生了多种来源、各种类型、不同格式的数据和信息,如何利用信息技术整合这些数据和信息,如何利用信息技术分析这些数据和信息是信息流行病学对健康信息学提出的新的议题。
以上,笔者简要介绍了信息流行病和信息流行病学以及健康信息学,对信息流行病学与健康信息学的关联进行了分析,由于对新冠肺炎的研究以及对信息流行病学的研究尚处于初级阶段,本文的分析还属于探索性研究,有待于今后进一步完善。
参考文献
基于Altmetrics追踪网络环境中
科学论文的扩散
王贤文 曹仁猛
(大连理工大学科学学与科技管理研究所,大连,116024;大连理工大学WISE实验室,大连,116024)
随着互联网和社交媒体蓬勃发展,科学论文的网络扩散对于学术交流发挥了越来越重要的作用。应运而生的Altmetrics旨在对科学论文在网络中所产生的影响力进行测度,一经提出就得到广泛的关注,成为了图书情报学近年来的研究热点。与经典的文献计量指标(如引用指标)相比,Altmetrics概念及其衍生指标具有不同的内在属性,表现出不同的外在特征,因而具有不同的应用价值。首先,Altmetrics指标具有极强的时间发展特性。对于绝大多数论文的引用指标来说,今天和明天、这个月和下个月的被引次数大概率都差不多;但是对于论文的某些Altmetrics指标,其变化速度以分秒计。以Twitter为例,在论文发表的数小时内可能就会被转发成百上千次。其次,Altmetrics指标偏好最新的研究成果。新发表的论文往往能够在社交媒体中迅速获得大量的关注和访问,而后随着时间推移快速衰减。因此,被引次数指标适用于评价论文的长期学术影响力,而Altmetrics指标则适合对新发表论文进行迅速评价,并且部分解决了长久以来困扰科研评价领域的社会影响力评价的问题[1]。第三,不同于引用次数、期刊影响因子等经典的科学计量学指标有一个公认的概念和固定的概念范畴,Altmetrics的概念较为宽泛,几乎涵盖了所有不能纳入经典科学计量学范畴的新兴指标。第四,Altmetrics的不同细分指标之间存在较强的异质性。Altmetrics的数据来源多样,决定了基于不同数据来源的指标会存在差异,有些指标之间的差异甚至会非常明显。包括内在属性的差异,例如用户群体、功能价值等;以及外在特征的差异,例如对于同一篇论文来说,不同来源的Altmetrics数据具有不同的积累速度[2]。
网络时代应运而生的Altmetrics是对科学论文网络扩散情况的良好测度和评价指标。但是,对于学术论文在不同网络平台中扩散情况的时间特征,目前仍然缺少一个全面的比较分析。尤其是在研究指标的时间趋势时,没有现成的可回溯的数据集,需要对论文的指标数据进行一个长时间周期的跟踪和收集,会花费研究者较大的时间和精力。在最近的一项研究中,我们通过对论文自发表之日起每天追踪收集其Altmetrics指标,从而比较不同类型Altmetrics指标的覆盖率,考察指标的时间趋势特征。
1 科学论文的网络扩散渠道
随着互联网技术和论文开放获取运动的发展,科学论文的扩散也随之由线下转向网络,并且扩散渠道越来越丰富,由传统的大众媒体(如报纸、电视等新闻媒体)不断向网络媒介(如博客、论坛)以及新型的社交媒体扩展。这些不同渠道无法被经典的科学计量学概念涵盖,因此顺理成章地被整合进入Altmetrics的范畴,反映在Altmetrics系列指标之中。当前两大Altmetrics平台PlumX和altmetric.com都对科学论文在不同网络平台中的扩散数据进行收集和整合,通过这两个平台可以检索每篇论文的各项Altmetrics指标的实时数据,例如论文的Twitter转发次数、Facebook分享次数、主要新闻媒体报道次数等等。相比PlumX仅提供论文的各项Altmetrics细分指标情况,altmetric.com构建的Altmetric Attention Score(AAS)通过对不同数据来源的系列指标进行加权赋值计算一个综合得分,从而使得论文在网络环境中的扩散情况可以量化比较,这一优势得到学术界和出版商的青睐。AAS指标一经推出即被得到广泛的采纳,包括著名学术期刊Science、Nature系列期刊等都在论文页面展示即时的AAS得分情况。
我们通过收集论文在各种类型媒介的传播情况,对论文的网络扩散情况进行了分析。收集的Altmetrics指标包括AAS指标涵盖的新闻媒体(News)、博客媒体(Blogs)、社交媒体(Twitter、Facebook、Googleplus、Reddit),以及未在AAS中体现的文献管理和学术社交媒体平台(Mendeley)。研究结果显示,科学论文不同的网络扩散渠道的覆盖率存在明显差异,Twitter和Mendeley是科学论文在社交媒体上扩散的最主要渠道,远远超过其他Altmetrics指标所代表的的渠道。我们发现,Twitter和Mendeley的覆盖率均在98%以上,意味着几乎所有论文都在Twitter平台上被分享过,以及通过Mendeley平台被阅读收藏。Twitter作为大众社交媒体平台的典型代表,是大众和科研人员参与学术交流的重要渠道;而Mendeley作为学术社交媒体平台的代表,被科研人员广泛使用。这是这两个媒介在科学论文的网络扩散覆盖率如此之高的原因。其他诸如Facebook、新闻媒体、博客媒体等渠道,其覆盖率和扩散速度与Twitter、Mendeley相比有较大差距。当然,基于altmetric.com平台发现Facebook数据的覆盖率并不高,这与Facebook作为社交媒体主要平台之一的地位并不相符。这是因为altmetric.com平台中关于论文的Facebook分享的数据统计并不完整,从而造成Facebook数据覆盖率不高。事实上,我们以往的研究发现Facebook也是科学论文网络扩散的重要渠道[3]。
2 科学论文扩散渠道的时间特征
基于以往研究,我们已经认识到整体上Altmetrics指标与经典的引用指标在积累速度上有着很大差异。论文的引用高潮需要发表后2-3年才能到来,而Altmetrics指标具有很高的即时性与很快的积累速度。但是,是否所有的Altmetrics指标都存在同样的积累速度和时间特征呢?我们通过观察大量论文在一个较长时间窗口(500天)的积累速度发现,不同的网络扩散渠道呈现出不同的时间特征,这体现在Altmetrics各项指标的积累速度的明显差异上。Twitter以其迅速便捷、发文内容短、用户参与门槛低和源自社交媒体属性的高交互性等特点,从论文发表之时起就成为社交媒体网络扩散最重要的渠道,最先吸引了人们的兴趣和关注,但扩散增长的持续性不足,论文出版约1个月后增长趋缓,最后在论文发表2个月后基本稳定回归沉寂,是典型的“来去匆匆”型;而Mendeley指标前期增长速度远小于Twitter等指标,但是保持缓慢、稳定和持久的线性增长态势,是典型的“细水长流”型。而对于其他类型的扩散渠道,如新闻媒体、博客等,介乎于Twitter和Mendeley之间,既没有Twitter数据的那种突出的即时性,也缺乏Mendeley数据的持续稳定增长。因此,虽然整体上Altmetrics指标表现出比经典引用指标更快的积累速度,但是对于Altmetrics不同的细分指标来说,其积累速度也是存在差异的。整体上,公众参与度越高的媒介平台,即时性和急剧衰减特性越明显,例如Twitter转发次数、Facebook分享次数等指标。科研人员参与度越高的平台,其指标呈现持续增长的特点,例如Mendeley读者数指标。
3 结论
互联网在学术交流中发挥了越来越重要的作用,网络已成为学术论文的主要扩散平台。网络平台包括社交媒体渠道(Twitter、Facebook等)、新闻媒体、博客媒体和学术社交媒体Mendeley等,这些渠道已经被整合进Altmetrics的各种计量指标中,基于Altmetrics指标可以实现对科学论文在网络环境中的扩散情况进行实时追踪和评价。不同的网络扩散渠道的覆盖率存在差异。基于altmetric.com平台数据的研究结果显示,Twitter和Mendeley的覆盖率超过98%,远远超过其他指标。学术论文的网络扩散存在鲜明的时间特征,科学论文在网络上产生的关注热情集中出现在论文发表后的较短时间,具有较高的即时性和较快的增长速度。但是随着时间推移,关注度急剧衰减。公众参与度越高的媒介平台,即时性和急剧衰减特性越明显。科研人员参与度越高的平台,其指标呈现持续增长的特点。认识不同网络扩散渠道及其时间特征,有助于更好地促进科学论文的传播和科学知识的扩散,以及合理运用计量学指标为科研评价,尤其是学术成果的社会影响力评价方面,可提供定量证据的参考和支持。
参考文献
用户画像:向知识迈进
张海涛1,2 栾宇1 周红磊1
(1.吉林大学管理学院,长春,130022;
2.吉林大学信息资源研究中心,长春,130022)
“大数据”在当代开辟了一个高速增长的新市场,用户的信息数量呈指数级递增。无论是互联网企业,还是传统企业,都积累了海量的用户数据。然而,企业的数据管理、分析手段落后,无法挖掘用户数据背后的深层价值和实现面向用户需求的精准服务模式。用户画像的提出为解决这一难题带来了新的思路和方法,具有较高的理论与应用价值。
学术界对于用户画像概念与内涵的定义是一个持续演变的过程。用户画像概念最早由库珀[1]提出,他在产品设计实践中,将用户分为不同类型,并利用行为、心理、兴趣、性别和偏好等要素对其进行描述,形成真实用户的虚拟代表。这种用户画像被称作“UserPersona”,本质上是一种描述用户需求的方法,基于不同维度[2,3]将用户的属性特征抽象出来,设计能够代表真实用户典型需求的用户原型。UserPersona是一种定性研究方法,可以非常直观地将用户的核心诉求展现出来,辅助产品设计者深入理解用户需求与产品使用场景。
“大数据”时代的到来革新了产品设计与运营的理念。以信息技术为支撑,以用户数据为核心的数据驱动模式成为产品设计与运营的主流思想,在精准推送、个性化运营和体验优化等方面取得较大突破。此时,定性研究的用户画像已经不能满足实际需求。学术界、产业界开始在数据驱动的思想下,重新诠释了用户画像的概念与内涵[4-6],认为用户画像是从海量数据中抽象提炼出的用户信息标签集合,即以标签作为用户的特征标识,通过标签化的信息描述用户全貌。这种用户画像也被称为“User Profile”,能够在更多维度上收集、抽取用户数据,形成标签体系,描绘用户全貌,属于典型的数据驱动的定量研究。
User Persona与User Profile虽然是针对用户画像的两种不同的诠释,但其基本内涵是一致的[7],都是经过属性特征提炼后得出的具备显著特征的真实用户的虚拟代表。
笔者通过总结已有用户画像研究成果,对未来趋势进行展望,形成以下观点:
1 数据驱动的标签体系实现的是一种朴素的用户画像
在数据驱动思想下,用户画像以标签体系为载体,形成一套集数据采集、处理与分析于一体的解决方案,通过分析用户数据来分类和提取用户的属性特征标识,在工程实践中取得了丰富的成果。
标签作为用户的特征标识,由用户的属性数据和行为数据提炼而来。用户数据的价值并不局限于数据自身属性。用户的属性特征以及用户的行为序列之中都蕴含着大量高价值信息,往往呈现出强烈的关联性和时序性。但是,数据驱动的标签体系对于用户数据的研究聚焦于数据自身,只能静态化地表示用户的某一时刻下的截面信息,未能很好地挖掘用户数据中蕴含的关联知识,也忽略了用户行为时序逻辑的重要作用,在产品设计、经营与分析过程中很难描绘出用户的真实意愿。
此外,数据驱动的标签体系的局限性还表现在可解释性差、迭代成本高、信息融合难度大以及上层应用开发难度高等方面。因此,当前主流的数据驱动的标签体系只是用户画像的一种朴素实现。
2 知识与数据的双重驱动是用户画像的未来导向
虽然用户画像是基于用户的属性数据和行为数据构建的,但这不表示用户画像是一种数据模型。用户画像的本质是对用户行为知识的可视化和结构化的抽象,是一种知识模型。
目前,数据驱动的用户画像通过机器学习、深度学习等技术以及数学建模等方式聚焦真实世界的服务对象。这样的技术思路对数据规模要求较高。输入数据的数量越多、质量越好,模型预测的效果就越好。但是,在数据的滋养下,模型的结构会更加复杂,对于数据规模和质量的要求越发提高,导致模型的可解释性越来越低,为其实际应用带来挑战。可以说,用户画像技术因数据而兴起,却又陷入数据泥沼。
当前情况下,要想跨越数据获取的困境,基于知识驱动的用户画像研究成为可行方案。知识驱动型用户画像能够学习数据的语义特征,以符号的形式赋予用户画像推理预测的功能。基于知识与数据构建的用户画像提高了模型准确度及可解释性,甚至能够在非完全信息的场景下依托知识推理来弥补空白缺陷。知识与数据双驱动的实现模式已经成为信息科技迅速发展背景下的核心议题,包括用户画像技术在内的新兴研究领域都将实现从基于数据驱动到基于知识与数据双重驱动的模式转变。因此,未来的用户画像应该基于知识与数据双重驱动,不能过于依赖数据,消耗“大数据开发”的红利。
3 基于知识图谱的用户画像是突破局限的关键
2012年5月,谷歌在搜索引擎中添加了一个被称作“知识面板”(Knowledge Panel)的信息框。用户在检索信息时,搜索引擎不仅会返回给用户相关的网页链接,还会将检索主题的相关内容陈列在信息框中。当用户提问“溥仪的兄弟是谁”时,能够直接在信息框中得到“溥杰”这一答案。该功能显著增强了谷歌搜索引擎的检索效果,使得用户可以直接使用此功能提供的信息来解决查询问题,而不必再链接到网页中去翻阅、查找答案。这个信息框中的信息源于谷歌的一个知识库,谷歌从多种来源采集信息,并对信息进行知识抽取、知识融合和知识加工,最终得到该知识库,称其为“知识图谱”(knowledge graph)。目前,学术界和工业界用“知识图谱”来泛指类似谷歌知识图谱的各种知识库,如:Freebase、Wikidata、WordNet、CN-DBpedia等。
实际上,知识图谱是使用图结构化数据模型或拓扑结构来集成知识和数据的知识库。知识图谱以符号形式描述真实世界中的对象、事件或抽象概念,能够存储实体及其之间相互关联关系的信息[8]。知识图谱技术是知识与数据双重驱动下新一代用户画像的必然选择,具有如下应用优势:
(1)基于知识图谱的用户画像具有更好的可解释性
知识图谱作为符号主义学派的代表成果,以结构化的方式描述客观世界中概念、实体及其间的关系,在对于概念、属性和关系的理解与认知方面具有优势。基于知识图谱的用户画像能够从海量用户数据中提取出用户实体及其之间的各种语义关系,能够挖掘、解释用户数据中隐藏的重要知识。这种知识表征形式与人类思维天然吻合,能够更好地被理解。基于知识图谱的用户画像将用户数据表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解海量用户信息的能力[9]。同时,基于知识图谱的用户画像相比传统用户画像,具有更高的实体和概念覆盖率,以及更为丰富的语义关系,能够基于图挖掘技术实现标签的泛化。这不仅能够对传统的标签体系进行扩展,还能在知识图谱强大的认知能力推动下,做出精准的语义匹配,完善传统用户画像的标签体系(如图1所示)。
(2)基于知识图谱的用户画像能够降低更新迭代成本
知识图谱可以存储原生图数据库,扩展性强,能够降低用户画像的更新迭代成本。用户数据中蕴含着复杂的关联数据,传统的标签体系基于关系类型数据库使用结构化表单来表示用户画像,该标签体系在实践应用中较为繁琐,随着用户数据的持续增长,其访问性能将日趋下降,增大了标签体系更新迭代的难度。存储于原生图数据库的知识图谱采用非结构化的方法存储用户数据,使得用户画像在能够表达出数据关联性的同时,不需要预先定义表结构和严格的数据结构,克服了传统数据库模式更新迭代困难的短板。
(3)知识图谱具有知识融合和集成异构数据的能力
本体是一种形式化的、对于共享概念体系的明确而又详细的说明。本体用于指导人类在特定的领域范围内对真实世界存在的事物和领域内的术语及概念进行认知建模,定义知识图谱的模式层。本体模型是数据世界对现实世界的映射,同时也是一种数据的分类、建模方式[10]。知识图谱引入本体理论与方法,能够对异构数据进行统一建模,这意味着基于知识图谱的用户画像能够实现多领域用户画像的融合,在用户画像完善和跨领域推荐方面具有非常重要的意义。
(4)知识图谱的数据结构对机器友好
无论是RDF(资源描述框架),还是图数据,都能够较好地被机器理解。同时,图嵌入技术的发展为知识图谱与深度学习、图神经网络等其他信息技术架设了桥梁,使得基于知识图谱的用户画像能够与其他信息技术相结合,为基于用户画像的上层应用提供了无限可能。
4 用户画像在图情领域的未来发展
用户画像是图书情报领域近年来兴起的研究主题之一,近年来受到了学者们的重点关注。目前国内学者对于用户画像的研究主要局限于社会化问答社区、数字图书馆和舆情传播等方面,针对其他主题的研究相对较为薄弱[11]。从模型构建来看,用户画像主要研究了模型构建的过程、步骤、方法和手段等,但针对特定领域的用户画像模型并没有进行深入细分,这也是值得图情领域学者们思考的问题。因此,在未来的用户画像研究中,图情领域学者应该从研究主题和模型优化两个方向寻求突破,将研究问题聚焦在以下几个方面。
(1)拓宽用户画像的研究主题
用户画像的研究与应用刚刚兴起,尚未进入成熟阶段,研究的领域较为单一。图情领域学者需要突破思维局限,有机整合用户画像与图书情报理论和方法,从情报服务的角度出发,将用户画像技术嵌入到情报服务的应用场景中,拓宽研究主题,从图书馆、在线社区、电子商务和舆情管控等多领域挖掘、探索、解决更多的开放性问题。
(2)重视用户画像的行为细分
用户行为包括用户需求行为、用户检索行为、用户分享行为和用户浏览行为,依据用户行为的不同,用户画像的服务推荐也会有所差异。鉴于此,在用户行为研究中,应该对用户行为进行具体区分并根据行为的具体内容,实现用户画像的推荐服务。
(3)优化用户画像的预测模型
用户画像模型构建的前提条件是对用户数据信息的收集和挖掘。优化用户画像的预测模型首先要通过对诸多数据的分析,建立数据库丰富用户画像模型的构建维度,实现对用户的行为预测。其次,在数据信息的清洗和过滤方面,可以借鉴计算机领域知识和国外信息过滤系统的经验,建立用户画像与数据集之间的映射关系,建立统一的数据处理标准,对数据进行筛选、剔除,优化用户画像模型。最后,在优质数据的支撑下,在实际应用的需求牵引下,设计、选择合适的算法,通过研究不同主题领域下的用户行为特征,对用户画像模型进行优化,实现更深层的理解与预测。
参考文献
社交媒体信息归档:
逻辑、技术与实施路径
张卫东 左娜
(吉林大学管理学院,长春,130022)
网络信息从记录的基数广度到细颗粒的深度,为人类留存与构筑更加丰富生动的记忆提供了更多可能性[1]。在数字时代,社交媒体(SocialMedia)的应用已经广泛渗透到人们的生活与学习中,成为人类记录信息与保存记忆的重要形式,其作为网络信息的重要组成部分,同样是建构人类记忆不可或缺的重要数据来源,对其进行归档保存,对于拓展人类记忆空间具有重要意义。
1 社交媒体信息归档的逻辑起点
1.1 社交媒体的应用层次分析
社交媒体作为一种应用模式,逐渐超越个人创造信息的范畴,渗透到组织乃至社会信息管理的层面,深度并持续地拓展着人类信息共享空间(见表1)。①个人应用。个人用户越来越多地主动使用诸如内容共享站点、博客、社交网络和Wiki等社交媒体平台,创建、修改、共享和讨论网络信息内容,形成一种区别于传统被动接受网络信息的社交媒体现象[2]。社交媒体网络环境的密度、规范等性质影响着个人认知行为[3]。②组织应用。社交媒体已经通过多种不同的方式被组织越来越多地用作知识共享和交流的工具[4],正在极大地改变技术使用模式,以支持团队中的知识管理实践[5]。③社会应用。社交媒体使用增多已经挑战了传统的社会结构,使大量的人际交流从物理世界转移到了网络空间[6],通过用户关系网络形成在线社区,也为公民政治参与创造机会[7]。
1.2 社交媒体信息归档逻辑起点分析
早在20世纪80年代,档案学界就档案学研究的逻辑起点问题展开了一次广泛且长期的讨论,基于逻辑起点进行学科建构成为档案学学科研究演化路径的重要起始节点之一。作为档案研究的重要分支,社交媒体信息归档研究也应明晰逻辑起点问题。在个人、组织、社会应用社交媒体的过程中,随之形成量级的社交媒体信息,较为客观而全面地记录了事件发生的历史、经济、文化、网络环境等背景,具有档案的原始记录属性。这意味着社交媒体信息可在一定程度上作为延续人类记忆的一种形式[8]。从档案记忆的逻辑来看,社交媒体是个人用户发布信息的记载工具,也是用户集群信息互动的中转站[9],在社交媒体个人、组织与社会应用场景下可分别形成个体、集体和社会范畴下的档案记忆。因此,社交媒体应用逻辑与记忆建构逻辑的交汇点可作为社交媒体信息归档的逻辑起点(见图1),即X1、X2、X3,可描述为“归档对个人记忆、集体记忆与社会记忆建构有价值的个人、组织和社会性社交媒体应用信息”。其中个人记忆是集体记忆的有机组成部分,社会记忆又在个人记忆与集体记忆的基础上形成,且个人记忆、集体记忆与社会记忆可以共存。
2 社交媒体信息归档的技术路线
社交媒体在为个人记忆、集体记忆与社会记忆生成海量信息的同时,也囿于信息碎片化、复杂化等现实问题,而衍生或引入多种类型的信息归档技术及工具,这些技术也随着时代背景的变化而不断更迭与升级。社会记忆是一种集体现象与社会建构,个体记忆需从群体记忆中获得其意义的阐释框架[10],将抽象的记忆建构活动与具象的社交媒体信息归档全过程相结合,可较为清晰地透视出社交媒体信息归档的技术实现路线(见表2)。
通常来说,归档是一个过程性环节,但它并不是孤立的,涉及到多个业务阶段。社交媒体信息归档主要涉及到信息采集、信息鉴定、信息存储、信息组织与信息利用等环节,并由不同的技术体系相支撑。①信息采集。社交媒体信息作为一种原生数字信息资源,已经被部分图书馆、档案馆等记忆机构纳入馆藏收集范围,根据不同的信息收集条件、背景等,选用一种或多种技术完成信息采集工作,在持续的信息流中不断增进个人记忆、集体记忆与社会记忆的完整性。②信息鉴定。采集到的社交媒体信息是粗线条的,还未经过真实性与价值性的判断。若要发挥社交媒体信息的记忆建构作用,必须对其凭证价值进行鉴定与把控,筛选出哪些信息应被归档、可被归档。但由于社交媒体信息鉴定的因素过于复杂,只依靠鉴定工具与技术无法完成,还需以档案鉴定方法与原则为基础,依据一定的鉴定标准来达到实现记忆建构真实性的目的。③信息存储。社交媒体信息形成档案后,需要存储在记忆机构的数据库中。基于数据库、数据仓库等技术形成保存项目,如英国档案馆的社交媒体档案库等。在这一环节,区块链技术可在社交媒体信息档案与记忆的安全性问题上发挥重要作用。④信息组织。记忆机构并不应该简单的被定位为社交媒体信息的安全存储单位,还应对所拥有的海量真实信息进行深度挖掘、组织,以充分发挥信息价值。通常通过元数据、文本分析、统计分析、语义分析等技术组织社交媒体信息,为形成一个序化的、关联化的个人、集体与社会记忆分析系统奠定基础。⑤信息利用。具有示范性的社交媒体信息归档项目,除了拥有完整、真实、安全、有序的海量的社交媒体信息档案数据外,还应基于机器学习、人工智能、用户画像等技术构建一系列信息利用平台、软件或分析工具,以实现个人、集体与社会记忆的高效建构与利用。
3 社交媒体信息归档的实施路径
当从记忆的视角审视社交媒体时,将会发现其是一个多层次信息交叠的空间,且社交媒体信息归档与个体、集体、社会记忆的建构具有双向推动作用。社交媒体信息在归档的沉淀过程中,将会被赋予记忆的特性。在信息要素与记忆要素多重勾连的持续性进程中,社交媒体信息归档的认知形态也将发生改变。结合社交媒体信息归档的逻辑起点与技术路线,可梳理出一条认知层面的实施路径(见图2):基于记忆观,构建社交媒体信息归档与记忆体系融合的逻辑链条与理论框架,并面向归档环节建立规范性的技术路线。
记忆是一种形态,具有往复性、复杂性、持续性与累积性等特点。以记忆为主线推动社交媒体信息归档理论与实践发展,还需重点关注以下两个问题:①明确个人、组织与社会的社交媒体应用信息与个人、集体和社会记忆间的内在联系及外在表征。个人、集体与社会数字记忆在当前并未形成明确的理论范畴,记忆要素与信息要素的界限模糊,这使得在对社交媒体信息进行归档时,难以准确把握归档目标与对象。因此,需要建立一套规范化的政策、原则或理论框架,在顶层设计中明确记忆要素界限与归档内容体系。②明确信息技术触发或形成个人、集体与社会记忆的场域及标准。记忆理论边界的模糊导致相应的归档技术应用机制与策略方案难有标准可依。实践是触发、形成与传承记忆的最终场域,应从社交媒体信息归档项目与代表性记忆项目中总结信息技术归档应用经验,结合政策、理论框架,形成与编制相应的技术应用标准。
参考文献
*本文原载于《图书情报知识》2019年第6期68-76页
版权归《图书情报知识》所有,欢迎转发到朋友圈,转载请联系后台。
制版编辑 | 姚志臻
END
当期荐读 2020年第4期 | 公共文化云机构用户信息共享行为和意愿研究(内含视频摘要和评审意见)
当期荐读 2020年第4期 | 情感负荷视角下探索式搜索学习效果的影响因素(内含视频摘要和评审意见)