专委会专家谈:面向数字中国战略的档案数据产教融合
The following article is from 档案那些事儿 Author 冯惠玲
1.点击标题下面的蓝字【伏羲云】
2.点击页面右上角“…”
3.点击“设为星标”
去年10月,由中国人民大学信息资源管理学院、宁波市档案局和宁波市档案馆联合主办的2023档案数据产教融合大会暨第十三届中国电子文件管理论坛在浙江宁波成功举办。今天为大家带来的是国家一级教授、中国人民大学原常务副校长冯惠玲在会上以《面向数字中国战略的档案数据产教融合》为题作的主旨报告,以下是冯惠玲教授的发言实录:
备注:2023中国文化计算大会期间,冯惠玲教授受聘成为中国公共关系协会文化大数据产业委员会专家组成员。
各位嘉宾好!
宁波是一座江海交融的大港之城,书藏古今,港通天下,它既承载着厚重如档案的历史底蕴,也散发着璀璨如数据的时代光辉。今天各路先锋闯将几百人共聚于此,共同探讨面向数字中国战略的档案数据产教融合的全新议题,这次会议在档案学术、档案事业以及数据管理方面,一定会留下具有时代价值的光彩一笔。我今天讲三个关键词,一是背景——数字中国,二是档案数据,三是产教融合,对“产教融合”我稍作解释:档案数据的管理需要档案领域政、产、管、学、研各个方面的协力参与,这个报告的“产”是从广义的社会生产概念出发,把从事档案业务及行政管理,档案数据相关企业等统称为“产业方”,把教学和研究机构统称为“教育方”,这样的产教融合就是一个涵盖各方的大协作圈。
首先讲它的背景,数字中国战略下的档案数据管理。从2000年习近平在福建工作时提出数字福建战略,到2023年2月中共中央国务院发出《数字中国建设整体布局规划》,展示了我国全面推进数字化转型的战略安排。这个规划指出,数字中国是数字时代推进中国式现代化的重要引擎,是构筑国家竞争新优势的有力支撑。习近平总书记在党的二十大报告中论述有关实施科教兴国战略,强化现代化人才支撑时,提出了推进产教融合的重要思想,为我国教育改革和发展提出了新的战略指向。
数字化正在成为中国经济社会发展的强劲动力,我国在全球数字竞争格局中的地位也逐渐提升,这里和大家分享两组数据,一个是根据国家网信办等机构发布的《数字中国发展报告(2022年)》,我国2022年的数字经济规模达到了50.2万亿,总量位于全球第二,同比名义增长10.3%,在国内生产总值中的占比提升至41.5%,这个数据体现了我国整个数字经济的发展势头。第二个是国际数据公司(IDC)的预测显示,到2025年,中国的数据产量将达到40.6ZB,占据全球数据量的27.8%。届时中国将成为全球最大的数据中心,这个预测描绘了我国在全球数据产量和数据处理能力方面的领先地位。
数字中国建设按照“2522”的整体框架进行布局,即夯实数字基础设施和数据资源体系“两大基础”,推进数字技术与经济、政治、文化、社会、生态文明建设“五位一体”深度融合,强化数字技术创新体系和数字安全屏障“两大能力”,优化数字化发展国内国际“两个环境”。
档案数据在数字中国战略“2522”整体框架中占据非常重要的地位,它是数据资源体系和数字基础设施的核心组成部分。在数字中国的战略大背景下,怎样挖掘档案数据和档案思想的潜在价值,可以称之为一项时代之问,具有重大时代意义。面对这个问题,一方面,我们需要更深刻的理解档案数据的价值,发掘它在经济社会发展当中的无限潜能,另外一方面,在数字中国建设的各个领域提高数字业务的科学化、规范化水平的过程中,档案思想、理念、制度和方法,将成为重要的具有广泛价值的基础性要素。这个问题由于时间关系今天无法展开,简单地说,就是数字中国的每个方面都需要档案方法,档案思想的加入与支持,非常值得我们展开和重视。
在数字中国战略实施当中,档案必须突破活动后端记录的定位,在档案数据管理的范围大幅扩展的同时,档案观念、档案思想、档案意识将渗透到所有的业务领域。“渗透”这个词将成为重要的实践,档案意识将成为与安全意识同等重要的普适性要素,档案素养也将成为数据人才必备的核心素质素养之一。当然另一方面数据素养也将成为档案工作者的必备条件。
下面我们来讨论第二个方面,档案数据的趋势和特点。趋势就是档案数据不断升温,特点主要从档案数据的“双重特性”和“双向融合”两个方面展开。
档案数据的升温可以从档案数据的生成、管理和研究三个方面来显示。在现实生活中,越来越多的社会活动记录以数据方式生成,越来越多的档案机构开始接收和探索数据形态的管理,如Druva和 DataArchiva就是两个具有相当规模的国际档案数据存档保管企业。近三年国家社科基金立项中以档案数据管理为主题的项目有23项,占全部档案项目的40%左右,一个主题占到全部项目的如此比例是很少见的。
在ICA阿布扎比国际档案大会上,法国前总统奥朗德在讲演中用相当篇幅强调保存气候变化档案数据的重要性。他说法国从19世纪末就开始保存这一类的档案数据,我想或许类似的档案数据管理还可以追溯到更久以前和更多事例。
档案数据是一个很复杂的概念,包括各种环境中生成的各种模态的具有档案属性的数据。档案数据的两重性是指它既有档案的属性,又有数据的属性。这样的双重属性使得档案数据既继承了档案的记录和保存功能,又赋予它强大的数据分析和处理能力,共同铸就了档案数据的特质和潜能。档案数据固有的双重性,要求我们在学术上、实践上打破原来的壁垒,在两个门类之间寻求和建立更深层次的融合和创新。
在大数据时代,我们看到档案越来越多的被赋予数据属性,或者说按照数据形式来管理,而数据则越来越蕴藏档案属性,或者说按照档案来管理。也就是说档案逐渐走向数据化,数据也逐渐走向档案化,这是档案界和数据界都必须正视的新趋势。
档案数据化
首先是我们在这几年一直在说的传统档案管理颗粒度的细化,我们称为档案数据化管理。同时也包括文件档案直接以数据模态形成,有学者说文件裂变为了数据。档案模态在历史上经历了三个发展阶段:纸质或者实体的档案,电子文件文本,和当前的数据态档案。如果以重大事件为例的话,二战时期的档案主要以纸质档案为主,911事件大部分是电子文件文本,而新冠疫情的档案记录则大量的是数据态档案。这两种情况都可以叫做档案数据化。
再看数据档案化。
数据管理呈现出了档案化变革,对于很多大数据的价值认知和管理方式都逐渐的呈现出了一种“档案主义”的趋势。除了很多机构开始对业务数据加以归档管理外,一些数据项目,例如著名的预印本平台arXiv、全球互联网档案馆Internet Archive,数字人文中的数据集(称为Archives),以及开源软件开发社区平台GitHub,都在借鉴档案管理的理念和方法。
因此我们得以揭示一个非常有趣,也非常有意义的趋势性发现,即档案的数据化和数据的档案化正在“双向奔赴”,共同开启更加广阔的档案数据新纪元。
我们也看到管理形式的一个重要的变化,就是逐渐向以机器为中心转移。模拟态的档案是人工管理的,后来有了计算机辅助管理。进入档案数据阶段之后,数据基本上要靠机器来识别、管理和提取,人对于数据的直接掌控力很低,必须借助于机器的管理能力。人工管理主要依靠档案工作者的经验和技能,有作坊特征,而档案数据管理则主要依赖于机器的算法和模型,依赖管理系统的功能,显示出很强的工程化管理特点。在这样的发展过程当中,我们也要始终把握人的主体性,在机器管理中加入必要的人工介入节点,避免档案专业人员的体外化和工具化。
面向机器的档案数据管理主要有三大挑战,即实施主动元数据管理,对底层技术与原理的关注,管理模式和理论的创新。其中第一条,引入“主动元数据管理”的方法与技术将更加智能和面向业务行动。以对档案保管期限开展主动元数据管理为例,可以实现自动响应环境变化的动态调整,如根据新的法律法规自动调整相关档案的保管期限,自动发送操作提醒或建议,同时具有上下文敏感,理解和适应不同的上下文,为不同的应用和场景提供合适的信息和支持等功能。鉴于时间关系其他两条就不再展开了。
必须重视面向机器的档案管理特性,从这里出发,对更多类型业务数据实施档案化管理,从而扩展传统档案概念和实务边界,这必将导致档案涵盖的“泛化”趋向,并根据价值区分形成不同层级数据档案化管理体系。只要接受数据档案化管理,就必须接受档案概念的扩展或曰“有限泛化”。
最后一部分我们讨论产教融合的路径和方法。
当前我们面临的主要挑战是怎样弥合学术界和档案数据产业界之间的差距或鸿沟。我这里借用“数据编织”概念,它用了一横一纵的两个维度。我把学术界比作“经度”,它致力于顶天的理论研究,包括基础理论和前瞻性研究,但是学术界在实践舞台上常常会有一些短板和困惑。我把产业界比作“纬度”,侧重于立地的实际探索,与社会需求最接近。他们逐渐扩展档案数据的管辖范围以及对数字中国的支撑点位,急需较为系统的理论指导和前瞻思维。
为此我们需要连接基础与应用,顶天与立地,探索理论经度与实践纬度的有机交融,协力推进档案数据管理进展和档案思想在数据管理活动中的广泛应用,并促使档案学界和数据产业界实现协同、进步。
从国内产教融合的经验看,主要有三种类型或功能:一是教书育人型,核心是提高人才培养质量。以教育部的产学合作协同育人项目为例,从2014年实施以来,已经有1700多家企业参与立项,立项数量达9.9万项,企业累计投入经费35.6亿元。2023年9月,教育部公布了第一批拟入围国家级产教联合体的28家名单。二是科技攻关型,主要聚焦于基础理论创新和解决重大技术问题,比如华为“难题揭榜”和腾讯犀牛鸟基金等都是这一类型的代表。三是社会服务型,主要满足国家重大战略需求和社会需要,教育部共建“一带一路”教育行动和“千校万企”协同创新伙伴行动,以及很多高校承担的档案横向项目都是这种类型。这三种类型各有特色,分别从三个维度推进了产教融合,推动了学术界和产业界的紧密合作和共同发展。近三年国家档案局的科技项目立项数据显示,校馆合作、校企合作项目从2021年的8项到2023年18项,具有明显的增长态势。
教育界在积极跟进,也积累了一些经验和工作基础。以中国人民大学信息资源管理学院为例,在人才培养方面,邀请20多位产业实践导师,把产教融合理念和产业需求融入人才培养全过程,在科技攻关和社会服务方面,与国家档案局、多地多类型档案馆、交通运输部科学研究院、敦煌研究院、上海鸿翼软件技术股份有限公司等建立了长期合作关系,这次会议期间又结交了很多新的合作伙伴。我们学院老师与阿里云计算公司合作开发的项目荣获“教育部产学协同育人项目优秀案例项目”的表彰,在产教融合方面取得了一些初步成效。
但是,总体上我国档案数据产教融合还处于相对浅层。理想状态是把星星点点的交集节点编织成一张越来越大、越来越密实的织物或屏障,这就需要经度和纬度逐渐拉长、加密、对接、靠拢,并相互渗透,共同应对档案数据管理的各种时代挑战。档案数据方面的产教融合应该成为超越传统边界的一种新共识,产业和教育科研需要在承担各自使命的同时,面向融合重新定位自己的“坐标”和“姿态”,共同探索和开创构建这一新生态、新路径。在这个过程中需要开展大量探索与创新,包括理论研究、工程实践、产业治理和人才培养。这些探索所创建的档案数据新生态是宽广而光明的,值得我们共同为之努力。
我把这样一个历史性探索归结成4句话作为我们共同的心愿,每句话都用了“共同”二字。即共同寻求档案数字化转型之“道”,发展中国自主的档案学知识体系;共同连通档案数据经纬之“网”,推动我国档案行业实现高质量发展;共同创建档案数据治理之“规”,切实贯彻《数字中国建设整体布局规划》;共同铸造档案数据平台之“基”,培育具有中国特色的档案产业新生态。
此次大会是一次再塑档案风貌的盛会,不仅以知促学,凝聚共识、共享前沿;以行赋能,扎根实践、汇集经验,更求知行合一、笃行不怠。此次论坛一方面不仅从数字时代的档案科技创新与数字世界中的档案联系引入,高位引领、多角度聚焦剖析;另一方面各界积力而举、集智而为,不仅求合求深,更多方共热。相信面向数字中国战略的档案数据创新与发展定能如木逢水,频展新枝,以此为续,再启新篇。
作者:冯惠玲,国家一级教授、中国人民大学原常务副校长。2023中国文化计算大会期间受聘成为中国公共关系协会文化大数据产业委员会专家组成员。
整理:2023档案数据产教融合大会暨第十三届中国电子文件管理论坛会务组
来源:“档案那些事儿”公众号
END
星标【伏羲云】,不错过每一篇精彩。
体验中华文化数字化成果,请下载伏羲云客户端👇