查看原文
其他

陈文新等 | 数字技术与人文:相得益彰抑或是相互阻碍?

数字技术与人文:相得益彰抑或是相互阻碍?


文献的载体由纸到硅的变化,宣告了数字化时代的到来。数字化文献具有的全文检索、计量统计、空间分析、可视化社会网络分析和数据关联等功能,催生了数字人文这一学科的出现。


随着计算机网络技术的快速迭代以及大数据、云计算、人工智能等数字技术的飞速发展和广泛渗透,数字人文越益显现出蓬勃的生命力和强大的社会影响力。但与此同时,也有学者对数字人文提出质疑。


2021春季孔学堂论辩大会即以“数字技术与人文:相得益彰抑或是相互阻碍”为题,展开了一场有关数字人文的论辩活动。


整场辩论由武汉大学文学院陈文新教授担任主持人,浙江大学人文学院徐永明教授,北京大学信息管理系教授暨数字人文研究中心主任王军教授,南京大学文学院苗怀明教授,中华书局古联公司总经理助理、《数字人文》学刊副主编朱翠萍老师,北京师范大学中文信息处理研究所硕士生导师胡韧奋老师参与辩论。辩论活动由光明日报、国际儒学联合会、孔学堂、光明网共同举办,光明网进行录制。



本篇文章是对各位老师在辩论中论及的重点问题及主要观点进行的总结。


1

有关数字人文的概念


有关数字人文的基本事实,陈文新教授强调了两个方面,一是:数字人文的基础是文献的数字化。数字化文献有一些纸本文献所不能有的特殊功能,比如全文检索、 计量统计、空间分析 ,尤其是它产生了很多的次生文本拓展了文本的空间,数字人文的影响力越来越大。二是:数字人文是相对于传统的人文学术研究而言的,传统的人文学术研究是由学者个人完成的,它有个性,有人文关怀。而数字人文,数字技术它是标准化的,是确定性的。


徐永明教授对数字人文的概念及发展历程、相关数字人文实践进行了梳理。数字人文目前有很多的说法,一是称其为前沿领域:数字人文是将数字技术运用于人文学科研究的交叉前沿领域;一是称其为学科:数字人文有时也被称为人文计算,它是针对计算与人文学科之间的交叉领域进行学习,研究发明以及创新的一门学科。


朱翠萍老师提到《数字人文》创刊时所提出的数字人文概念:“借助计算机技术和数据科学的方法和手段进行人文研究的一种学科和方法。”


王军教授结合北京大学数字人文中心的实践经验,从三个层面对数字人文的概念进行阐释。


第一个层面,数据库的广泛使用给人文学科的研究带来了变化。大量的图书资料,分门别类地被构造到数据库中,很多传统人文学者,都依赖数据库查询资料,大大提高了学者寻找资料、消化资料的效率。


第二个层面是工具层面,比如中华书局的工作,在资料数字化的基础之上,提供了很多工具,包括统计、分析的工具,大规模的平台,为人文学者提供了更多的证据。人文学者可以利用平台的统计结果,对它进行阐释,将工具和人的智力劳动紧密结合在一起。


第三个层面是方法层面,数字人文带来了新的方法,在大规模集成环境和便捷查询工具的支持之下,学者可以得到在百万甚至千万册图书查询结果。面对海量的结果,依靠传统的阅读无法驾驭,所以会产生网络分析、统计分析、可视化分析,甚至深度学习的方法来对其进行汇总。在新的方法跟工具的支撑下,人文的研究范式将会发生变化。一方面,传统的研究方法仍需加强;另一方面,新的工具的出现,也要求人文学者能够掌握新的方法。


2

有关数字人文的现状


徐永明教授总结到:总体来说,我国的数字人文发展处于一个日新月异,蓬勃发展的阶段。从论文来看,有关数字人文的论文增长趋势明显;另外标志性的发展是出现了数字人文的专刊,比如由清华大学和中华书局联合主办的《数字人文》以及人民大学《数字人文研究》;从国家社科基金来看,“唐宋诗词编年地图平台建设”“汉魏六朝文学编年地图平台建设”(中南民族大学王兆鹏教授主持),“基于大数据技术的古代文学经典文本分析与研究”(清华大学刘石教授主持),“明代文学智慧大数据及平台建设”(浙江大学徐永明教授主持)等多个古典文献相关重大项目的建立,体现出我国数字人文发展的进步。


朱翠萍老师指出,当前数字人文处于一种繁荣但不成熟的阶段。说其不成熟,主要体现在以下三个方面,一:数字人文研究局限于一线高校,比较小众,在文献学、历史学、考古图情领域比较领先,而在普通专业尤其是现当代文学领域还是凤毛麟角;二:学科体系尚未完全建立,每个领域都是结合自己的专题研究,使用数字化的方式发展,数字人文的普遍性规律还处在一种感性的阶段,缺乏总结;三:学术的评价体系不太明确,各方面专家都无法确定,数字的方式是不是解决了人文的问题,人文的问题是不是应该用这个数字的方法来展开。数字人文还不像自然科学那样,可以让相关专家采用研发者所采用的方法去验证结论。


王军教授认为,现在的数字人文处于初级阶段,当它真正影响人文研究方法、对学科产生影响、对人才培养产生影响的时候,才可以把它称为一个领域。数字人文才刚刚开始,它将深深触及人文学科的研究方法,人才培养,教育体系等等诸多层面,未来数字人文的变化,仍需观察。


3

有关数字人文的忧虑


苗怀明教授从自身实践经验出发,对数字人文的发展提出四点忧虑。


第一个问题:如何克服或是纠正在人文的数字化成果使用过程中出现的一些问题?比如硕博士的论文撰写过程,借助数字化成果搜集到大量资料,而这些资料被简单地复制、粘贴在论文中,但缺乏对文本及其相关的背景的了解,造成“剪刀加浆糊”的论文现状。


第二个问题,如何处理人文数字化的成果与必要基础学术训练之间的关系?人文学科,特别是文史哲专业,初学者必须经过一些严格系统的学术训练,才能达到学术研究所要求的素养和学术研究的能力。很多看似机械的劳动,如对古籍的分段、标点,编制目录索引等,对于初学者来说是必须的。但是现在很多年轻的学者,还未受到严格的学术训练,就已经使用了人文数字化的成果,这可能会带他们带来一些不好的影响。


第三个问题,人文数字化的成果运用,会不会使人丧失学术研究的乐趣及情怀?人文学科,特别是文史哲的研究的重要特点,是富有鲜明的个性,富有人文情怀,通过大量艰苦的劳动,研究者会获得发现的乐趣。如果人文数字化,从简单的归纳、统计、空间的的聚合,发展到高度的智能化的话,研究工作将由冷冰冰的搜索和智能化技术完成。对于研究者来讲,会不会失去通过研究获得的乐趣和情怀?  


第四个问题,如今数字化成果的应用比较普遍,数据库的种类越来越多,容量越来越大,我们获得的信息量也越来越大。但是,与此同时,我们得到了很多无效、冗余的信息,存在信息过剩的现象,如何解决这个问题?


对于数据库信息量过剩问题,朱老师从自身实践经验出发进行了回答。信息检索的有效性不仅仅取决于技术,而是一个多种因素共同作用的结果,比如检索者是否选用了恰当的关键词进行检索?数据库设计是否对检索条件进行定义的、可扩展的检索设计?是否具有高级检索的功能?数据库建设中,处理的数据是否足够细致?


良好的数据加工组织是有效信息提取和利用的前提。只有基于比较精确的元数据进行检索,精确度才是符合要求的。元数据标引的精确度,也制约着后续的语义知识网络构建、知识挖掘的深度。


目前用户行为发掘分析的技术已经非常先进,比如知识分类、命名实体识别、知识摘要的智能生成技术,信息抽取技术在现代的文本分析方面,或者商务推送方面做得很好,在古籍文献领域应用的不到位。个人的专题数据库只做背后模型分析与探讨,很少关注到前台用户行为,这也是关系到检索准确性的一个因素。


准确和不准确,是一个相对的概念,判断数据引擎是否理想,要看出于何种研究目的。90%的结果摆在面前,但是作为研究者来说,可能要看10%的不被别人关注的信息中,提取到更多的有价值的研究课题。有时候,检索结果的“不准确”恰恰是对学者研究的一种补充。


4

有关数字人文的建设与发展

数字技术推动了人文的发展


朱翠萍老师从中华书局古联公司数字人文的实践出发,对本次辩题进行回应。总体来说,数字人文作为一种工具,起到了很大的作用。


与高校、研究所及科研机构等开展前沿的学理性的探索不太同,中华书局古联公司作为数字出版企业,是数字人文成果的收集者和发布者,所采用的技术必须具有普适性,能够很好地处理绝大部分数据。


古联公司比较重视落实与应用,也随时为数字人文的成果做好准备,为数字人文成果落地,提供一个出口,所以非常注重数字方法在工作流程上的优化与突破。为此,古联打造了一个集资源、技术、人才为一体的一个综合性门户平台——“籍合网”。


籍合网:http://www.ancientbooks.cn/


籍合网后台的大数据中心快速地给相应的项目推送数据,并且可以回收、存储数据;籍合网的前台有各种类型的主题库,能够满足跨库检索,而且籍合网也关联了各种技术工具,包括自动标点、繁简转换、OCR工具、引文核查等等。因为它集成在一个平台,大大提升了数据的处理速度和便捷度。


另外“籍合网”还支持在线协同整理众包编辑数据,跨时空聚合人才,在线即时发布前期在线整理的资源库、专题库以及工具库。不久籍合网还要接入一个古籍整理的培训平台——籍合学院,专门来培养数字化古籍整理人才。


通过"籍合网",可以实现资源与资源,资源与技术,资源与人才,技术与人才,人才与人才之间全方位的贯通,解决资料和技术工具的离散性问题,解决跨时空性问题,可以让我们随时随地访问“籍合网”的数据及在线工具,随时随地产出数据、发布数据。古联公司利用籍合网一方面在践行数字人文技术,也是数字人文技术的真正受益者。


信息技术作为一种研究工具,本身是为了研究而服务的,研究目的决定了工具的选择。整体来说,通过数字的方式,在展示人文学术成果方面呈现出数据的严谨性、结论的科学性,呈现方式的生动性和知识的关联性,数字技术推动了人文的发展。


人才培养决定未来数字人文的发展


胡韧奋老师引入哈佛大学包弼德老师对人文学科的研究链条(提出问题—— 寻找材料——分析——传播),对当前数字人文发展过程中存在的问题进行反思。同时,对数字人文的应用以及应用前景进行了分析和介绍。


胡老师指出,当前的数字化技术在“寻找材料”方面介入比较多,为我们提供了很大的便利。比如类似“籍合网”这种大规模的高质量数据的平台,方便研究者寻找材料。而在“提出问题、分析、传播”方面,介入不够充分,还有很大的潜力。


未来数字化技术可能不再是传统视角下的数据库,提供检索功能。可以是服务于数据,进行加工和分析;进而帮助研究者提出问题,发现和以往的研究存在争议的地方;数字技术下的研究成果如何传播,能否帮助人文学科的研究成果更好地去走向大众?以上几方面是未来数字技术发展需要用心思考和探索的方向。


面对数字技术运用过程中出现的“数据精度”问题,胡老师态度较为乐观,她相信数字技术将不断改进,另一方面,人工校对也会弥补机器加工的不足。而对于数字技术运用过程中可能产生的“错觉”,胡老师更为担忧。这种错觉表现在,一:数据材料比前人多,是否就是创新?二:借助相应技术进行数据统计、形成“漂亮的”可视化图表,研究是否是取得了进步?


然而,运用数字技术不一定真的可以提出一个很好的学术问题,或者解决了问题。


目前很多研究成果,可能还达不到大家对于新技术、新方法的预期,也就很难让传统的人文学科的研究者认可和接受数字人文研究方法。改变这种现状,需要我们在未来人文学科,甚至是社会科学的研究中,将数字技术和问题的提出及解决更紧密地融合在一起。


实现这个目标,比较核心的工作是人才培养。只有当研究者同时经受了很严格的传统学术训练,并且具备很好的信息素养的前提下,才能够在传统的人文研究的基础上插上翅膀,如虎添翼。交叉学科的研究生人才培养,决定了未来数字人文能够走到多高,走到多远。


数字人文与传统人文不是互相替代 


王军教授结合当前大数据的背景,将清代桐城派作家姚鼐提出的:义理、考据、辞章三位一体,拓展为“义理、考据、辞章、算法”四位一体,作为现代人文学者、学生所要具备的能力。具体来说,一要了解与专业有关的数字资源;二要学会使用相关的数字人文的工具,比如emendation、ftplist 等;三是要学会编程,比如python等,进行数据处理、文本挖掘。


谈及传统人文和数字人文的关系,王军教授提出该问题取决于当代人文学者和科技工作者如何合作,如何看待数字人文领域。他认为二者不是相互替代的关系,传统人文的研究在某些方面是计算机不能替代的。传统人文个性化的研究是有温度、有个人情感的;在计算机的支撑下,人文研究将更具科学性和客观性,互相补充。


数字人文技术给人文科学带来的负面影响确实存在,一方面需要技术工作人员提供更好、更全面的工具,减轻信息搜索负担;另一个方面,需要人文学者接纳研究技术的正反两个方面。只有人文学者非常清晰地了解数字技术可能带来的负面效应,才能在使用过程中进行纠偏。


数字人文应该有两个方面,一个方面是从数字到人文,把数字工具应用到人文学科的研究中;另一方面,容易被忽略的是从人文到数字,当前数字环境是科技化的环境,技术虽有很多缺陷但被快速地普及,学者需要把人文精神,传统的人文价值引入当前的数字环境下。


数字环境下的人文问题,需要传统人文学者,将目光从习惯的的史料、语料中转移出来,考察今天数字环境、数字材料以及数字方法中出现的新问题。顾及以上两个方面,传统人文学者和前沿信息科学技术的工作者携手合作,才能营造一个更好的数字人文的未来。


如何建设高质量、结构化的数据库仍需探索


苗怀明教授提出,从当前人文数字开发的研究成果来看,各数据库不仅良莠不齐,而且很多标准不统一、不兼容,数据库之间缺乏沟通和共享。数字人文研究成为新的学术增长点,但是很多学者对数字人文缺乏充分的了解,造成数据库的重复建设和浪费。数据库的开发、运营、维护,都需要大量的人力物力资金成本,需要专业的人做专业的事情;当前数字人文处于群雄并起的阶段,缺少国家层面的顶层设计,缺乏统一标准,数字人文成果缺乏必要的兼容和共享机制。


王军教授回应,数据库建设良莠不齐的问题,确实存在。人文领域的数据库往往是专题数据库,带有一定的个性化成分,数据库的规模和投入都无法和大规模的数据库建设相比。解决该问题,一方面,需要充分发挥各领域学会的作用,通过学会的力量来指导、监督、甚至反馈数据库的建设质量。另一方面,数据库建设做到为学科服务,将实用性、延续性作为考察数据库的重要指标来对待。


朱翠萍老师提到,由于很多人文学者缺少数据库建设经验,不会提炼相关功能需求,或是由于资金断链、人才不足等多种因素,造成数据库“烂尾”,中华书局古联公司正是基于此,希望能帮助更多人文学者建设专题数据库,更多地介入专题数据库建设和服务工作中。古联已经做了很多基础设施工程,欢迎各位专家学者到古联开设“专题便利店”。


徐永明教授回应,古籍数据库或者文史数据库无序的状态确实存在,数据库建设需要平台进行发布,仅靠社科基金项目经费难以来支撑数据库平台的建设和运营。现有的项目如果是结构化的数据,可以在现有的发布平台上进行发布,减少人力、财力浪费。


数字人文建设需提升至国家战略高度


苗怀明教授指出数字人文是一种必然的趋势,一个新的学科增长点,但是处于群雄并起的阶段,缺少国家层面的顶层设计,缺乏统一的标准,该问题需要引起政府的高度重视,做顶层设计,制定标准。数字人文影响包括我们整个民族,整个国家学术研究的问题。数字人文需要提升至国家文化战略的高度,作为和高铁、5G同样重要的文化基础建设,进行规划。


徐永明教授以国外优秀数据库建设为参考,反思我国数字人文发展方向。他指出,从古籍、文史研究的角度来说,当前有大量的研究成果需要进行结构化,比如工具书、辞典,地方志中的人名、职官、科举、物产等等。结构化处理后可以进行定位、统计以及空间分析等。


结构化数据需要学者们共同努力。西方已经利用大数据技术将我国古籍中的内容,变成智慧数据,我国文史学者更应该重视数字人文的实践。平台的建设、数据库的建设,关乎到文化战略、文化话语权的问题,数字人文需要提升至国家战略的高度来建设。


王军老师提出,当前数字人文工作是为未来的人文学者做铺垫的。文献承载着中华文明5000年的历史,从最早的石鼓文到金文、到帛,再到纸质媒体,从手写、抄本、刻本、印本到激光照印刷,载体是不断变化的。新一代20岁、30岁的人,是在一个完全数字化的环境下成长起来的。如果我们没有及时地把祖先留下来的文明遗产,转化为数字环境下可利用的文化资源,我们一方面就辜负了前人。


在全球互联网的环境下,各种文化处于竞争的态势,如果没有及时把我国的文化资源转化为互联网环境下可利用的资源,其他的文明体会把他的资料呈现在互联网上。新的用户会用最便捷的、最容易获取的资料,形成一种用已有的资源、用现成的资源的习惯。这个问题确实涉及到我们文化的命脉。


5

有关数字人文的终极目标


苗怀明教授提出思考,数字人文的终极目标是什么?它能不能替代人工的研究?现阶段代替一归纳、统计、检索等机械劳动。到中级阶段、最高阶段,它可以代替人工做什么?它对人的研究方式会带来哪些改变?


胡韧奋老师指出,人文研究毫无疑问是以人为中心的,在数字人文方向也不例外。她对数字人文的发展提出几点期待。在学术研究领域,数字技术可以帮助我们更好地获取数据,加工和分析数据。再往上一个层面,大规模的古籍数据库和文本挖掘技术相互配合下,希望给研究者提供新的研究视角,帮助研究者解决以往研究中存在的“聚讼”的疑难问题,甚至得出和以往研究不一致的结论。更进一步,期待数字人文能够帮助研究者发现问题。


除学术研究外,胡老师指出希望数字人文的成果不仅在学术界发挥作用,也可以去服务大众。


徐永明教授指出计算机能够增强人文学者的研究,并不能完全替代。智能OCR、智能古籍标点交给计算机处理,学者将有更多的时间来进行深入的、形而上的思考。从古籍角度来说,将古籍进行数字化,变成智慧化的数据,就可以减少读者阅读过程的障碍,通过后台的结构化的数据来支撑,把古籍做成精细的知识图谱。配合视频、音频的嵌入,图片的支持,让读者得到传统文献所不能及时得到的信息。


古籍智慧化大数据的平台,需要学者通力来合作建设。未来将对必要数据进行结构化,让更多读者读懂古籍,日后可能发展为人机交互,计算机通过智能的调动,回答使用者提出的问题。


王军教授认为关于数字人文终极目标的发问,对于数字人文的发展是极为关键的。在技术驱动下的社会里,人文学者的价值在于我们不是被动等待科技的发展把我们带到哪里,而是要用人文精神来引领技术的发展。不论人工智能技术达到什么样的程度,都应当服务一个终极目标——为人类的福祉服务,为社会中的每一个个体,以及全体社会的福祉服务,完全由技术驱动的科技发展,其结果可能是灾难性。


数字人文的价值在于让科技工作者和人文学者走在一起,数字人文并不等同于只是将数字技术应用到人文学科的研究中来,更重要的是让我们把人文精神、人文关怀引领到我们的科技环境中去,为科技发展指明方向。


(来源:古联数字)



延伸阅读



刘禾 | 机器中的维特根斯坦

包弼德 | 计算机科学、社会科学与人文学术

查清华 | 数字人文、人工智能与新文科建设

编辑:刘婷


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存