数字人文开放实验室

其他

2023年度“数字人文国际联合暑期工作坊”启动报名

为推动国际数字人文事业的发展,培养既具备人文问题意识又能运用计算思维的跨学科人才,北京大学数字人文研究中心、历史学系、人工智能研究院与哈佛大学费正清中国研究中心数字中国研究计划,以及普林斯顿大学东亚学系联合创办“数字人文暑期工作坊”。首届三校联合工作坊以“智能信息环境下的人文创新”为主题,将于2023年
2023年5月2日
其他

会议回顾 | “古籍智能信息处理”系列研讨会第十讲

2023年2月18日下午两点,由北京大学数字人文研究中心、北京大学人工智能研究院主办的“古籍智能信息处理”系列专题研讨会第十讲在腾讯会议如期举行。本次讲座由北京大学数字人文研究中心、中国古籍保护协会古籍智能开发与利用专委会主办,北京大学中国古文献研究中心、南京师范大学文学院联合主办,北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院承办,会议由北京大学王军老师和南京大学刘超老师主持。此次讲座主题为“数据驱动的文化史研究”,南京大学邱伟云老师、山东大学苗威老师、英国杜伦大学Donald
2023年2月22日
其他

"古籍智能"第十讲:数据驱动的文化史研究

Theme会议信息时间:2023年2月18日下午2:00-5:00腾讯会议号:759-309-446B站直播:https://live.bilibili.com/22241979主持人:王
2023年2月13日
其他

转载 | 浩如烟海的古籍如何装进方寸大小的屏幕?北大与字节跳动联合推出古籍数字化平台

【编者按】2022年3月,北京大学数字人文中心接受字节跳动公益的捐赠,联合成立“北京大学-字节跳动数字人文开放实验室”,致力于古籍资源的智能开发与利用,研发基于古籍智能化处理的“识典古籍”阅读平台,面向社会公众提供对古籍数字化资源免费公益的访问和利用。浩如烟海的古籍如何装进方寸大小的屏幕之中,让古代文明“触手可及”?借助大数据、人工智能为代表的信息技术,古籍的整理、利用与传播迎来了新的机遇与方向,近期上线的由字节跳动与北京大学数字人文研究中心合作研发的古籍数字化平台“识典古籍”(测试版)便是一个生动案例。该平台目前涵盖460余部经典古籍,主要来自《四部丛刊》,共计8000万字左右。与以往一些商业化古籍数字平台不同,“识典古籍”不仅免费向公众开放,还具备简繁转换、原本影像对照、全文检索、注疏辅助等一系列便捷功能,让古籍的整理研究成果突破学术圈的壁垒,成为滋养当代人思想与心灵的源头活水。▲识典古籍官网首页截图数字化迁移的关口“惟殷先人,有册有典”。中国是世界上产生书籍最早的国家之一,从早期的铭文和竹简到后来的抄本、印本,古籍保证了中华文化的源远流长、传承不息。从孔子删定“六经”始,汉代刘向父子校理群书,魏晋隋唐间对诸经的注疏,宋明时期大型类书如《太平御览》《永乐大典》等的编纂,到清人编定《全唐诗》《全唐文》《四库全书》,历代读书、刻书、藏书人为古籍的修旧起废、变通传承付出了艰苦努力。到了多媒体的电子阅读时代,当大批古籍因年代久远而纸散字碎,成为图书馆里无人翻动的文物,如何唤起对经典的记忆变得尤为迫切。作为非再生性的文化遗产,以纸质形式存在的古籍是十分脆弱的。北京大学数字人文研究中心副主任杨浩介绍,由于各类天灾人祸,比如水火灾害、战争兵燹的损毁,许多古籍都消失在了历史长河中,能保存下来的一般都是有许多抄本与刻本的古籍。这些幸存的古籍如今大多被保存在图书馆、博物馆里,少数为私人收藏,每一次翻阅扫描都不可避免地会对其造成损害,“许多甚至一触即碎”。但如果任其躺在书架上,不被整理、阅读,就无法最大程度挖掘古籍的文献史料价值,尤其是那些冷门的古籍终将随着纸质形态的消亡而消失在大众记忆中。▲珍藏在图书馆内的古籍
其他

会议回顾|“古籍智能信息处理”系列研讨会第九讲

2022年11月20日下午两点,由北京大学数字人文研究中心、北京大学人工智能研究院主办的“古籍智能信息处理”系列专题研讨会第九讲在腾讯会议如期举行。本次讲座由北京大学数字人文研究中心、中国古籍保护协会古籍智能开发与利用专委会主办,北京大学中国古文献研究中心、南京师范大学文学院联合主办,北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院承办,会议由北京大学苏祺副教授和南京师范大学李斌副教授主持。本期讲座的主题为“古籍语料库的构建与应用”,南京师范大学李斌老师、中国科学院软件所韩先培老师、中国中医科学院中医药信息研究所朱彦老师以及北京语言大学饶高琦老师先后发表了精彩的报告。著名计算语言学家冯志伟先生全程参会,并表达了对本次会议的肯定。在讨论和互动环节,各位老师针对线上观众的提问给出了细致的解答。本次研讨会通过腾讯会议、哔哩哔哩平台同步直播,来自国内外高校及相关研究领域的一千多位学者共同观看,共襄盛会。开场致辞会议开场,苏祺副教授指出,为了能让古籍真正“活”起来、“智”起来,除了技术上的创新之外,最重要的就是在古籍的语料库方面具有足够丰富的一个语料库资源和知识库。目前在古籍智能方面,亟需建立统一开放、大规模、跨时代、多领域的古籍语料库。古籍语料库的建设是古籍数字化进程中不可或缺的一部分,对于词典编纂、语言教学和语言研究等各个领域和各个层面都具有非常重要的意义。随后,苏祺老师介绍了参与本次研讨会的四位专家,并请各位专家先后发表了基于各自主题的精彩报告。专题报告一、古籍语料库的构建和应用李斌老师从多年古汉语语料库的构建经验出发,首先对比了古埃及、苏美尔等其他语言古籍与汉字古籍在文本分析方面的区别,总结了古汉语标注过程中在各个层面遇到的问题。随后通过统计分析古汉语语料库中的字频、词频和词类的方法,展示了基于先秦文献标注语料库在语言计算层面进行的一系列探索。另外,现场演示的《资治通鉴》检索平台,也将人物关系、时间和地点等内容进行了生动丰富的可视化呈现。李斌老师在语料库标注的基础上,完成了对文史知识的构建与计量挖掘,这一方法对相关研究者具有很好的启发性。最后李斌老师总结了对未来工作的展望,包括如何修正语料库中的错误、加强人才培养、实现语料库更多场景的应用等方面。二、中华经典诗词知识图谱构建技术韩先培老师基于政策和中华经典诗词本身具有的特征两个背景,介绍了中华经典诗词知识图谱的构建方法和技术。首先,在古代文学专家的协助下,结合知识抽取技术,形成多层次诗词知识本体体系,为描述和组织中华诗词提供基础。其次,基于前沿的知识图谱技术,构建出多侧面的中华诗词知识图谱,为中华诗词的教育普及提供资源。最后,通过立体化知识展示,研发多维度中华诗词展示平台,为中华诗词的知识传播、教育普及和文化传承提供支撑。韩先培老师介绍的诗词图谱平台,提供了一个中华经典诗词与自然语言处理以及大数据知识挖掘相结合的优秀范例。三、中医古籍语料库知识库一体化系统研发朱彦老师以屠呦呦发现青蒿素为例,介绍了中医古籍语料库的必要性,以及基于语料库及知识库进一步激发中医古籍活力的重要性。接着朱彦老师详细介绍了中医古籍本体库的设计思路和构建过程。在清代医书分词语料库和分词规范方面,以及中医实体自动标注方面,老师介绍了前期的研究性工作。在有关中医古籍的知识库及管理系统的设计和功能方面,朱彦老师也从领域专家的视角给其他领域古籍标注系统的构建以很大的启发。最后朱彦老师指出了中医古籍语料库实用、好用、规范、推广的未来工作方向。四、近现代报纸语料库的建设与应用——以《申报》《人民日报》大跨度历史语料库为例饶高琦老师以《申报》和《人民日报》为例,通过各种数据的统计和分析,介绍了搭建近现代报纸语料库的方法和技术。首先从语料概况,包括字、词以及标点符号等基本数据展示了语料库搭建的前期工作。随后饶高琦老师介绍了全文检索引擎,该检索系统可进行词性符号、各种通配符和字符混合检索,尤其是词形词类的通配检索。饶老师还化用“中国式现代化”的说法,希望通过语言、数据的变迁,窥探中国现代化进程中容易被忽视的思潮变迁和社会变迁。最后老师作出未来研究展望,即研究和搭建一个近代历时语料库,以期能够解决“现代汉语是怎么来的”这个关键问题。互动问答在问答环节,著名计算语言学家冯志伟先生,回顾了他研究语言学和计算机的经历,冯先生结合中国语言学的发展进程,指出计算机在处理古籍内容方面大有可为,并对“古籍智能”系列讲座的开展以及四位专家的报告给予了高度的评价和认可。随后,在苏祺副教授的主持下,四位专家就评论区的留言,例如古代汉语语料库的主要难点有哪些,哪些内容可以做自动标注,《贵州日报》与《人民日报》语言研究的区别等问题,基于自身的研究经验给出了具体而详细的回答。最后,苏祺副教授作了总结性的发言并与参会的各位老师、专家和学者合照留念。至此,本次研讨会在交流与收获的充实氛围中圆满结束。本次研讨会由全国高等院校古籍整理研究工作委员会和中国古籍保护协会古籍智能开发与利用专业委员会指导,字节跳动公益特别支持。本期研讨会视频回放已在B站更新(https://www.bilibili.com/video/BV1T841177e9)。“古籍智能”系列研讨会第十讲将于2022年12月下旬举行。系列研讨会的相关信息将会在古籍智能网站(http://gujiai.cn)上进行更新。此外,研讨会还将开展暑期课程等一系列后续活动。敬请关注。反馈与建议&志愿者招募发Interactive
2022年11月23日
其他

"古籍智能"第九讲:古籍语料库的构建与应用

腾讯会议号:988-385-766B站直播:https://live.bilibili.com/22241979主持人:苏
2022年11月15日
其他

会议回顾|“古籍智能信息处理”系列研讨会第八讲

2022年10月22日下午两点,由北京大学数字人文研究中心、北京大学人工智能研究院主办的“古籍智能信息处理”系列专题研讨会第八讲在腾讯会议如期举行。本次讲座由北京大学数字人文研究中心、中国古籍保护协会古籍智能开发与利用专委会主办,北京大学中国古文献研究中心、南京师范大学文学院联合主办,北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院承办,会议由北京大学苏祺副教授和南京农业大学王东波教授主持。此次讲座的主题为“古籍的自然语言处理”,厦门大学史晓东老师、北京师范大学胡韧奋老师、南京农业大学王东波老师以及北京语言大学李炜老师先后发表了精彩的报告,随后苏祺副教授主持了讨论和互动环节,各位老师针对观众的提问给出了自己的独到见解。本次研讨会通过腾讯会议、哔哩哔哩平台同步直播,来自国内外高校及相关研究领域的一千多位学者共同观看,共襄盛会。开场致辞会议开场,苏祺副教授提到古籍从数字化走向智能化的一个非常重要的环节,就是自然语言处理,即通过计算机、人工智能的手段对人类自然语言进行加工和处理,实现其数字化、智能化的转变。因此,自然语言处理技术可以说是古籍数字化或者数据化的重要一环,也是确保古籍能“活”起来、“智”起来的根本。随后,苏祺副教授介绍了参与本次研讨会的四位专家,各位专家先后发表了基于各自主题的精彩报告。专题报告一、基于大规模古籍数字化语料的异体字智能识别史晓东老师从古籍数字化语料中的异体字出发,分别从异体字概念和研究意义、基于异体词的异体字自动识别、异体字词典的自动生成和应用以及未来工作等方面进行了相关介绍。通过对比传统异体字字典,史晓东老师指出采用古籍大数据+人工智能方法,以计算机算法自动进行异体字识别,并在线出版的方式更加具有优势。在异体字自动识别方面,史晓东老师提出了两种方法:搜索引擎和深度学习,并分别对其研究作了相关介绍。异体字词典在古籍可应用于繁简转换、古籍断句、古籍自动校勘、古籍命名实体识别、历史事件挖掘、异体字定音等任务。同时,史晓东老师也指出当前工作只是初步的,仍然需要进一步完善。二、浅探古汉语词义标注技术及其应用与史晓东老师不同的是,胡韧奋老师从词的角度入手,分享了古汉语词义标注技术以及应用。胡韧奋老师首先解释了古汉语语言现象的复杂性给词义标注和分析带来的挑战,提出词义标注技术分三步走:专名识别、通假识别和词义识别。胡韧奋老师重点介绍了词义识别这一方面的进展和成果,首先是建设词义知识库、义项标注语料库等语言资源,目前已建成覆盖300余古汉语常用多义词、3000余义项的词义知识库,并据此标注了超过5.8万条语料,语料库规模超过131万字;在此基础上,研发基于预训练语言模型的词义识别算法,取得了较好的效果。最后,胡韧奋老师表达了殷切希望:借助古汉语词义标注技术,可以更好地服务于古籍整理、词汇语义学研究、词典编纂等一系列工作。三、中国古代典籍跨语言自然语言处理研究王东波老师以“推动中华文化走向世界”和中国古代典籍存在的一些问题为研究背景,详细介绍了基于该背景下所作的一些研究和成果。首先是基础资源的构建,包括中国古代典籍外译目录、中国古代典籍跨语言词表、中国古代典籍跨语言预训练模型等的构建;其次是从数据源、规范和流程、规模和样例、模型构建等方面讲述了中国古代典籍跨语言句对齐语料库的构建;另外还通过成果和案例展示的方式对中国古代典籍跨语言词性标注和中国古代典籍跨语言机器翻译方面的内容作出讲解;最后,王东波老师介绍了中国古代典籍跨语言知识库平台,通过此平台可实现平行语料库检索、典籍智能处理、资源申请及获取古籍信息处理的教材等功能。四、古籍文本的无监督匹配方法李炜老师从无监督匹配方法入手介绍了两个部分:任务无关无监督学习和任务相关无监督学习。所谓无监督匹配就是不使用人工标注的数据,然后对模型直接进行训练,具有效率高和灵活性强的优势。而任务相关与任务无关则是基于匹配方法是否限定于具体任务、场景等。李炜老师通过具体的应用场景,提出借助计算机和人工智能从古代文献中自动挖掘文献之间的引述关系是非常必要的。随后,李炜老师从上下文语义建模、句子语义建模、结合动态规划目标的强化学习方法等计算语言技术方面演示了语义匹配的方法以及相关的实验结果。互动问答报告结束后,四位专家就评论区的留言,例如异体字自动识别研究中的技术难点、如果既有现代汉语,又有古代汉语,针对这些文献进行处理,是否具有好的标注语料用于训练或者无监督的学习方法等,纷纷给出了具体而详细的回答。在苏祺副教授的主持下,专家们对古籍的自然语言处理技术面临的困境、未来工作的开展等方面也展开了热烈的讨论。最后,苏祺副教授作了总结性的发言并与参会的各位老师、专家和学者合照留念,至此,本次研讨会在交流与收获的充实氛围中圆满结束。本次研讨会由全国高等院校古籍整理研究工作委员会和中国古籍保护协会古籍智能开发与利用专业委员会指导,字节跳动公益特别支持。本期研讨会视频回放已在B站更新(https://www.bilibili.com/video/BV1oe4y1e74Q)。“古籍智能”系列研讨会第九讲将于2022年11月下旬举行。系列研讨会的相关信息将会在古籍智能网站(http://gujiai.cn)上进行更新。此外,研讨会还将开展暑期课程等一系列后续活动。敬请关注。反馈与建议&志愿者招募发Interactive
2022年10月25日
其他

"古籍智能"第八讲:古籍的自然语言处理

腾讯会议号:287-711-582B站直播:https://live.bilibili.com/22241979主持人:苏
2022年10月17日
其他

会议回顾|“古籍智能信息处理”系列研讨会第七讲

2022年9月24日下午两点,由北京大学数字人文研究中心、北京大学人工智能研究院主办的“古籍智能信息处理”系列专题研讨会第七讲在腾讯会议如期举行。本次研讨会由北京大学数字人文研究中心、中国古籍保护协会古籍智能开发与利用专委会主办,北京大学中国古文献研究中心、南京师范大学文学院联合主办,北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院承办,会议由北京大学中国语言文学系杨海峥教授和中国科学院自然科学史研究所、北京大学数字人文中心孙显斌老师主持。本期会议的主题为“古籍目录数据库建设”,中国科学院自然科学史研究所研究员孙显斌老师、国家图书馆副研究馆员包菊香老师、上海图书馆研究员夏翠娟老师、古联(北京)数字传媒科技有限公司大数据中心主任苏瑞欣老师先后发表了精彩的报告,随后杨海峥教授主持了讨论和互动环节。本次研讨会通过腾讯会议、哔哩哔哩平台同步直播,来自国内外高校及相关研究领域的一千多位观众在线观看,共襄盛会。开场致辞会议起始,杨海峥教授提到古典目录学有着“辨章学术,考镜源流”的学术传统,在新的智能时代下,古籍目录数据库的建设作为古籍数字化的重要一环,在整理和利用古籍资料过程中发挥重要作用。杨海峥教授介绍了参与本次研讨会报告的各位专家,随后四位专家各自分享了他们主要的工作研究成果。专题报告一、古籍目录数据库的建设与应用孙显斌老师从古典目录学的理论问题切入,指出几个关键的考察维度:目录的构成,特别提到单书目录在唐宋以后的多书目录中的缺失;典籍分类及排序的依据;目录分类的演变;即类求书以及查询一书之著录等问题,并指出这些问题需要在古籍目录数据库建设中得到回应。第二部分孙显斌老师简单回顾了古籍目录数据库建设的发展历程。随后重点介绍了他参与的由北京大学数字人文中心、国家图书馆等单位建设的“中国历代典籍总目系统”和“经籍指掌:中国历代典籍目录分析系统”,包括其浏览、检索和各种分析功能,并表示将持续建设,近期目标是完成品种层的全覆盖及数据的关系化构建。最后,孙显斌老师援引傅斯年先生的话,认为数字人文的发展要重点回应“运用新材料、发现新问题、采取新方法”中的开创“新方法”的使命。二、国家古籍保护中心古籍书目数据库建设包菊香老师详细介绍了国家古籍保护中心立足于工作实际而建设的各古籍书目数据库。全国古籍普查登记平台及全国古籍普查登记基本数据库分别是全国古籍普查登记工作的工作平台和发布平台,有效保障了全国古籍普查登记工作的开展及其成果的展示,最终将形成中国境内现藏古籍的统一联合目录,将完整揭示中国境内古籍的存藏情况,而海外中华古籍书目数据库的建设旨在尽快摸清海外中华古籍的存藏情况,这三个数据库均是从空间维度出发开展古籍的调查工作;中华历代古籍书目数据库则是从时间维度出发开展古籍的调查工作,从而摸清我国历代典籍的流散历史和相关学术的演变脉络。国家珍贵古籍名录数据库是以数据库的形式公开发布第一批至第六批《国家珍贵古籍名录》收录的古籍信息,展示的是从中国境内一、二级古籍中遴选的具有重要文物、文献、艺术价值的珍贵古籍。对于未来古籍书目数据库的发展,包菊香老师提出了几点展望,如对数据进行规范统一、细粒度化的标引,切实加强各古籍书目数据库之间的互联互通,以期为公众提供更佳的使用效果。三、面向循证研究的中文古籍联合目录构建及服务夏翠娟老师介绍了“古籍循证”这一概念,即以古籍目录的记载和古籍文献中的内容作为依据,将科学的研究方法与研究人员的经验相结合,解决特定研究问题。秉持这一理念,上海图书馆开发的中文古籍联合目录及循证平台,从技术层面探索了跨机构古籍资源和数据的共建共享,并以本体和关联数据的语义框架融合不同来源、不同格式的古籍目录数据,支持研究者发现古籍中的物理证据、历史证据、内容证据、关联证据,以循证实践的方式解决研究中的问题。夏翠娟老师也介绍了作为特殊的民间文献的专题古籍联合目录——中国家谱知识服务平台,以及包括古籍和家谱在内的整个数据基础设施建设情况,通过建设系统性的基础设施来支持包括数智证据的多重证据参照的循证研究。最后从服务层面介绍了向社会提供开放数据服务、向研究人员提供知识服务、向到馆读者提供多媒体展陈服务。四、古籍书目产品的设计与技术实现苏瑞欣老师介绍了古联(北京)数字传媒科技有限公司开发的三款古籍书目产品:中华古籍书目数据库、历代石刻总目数据库、中国古籍总目(网络版),及支撑工具古籍书目智能处理系统。中华古籍书目数据库是对历代书目文献的综合利用,“籍合”自古至今各类已整理的书目资源,将准确、权威的书目作碎片化数据处理,实现一站式检索;唐五代墓志专目综合整理石刻资源在各类文献中的著录情况,对墓志的题名、主题词、时间、地点细致标注,通过考证、标注墓志志主之间的人物关系实现库内资源关联,还支持跨库调阅墓志原始文献;中国古籍总目(网络版)则是《中国古籍总目》在新的网络时代所进行的新布局,古籍书目智能处理系统是进行各类书目相关数据库和项目建设的支撑工具。苏瑞欣老师详细描述这些系统的策划、当前进展和后续规划,期待通过书目库建设引入更多关联资源,逐步搭建更加全面、系统的中国古籍知识网络工程体系。互动问答报告结束后,与会人员就资源开放与未来数据共享互通的可能进行讨论。夏翠娟老师就上海图书馆现已开放可供大众使用的资源做了补充说明,孙显斌老师、包菊香老师、苏瑞欣老师表示希望未来在顶层设计指导下,从技术和标准层面推进协作与共同建设。会议最后,王军老师和杨海峥老师做了总结性发言并与各位参会老师合照留念。至此,本次会议在热烈讨论氛围中圆满结束。本次研讨会由全国高等院校古籍整理研究工作委员会和中国古籍保护协会古籍智能开发与利用专业委员会指导,字节跳动公益特别支持。本期研讨会视频回放已在B站更新(https://www.bilibili.com/video/BV1Gt4y1w7Fp)。“古籍智能”系列研讨会第八讲将于2022年10月中旬举行。系列研讨会的相关信息将会在古籍智能网站(http://gujiai.cn)上进行更新。此外,研讨会还将开展暑期课程等一系列后续活动。敬请关注。反馈与建议&志愿者招募发Interactive
2022年9月28日
其他

"古籍智能"第七讲:古籍目录数据库建设

Theme会议信息时间:9月24日下午2:00-5:00
2022年9月19日
其他

会议回顾|“古籍智能信息处理”系列研讨会第六讲

2022年7月16日下午两点,“古籍智能信息处理”系列专题研讨会第六讲在腾讯会议举行。此次研讨会由北京大学数字人文研究中心、中国古籍保护协会古籍智能开发与利用专委会主办,北京大学中国古文献研究中心、南京师范大学文学院联合主办,北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院承办,会议由北京大学中国语言文学系杨海峥教授、古联(北京)数字传媒科技有限公司朱翠萍副总经理主持。本期研讨会的主题为“古籍数字化与汉字编码字符集”,北京师范大学文学院教授王立军先生、教育部语言文字应用研究所高级工程师王晓明女士、香港理工大学电子计算机系退休教授陆勤女士、北京北大方正电子有限公司副总裁兼字库业务板块总经理张建国先生和古联(北京)数字传媒科技有限公司副总经理朱翠萍女士先后发表了精彩的报告,随后朱翠萍女士主持了讨论和互动环节。本次研讨会通过腾讯会议、Bilibili、抖音和蔻享平台同步直播,吸引了来自国内外高校及相关研究领域的共计2000多名观众在线观看。开场致辞杨海峥老师首先介绍了本次研讨会的主题,说明了古代汉字的字形复杂和数量庞大的特点,强调了古籍字库、字符集整理规范的重要性和基础作用。杨海峥老师介绍了参与本次研讨会报告的各位老师,随后五位专家分享了他们的主要工作和研究成果。专题报告一、古籍印刷用字的整理与规范王立军老师从汉字字形规范的必要性、汉字字形规范的历史两方面切入,介绍了古籍印刷字形的整理和规范,以及如何在编码中处理复杂字形等方面的问题。由于古人因义构形的造字规则,汉字中存在许多异体现象。汉字本身的特点,加上古籍字形标准不统一、新旧字形间的冲突、不同字库之间字形处理方式不一致等原因,造成了古籍字形现实应用的混乱状况,需要对这一现象进行规范。随后王老师从历时角度具体阐述了汉字规范的发展史。最后重点介绍了《古籍印刷通用字规范字形表》的相关内容,以及古籍印刷用字的字形认同原则、选取原则,这些对古籍印刷通用字收字和字形规范原则标准具有重要意义。二、汉字编码与古籍数字化平台构建王晓明老师从理论和实践两方面介绍了古籍数字化的相关工作,包括编码、编码字符集、择定字集和确定字型四个方面。古籍汉字在数字化方面首先需要解决编码问题,这是在计算机中存储和传输文字的基础。其次,王老师详细介绍了与汉字相关的不同编码字符集及其相互关系。目前,基于国际编码字符集的通用计算机平台以满足人们日常的信息交流为主,而古籍数字化需要构建一个专属平台,从而在计算机内实现古籍用字的输入和输出。接下来,王老师讲解了《四库全书》项目的平台构筑实践,指出应综合考量数字化对象的用字规模、字符集的收字及操作系统对字符集的实现情况,灵活选取适于目标古籍数字化的字符集。在确定字型方面,王老师具体介绍了CJK汉字字符集的认同规则,以及如何运用该规则确定古籍用字字型。三、汉字编码和适于关联性汉字的编码方法陆勤老师从字符编码基础切入,逐层深入地介绍了汉字编码和关联性汉字的编码方法。首先,陆老师阐述了汉字编码的难点和汉字编码认同的必要性。统一的认同规则能降低索引查找困难,减少认知不同引起的混乱。当前的汉字编码有许多优点,但同样存在局限性,包括缺乏内码和属性信息之间的关联、缺乏字与字之间的关联信息即异体字之间的关联等问题。特别在古籍数字化方面,字符集之间的关联尤为重要。随后,陆老师重点介绍了汉字关联编码技术——异体字序列表示法(IVS),这一方法通过构建基本字、异体字选择符之间的关联字库,能够解决异体字数量多的难点。在古籍汉字数字化方面,异体字序列表示法同样适用,并具有诸多优点,包括古籍的整理工作和需要编码汉字的整理工作具有一致性,编码速度快、灵活性高,适用于多种应用的开发等。四、方正电子在超大字库方面的探索和实践张建国老师具体介绍了方正超大字库。方正超大字库产品收录了8万多汉字,具有多种字体。根据相关国家标准、国际标准,还在不断加以扩充。超大字库在行业应用中需要应对显示、输入、存储、交换和多环境多设备的适配等方面的问题;为此,方正电子建设了方正超大字库解决方案,包括显示方案、输入方案和出版方案。在古籍整理方面,还开发了古籍数据库应用、古籍采集加工管理平台等多个平台,方便各类用户使用。中华精品字库工程精选了100位中国历代书法家的代表作品,开发成为电脑字库,累计推出了35款精品书法字库。五、基于古籍出版及数字化的字符集整理实践朱翠萍老师的报告包括古籍出版面对的字符集问题、古联公司字符集整理实践两方面内容。首先,朱老师介绍了古籍出版面临的字符类型多样、异体关系复杂、终端需求不同、规范标准交错等问题。针对上述问题,古联公司开发了编校系统以排查错字误字,繁简转换平台以实现繁体字和简体字之间的精准转换。在实践方面,古联公司进行了字符集整理与规范工作,建设了多种文字类资源库及平台,如文字属性整理平台、金文词典编纂平台、殷墟甲骨文数据库、小学文献数据库等。最后,朱老师指出,通过构建上述平台和数据库,期望形成集字形、文献、字库、输入法、协同编纂、成果发布为一体的“历代汉字与古文献综合应用与研究平台”。互动问答报告结束后,五位主讲人和与谈人就研讨会内容进行了交流探讨,回答了观众们提出的问题。王立军老师回答了关于“月肉”“柬東”辨析的问题,认为从字理的角度还是比较容易判定的。王晓明老师解答了普通用户如何输入繁难字的问题,建议可以使用逍遥笔,至少可以输入7万字,而且可以手写输入。关于CJK研究进展方面,陆勤老师补充介绍了IRG(Ideographic
2022年7月20日
其他

"古籍智能"第六讲:古籍数字化与汉字编码字符集

JTC1/SC2/WG2/IRG),并且是统一码(Unicode)的编辑之一。为表扬她在中文编码方面的突出成就,她在2015年获颁Unicode
2022年7月10日
其他

"古籍智能"第四讲:智能时代的古籍OCR技术

ECCV等重要国际会议上发表学术论文200余篇,其中SCI期刊论文80余篇,Google
自由知乎 自由微博
其他

会议回顾|"古籍智能信息处理"系列研讨会第三讲

2022年4月23日下午,由北京大学数字人文研究中心、北京大学人工智能研究院主办的“古籍智能信息处理”系列专题研讨会第三讲在腾讯会议如期举行。本期主题为“历史地理信息系统的建设与发展”。研讨会邀请多家古籍数字平台的创始人针对历史地理信息系统平台建设、古旧地图数字化应用、重点区域历史地理信息沿革介绍、历史地理信息平台关键技术等问题进行了深入研讨。本期研讨会由复旦大学中国历史地理研究所所长张晓虹教授担任主讲人,首都师范大学历史学院教授张萍、北京大学城市与环境学院历史地理研究所研究员王长松、西安云图信息技术有限公司总经理张学宝担任与谈人。本次研讨会通过腾讯会议和Bilibili网站同步直播,吸引了来自国内外高校及有关单位的近八百位观众在线观看。开场致辞北京大学数字人文研究中心主任王军教授在致开场辞时指出,中国历史文献资料浩繁,地志学发达,地图资源丰富,历史地理和区域分析的时间跨度可以很长,在应用GIS方面有得天独厚的优势,历史地理信息系统对于古籍数字化和智能化开发具有重要的意义。本次研讨会恰逢中共中央办公厅和国务院办公厅共同印发《关于推进新时代古籍工作的意见》,GIS不仅是整合史料的研究工具,也是视觉化的发布媒体,将复杂的空间技术纳入到历史分析中,带来极其广阔的新的学术研究的空间。王军教授对会议的主讲人和与谈人做了简要介绍之后,四位专家学者分享了他们在历史地理信息系统方面的研究成果。专题报告张晓虹教授的报告从“中国历史地理信息平台”的研发、建设与利用三个维度展开。数字化趋势、计算机技术、《中国历史地图集》的编纂为“中国历史地理信息系统”(CHGIS)的研发提供了相对成熟的客观条件。2001~2016年,复旦大学史地所与哈佛大学东亚系、哈佛燕京学社等机构合作,研发CHGIS系统。该系统形成了一套时空数据制作的技术标准,引发了历史地理学研究范式的转型,引领了中国历史地理学近20年的发展。在此基础上,2016年,复旦史地所开始
其他

会议回顾|"古籍智能信息处理"系列研讨会第二讲

2022年3月26日下午,由北京大学数字人文研究中心、北京大学人工智能研究院主办的“古籍智能信息处理”系列专题研讨会第二讲在腾讯会议如期举行。本次讲座的主题为“古籍数字化平台”,研讨会邀请多家古籍数字平台的创始人从古籍数字化平台的构建、演进过程、建设模式、研究模式、可持续化发展和商业探索,以及人才培养等各方面进行研讨。本期研讨会由北京大学中文系教授杨海峥主持,浙江大学文学院教授徐永明担任主讲人,四川大学文科讲席教授王兆鹏、上海外国语大学图书馆研究馆员欧阳剑、中华书局古联公司总经理洪涛、元引科技有限公司创始人朱厚权担任与谈人。本期研讨会通过在Bilibili网站上同步直播,以及在腾讯视频上直播,吸引了来自国内外高校及有关单位的千余位观众观看了本次活动。研讨会介绍此次研讨会,首先由北京大学数字人文中心王军教授致辞。王军教授在开场词中表示,古籍数字平台具有基础地位和作用,在数字时代,古籍的整理和研究都依托平台展开。王军教授随后对会议的主讲人和与谈人作了简要介绍。之后,研讨会正式开始,会议主持人、北京大学中文系杨海峥教授对与会嘉宾表示了欢迎,并邀请主讲人浙江大学文学院徐永明教授发言。主讲人发言徐永明教授首先介绍了古代文献所具备的价值与当前文献正经历的形态转变,然后通过分析传统数字古籍平台的功能和特点,讲述了从传统数据库到结构化数据库再到智慧化数据平台的演进路径。传统数据库的缺点是缺乏后台数据支撑、关联功能差、不能定位、附加值低;结构化数据库可进行定量数据分析、定位等,弥补了传统数据库的部分不足;而如今的智慧化数据和平台以结构化数据作为后台支撑,能更大程度地解决先前的难点。徐永明教授以自己设计、建造的浙江大学“智慧古籍平台”为例,分享了智能化古籍数字平台的理念与实践情况,详尽展示了平台的各种功能,指出智能化古籍数字平台的“智能”表现在智能OCR、智能标点、智能标引、智能搜索、众包技术、图数据库等方面,同时需要学者们的高度参与。他表示,古籍整理任重而道远,期望智能数据平台的建设能够加快这一进程。杨海峥教授在点评中指出古籍数字平台的演化给古籍整理带来了重大变化,还带来了思维方式和研究范畴的新变,在研究、教学的诸多方面都会产生深刻的影响。与谈人发言四川大学王兆鹏教授的报告题目为《古籍数智化的意义》。“数智化”即“数字化”与“智能化”的结合,王教授介绍了这一概念的双重意义,即功能性提升与结构性转变,并对这两方面的意义作了详细阐释。功能性提升意味着古籍的自动识别、自动标引及自动校注得以实现,结构性转变包括学术创新和应用的创造性转化。学术创新基于知识的贯通化发展。在此之前,知识被有序地隔开,以后则会打通——打通古今、连通各地、部类贯通,从零散到聚合。大数据会带来数据的聚类化研究,会验证、修正我们的平常的知识,还可以转化为文创产品的开发。王教授以丰富的案例对此做出了讲解,并结合自身经历介绍了古籍数字化带来的深远意义。上海外国语大学图书馆欧阳剑研究馆员介绍了数字人文视域下的古籍基础数据应用平台实践,指出人文学者的研究模式正从读文献向分析文献转变,向基于古籍大数据的多元化、整体化研究转变。欧阳老师提出了古籍文献的数字人文研究应用模式,即将描述性内容转变为数据,在此基础上进行研究。随后,欧阳老师分享了他目前在古籍基础数据建设、文本分析和典籍知识服务实践等方面的工作,并对相关内容做了举例展示。中华书局古联公司洪涛总经理以“籍合网”为例,分享了他关于古籍数字化平台建设的见解。洪涛总经理首先对“籍合网”做出了简要介绍。“籍合网”是由隶属于中华书局的古联公司建设和运营的国家级古籍整理出版资源平台,于2018年上线。籍合网面向多类型用户,集合了多种功能,包含专题数据库、在线众包整理平台、大数据中心、自动开发工具等诸多资源。洪总经理介绍了“籍合网”的古籍智能整理出版技术研发工作、出版社编辑使用的古籍整理工作平台,并展示了古籍整理数字化的工作流程。最后,洪总经理讲解了负责古籍整理培训业务的“籍合学院”。作为商业化的大型机构,籍合网平台建立起了所有工作之间的关联和照应,全面诠释了企业对古籍整理数字平台的理解和实践。元引科技有限公司创始人朱厚权总经理以“引得CBDB”平台为例,介绍了人文书籍类学术成果转化的探索与实践情况。朱老师首先介绍了“引得CBDB”项目的建设过程及现有成果,指出数字人文平台的业态正在不断演进。随后,朱老师在总结以往经验的基础上,展示了他关于目前数字人文平台体系建设的构想,并演示了元引科技为清华大学数字人文学院开发的“文本功能平台”的相关功能。最后,朱老师指出学术研究的独创性与工程实践的可复制性既相辅相成又差异显著,并分享了对于平台和伙伴选择的体悟。本次报告会内容扎实、丰富,各位专家发言立足于自己做过的工作,讲得诚恳、实际,是一次非常难得的高质量报告会。专家讨论在专家讨论阶段,王军教授提出,古籍文献的数字化、结构化、图谱化,在分析过程中需要借助外部知识库,相关版权问题如何得到解决?开放的资源库、版权能否得到授权?是否可以开放API,平台互联互通?专家们对此均发表了积极的意见,一致认为需要形成一种良好的机制,一种学界和业界良性循环的生态;需要建立平台,让大家了解学术界的成果,也使得学术研究成果可以返回到企业,从而形成日益开放、资源有效整合的良好趋势。在本次研讨会过程中,参会的老师和同学们都热情参与,在直播间积极发表观点。发言完毕后,各位与会嘉宾就观众们提出的问题表达了自己的见解,讨论氛围热烈。此次研讨会,来自不同高校和领域的专家学者们就古籍数字化平台的建设进行了深入的探讨,观众们纷纷表示内容丰富,受益良多。(何燕、张雨桐、李林芳
其他

会议回顾|"古籍智能信息处理"系列研讨会第一讲

作为四大文明古国之一,中国在5000多年的历史长河中,创造了灿烂辉煌的华夏文明,留下了众多珍贵的文化遗产。古代典籍是这些文化遗产的最直接与最重要的载体形式。它们既是中华民族的智慧结晶,又是古代先贤们留下的宝贵精神财富和历史见证,也是全人类的文明瑰宝。古籍文献属于文化资源,且具有不可再生的属性,必须在妥善保护的基础上加以利用。古籍文献数字化为实现这一目标提供了可靠的技术资源渠道。古籍智能化也是如今进入信息技术时代人文学科新的学术增长点。以大数据、人工智能等为代表的信息技术的发展,为古籍传承与保护等人文学科的发展提供了新方法、注入了新活力。为了更好地总结古籍智能化领域的前沿研究成果、方便来自不同地域、从事不同领域研究的专家学者针对古籍智能化进行深入交流、展望古籍智能化领域未来的发展方向和学术研究前景,北京大学数字人文研究中心、北京大学人工智能研究院共同主办了“古籍智能”系列研讨会。2022年3月12日下午,“古籍智能”系列研讨会第一讲“智能时代古典文献学的机遇与挑战”正式在腾讯会议上举办,并在