【这很AI】梵蒂冈档案馆的世纪难题正被AI解决,120名高中生做了什么?
作者|宇伊
出品|遇见人工智能 公众号|GOwithAI
在意大利,发生了一个可以说【这很AI】的案例,120名高中生用人工智能解决了一个长达几个世纪的问题,足以跨越了时空,听上去充满了神秘和神奇。
而解决的这个世纪难题就是如何让研究人员访问梵蒂冈秘密档案馆。这里收集了大量的历史文献,详述了早在八世纪的梵蒂冈活动。
但是这还不简单,直接去不就行了吗?说来话长,真不容易。
梵蒂冈秘密档案馆的架子大约有85公里(53英里)长,房子有35000册目录,但是研究人员扫描和上传的文件只占不到一英寸,通过计算机能搜索到的转录文档更罕见,这是因为梵蒂冈似乎不想分享这些信息。
但是,即便愿意分享,加上今天的光学字符识别(OCR)软件也无法处理如此海量的不规则性手写文字。
因此,如果研究人员想要查看这些文件,他们别无选择,只能亲自访问档案馆(前提还要看梵蒂冈是否批准了他们的访问请求)。
如今,这种窘境也正面临一场变革,来自档案馆和罗姆特雷大学的一组研究人员已经创建了一个研究项目,旨在解决这个问题。
他们利用人工智能(AI)来转录这些文件,这些研究也被发表在欧洲信息学和数学研究联合会的杂志“ERCIM新闻”上。
但是真正处理起来并不简单,最棘手的问题是电脑并不是最擅长阅读人类笔迹的。因此,这个叫做CODICE比率项目的第一步是让学生来训练它。
如何训练?学生们利用研究人员建立的一个在线平台,通过投票表决梵蒂冈两页上的手写字符(一个与教皇来往的信件的集合)是否匹配了古文字学家识别的字符的变化(研究旧手持式的人)。
例如,一个学生可能会看到类似于手写字母M的纹样,并伴随着一系列经过专家认可的手写M字样。如果学生认为两个样本M足够匹配,他们会投赞成票。如果没有,“不”足够多的“赞成”票,而这个手写的字符得到了一个标签:M。120名学生只花了几个小时就完成了整个训练集。
但是人工智能需要更多的训练。接下来,研究人员教他们的人工智能如何使用一种他们称之为“拼图分割”的方法来识别手写字符。
AI没有把笔迹看作是一系列的单词,甚至是一组字母的组合,而是在寻找笔画。例如,手写的M看起来不像一个字符,它将是三个笔画紧密地结合在一起。根据它从高中生产生的数据集中了解到的情况,这些笔画可能是M,也可能是III。
为了帮助人工智能“阅读”这些笔画,研究人员给它提供了一套150万字的拉丁文数据集,这是一种书写文本的语言。然后,当它看到这三个笔画时,它可以确定它们可能代表M,而不是III,因为后者不可能出现在拉丁语中。
当研究人员使用四页梵蒂冈登记册测试他们的人工智能时,它正确地转录了65%的单词。这远非十全十美,但也已经超乎了预期。根据研究人员的说法,这些转录是足够精确的,为史学家提供了一个“坚实的基础”,可以加速转录过程。他们仍然在努力改进这个系统。
这将特别有帮助,因为梵蒂冈每天只允许查阅大约三份文件。因此,研究人员可能会*认为*他们知道自己想看什么文件,并访问梵蒂冈,只是为了认识到这些文件没有帮助。
这将对研究人员有特别的帮助,因为梵蒂冈每天只允许查阅大约三个文件。因此,研究人员可能会想,他们知道他们想看到的文件,并访问梵蒂冈避免查看对他们没有用的资料。
如果所有的东西都被转录了,也许研究人员最终可以在整个收藏中搜索关键词(“米开朗基罗”之类的),看看包含了什么文档,然后请求访问这些关键字。
更进一步,或许可以从梵蒂冈秘密线上档案馆获得他们需要的信息,而不必去梵蒂冈城。
约访|据说有气质的AI公司都想被AI名利场约访一下。微信加:623974966
福利|点标题下蓝字,或微信搜“遇见人工智能”,关注后回复"报告",1秒钟获取麦肯锡、德 勤等198份顶级最新AI报告。
遇见人工智能
专注人工智能的首席全媒体
商务合作、转载、投稿请联系微信
▼
623974966