三千年前的古文字被 AI 破译,MIT 和谷歌开发失传语言的机器翻译系统
克里特文字:世界最难破译古文字之一
破译 B 类线形文字的两个假设
国外的古文字研究大多基于符号学方法进行研究
利用语言进化的约束
关于如何机器翻译一门失传的语言的问题,研究团队想到了从时间上做文章。
任何语言都会随着时间的变化,以某种形式变化,比如在相似的语言里,符号会有同样的形式分布,它们的相关词语有着相同的顺序等。
借助这些规则的约束,如果能够找到相关的语言形式,翻译问题就会迎刃而解。
以此为原理,罗家明团研发了一种技术,测试了两种失传语言,B 类线形文字和乌加里特语。
语言学家很早就研究清楚了,古希腊语的早期形式是由 B 类线形文字编码得到,而在 1929 年发现的乌加里特语则是希伯来语的早期形式。
团队提出的模型架构,编码器和解码器的输入
分别是丢失的语言和已知的语言
利用相关语言的约束规则,他们开发出来的模型,能够以相当高的准确度完成这两种语言的翻译。
对于 B 类线形文字,最终能将 67.3% 的同源词翻译成希腊语。而本次实验,也是首次尝试自动翻译 B 类线形文字。
期待机器学习破译最难古文字
一个难题被解决了,但是,对于世界上至今最难破译的文字如 A 类线形文字,机器能成功翻译吗?
在这篇文章中,没有涉及到 A 类线形文字的研究,但对它们的翻译,却是语言学家都会关心的问题。
当然,在 A 类线形文字能够被机器翻译之前,可能还需要一些突破口。
比如说 ,A 类线形文字和哪种语言有关联,现在还没研究清楚。而此前,将其翻译成古希腊语的尝试都失败了。如果不知道它的祖语言,现行的方法都将失效。
不过有人提出了一种笨办法,用类似穷举的方法,让计算机逐一将它翻译成已掌握的语言,也许就会试出它的对应表达。
如果能够奏效,这将是一项伟大的成就。所以,要做的事情就是,机器翻译在其力所能及的领域,将这些文字与每一种语言都进行对比。
世界上最难破解的四大文字之一:伊比利亚文字同样
A 类线形文字和克里特象形文字也是其中之一
破译人类语言是一个有趣且重要的课题,而现在,机器学习技术让那些探索者们,找到了有力的破解武器。
相关报道:
https://www.technologyreview.com/s/613899/machine-learning-has-been-used-to-automatically-translate-long-lost-languages/
本文系大数据文摘出品,由刘俊寰编译
—— 完 ——
扫描二维码,加入讨论群
获得优质数据集
回复「进群」自动入群
更多精彩内容(点击图片阅读)