盛唐 or 中唐? 机器学习助力莫高窟壁画断代
在古丝绸之路河西走廊最西端的敦煌绿洲中,默然矗立着世界上现存规模最大、内容最丰富的佛教艺术宝库:莫高窟。莫高窟开凿于五胡十六国期间(约公元366年),历经北朝、隋、唐、五代、宋、西夏、直至元朝的历代兴建,至今仍保存有洞窟735个,壁画4.5万平方米、泥质彩塑2415尊。
莫高窟九层塔外观。(图源pixabay)
璀璨莫高窟跨越近千年的历史,而“敦煌学”中的一个重要问题就是“断代”,确定这735窟中的每一座雕像塑于何朝,每一幅壁画绘于何代。
传统的莫高窟壁画断代,主要有3种方法:有些壁画本身配有题记,可以从中确认壁画创作年代;有些壁画虽然没有附带题记,但可以在史料中找到对应描述,这些壁画也易于断代;而对于那些没有对应文字材料的壁画,就只能依据其绘画风格来进行断代了,比如,唐朝壁画中女子丰腴,而隋朝壁画中的女子则相对纤细。
然而,所谓绘画风格毕竟是主观判断,对于某些壁画,即便同为钻研数十年的资深学者,也会做出不同的判断。而敦煌学的学者们也与时俱进,开始求助于计算机视觉技术和机器学习方法,想要找到客观和定量的断代方法。近期发表于《中国科学:信息科学》英文版的这项研究,就是一次有益的尝试。
形状、颜色,以及人眼不识的“神秘因素”
用计算机来对图画进行分类(比如划分壁画年代)是计算机视觉技术的一个分支,相关研究从大概二十年前就已经开始。经过多年的发展,人们已经找到了一些有效的方法来对形状和颜色来进行描述,并据此进行分类。
而近年来基于大数据的机器学习方法兴起,又给这一领域带来了新的机遇:使用深度学习方法,我们可以用已有图像数据库来训练计算机,让它能够在形状、颜色之外找到人眼无法捕捉的特征,并据此提高分类的准确性。实际上,目前已有AlexNet、GoogLeNet等深度学习网络模型可以胜任此类工作。
在这项研究中,研究者就同时应用了这几种方法。在形状和颜色特征之外,研究者还使用莫高窟壁画数据库,应用深度卷积神经网络(DCNN)方法训练了专门用于莫高窟壁画断代的深度学习模型DunNet,其断代表现在整体上优于传统方法和其他深度网络。
DunNet深度学习网络包含6个卷积层、3个池化层和2个全连接层,由包含3860幅莫高窟壁画的数据库训练而成,其中,3000幅属于训练集、700幅属于测试集、160幅属于验证集。经过数据增量处理后,训练样本达到5万。这3860幅壁画尺寸一致,来自于194个莫高窟洞窟,创作朝代位于隋、初唐、盛唐、中唐、晚唐和五代这6个连续的时代之间。
DunNet神经网络的结构
对于“形状+颜色+DunNet”的综合方案,研究者进行了两种类型的训练。第一种训练是6选1,在全部6个时代(隋、初唐、盛唐、中唐、晚唐、五代)中判断壁画的创作时期;第二种是2选1,在相邻的两个时代之间做出选择。结果,综合方案的6选1正确率为71.64%;而在2选1测试中,除中唐/晚唐判断(77.25%)外,综合方案的判断准确率均达86%以上。
训练好了模型,自然要“拉出来溜溜”。研究者在莫高窟205窟和206窟中选择了7幅年代存疑的壁画,让机器对它们进行判断。判断过程中,这7幅画中的每一幅都被分割整理为100个壁画样品,机器模型分别对这100个样品进行判断后,得票最多(每个样品计1票)的时代便被认为是机器判断出的壁画创作年代。
以下就是这7幅壁画及相应的判断结果,可以看出,除其中第4幅外,机器的判断结果都和敦煌研究院的最新官方判定结果一致。而研究人员认为,针对第4幅壁画(机器判断为中唐或晚唐作品,官方人工判定为五代时期作品),机器判定结果对其真实创作年代提出的质疑,是值得进一步判断和研讨的。
第1幅(205窟)
机器判断:盛唐(6选1);盛唐(盛唐/中唐2选1)
官方判断:盛唐
第2幅(205窟)
机器判断:中唐(6选1);中唐(盛唐/中唐2选1)
官方判断:中唐
第3幅(205窟)
机器判断:中唐(6选1);中唐(盛唐/中唐2选1)
官方判断:中唐
第4幅(205窟)
机器判断:中唐(6选1);晚唐(晚唐/五代2选1)
官方判断:五代
第5幅(205窟)
机器判断:初唐或盛唐(6选1,初唐46票,盛唐47票);初唐(初唐/盛唐2选1)
官方判断:初唐(曾被认定为盛唐)
第6幅(205窟)
机器判断:盛唐(6选1);盛唐(初唐/盛唐2选1)
官方判断:盛唐(曾被认定为初唐)
第7幅(206窟)
机器判断:隋(6选1);隋(隋/初唐2选1)
官方判断:隋
值得指出的是,这项研究是计算机视觉方法第一次被应用于古代绘画作品的断代工作。对相关方法的进一步发展和完善,将为敦煌,以及更多的古代艺术作品提供更加客观和科学的认定方法。在机器学习名震江湖的今天,这样的应用也是技术最好的价值体现。
Dating ancient paintings of Mogao Grottoes using deeply learnt visual codes
Qingquan LI, Qin ZOU, De MA, Qian WANG & Song WANG.
Sci China Inf Sci, 2018, 61(9): 092105
长按并识别以下二维码,下载完整PDF!
文章下载排行榜TOP10 | Science China Information Sciences