图4注意力头3-1中功能词and在各句长语料中的平均注意力分布这一发现表明,词的线性位置分布这一形式,能够被神经网络语言模型直接地获得。也就是说,线性位置分布中蕴含的语言规律,是能够被语言模型自然地利用的规律(图4就体现了神经网络语言模型的注意力矩阵中观察到的“句长不变性”)。对于神经网络语言模型而言,位置就只是一个序号吗?答案是否定的,位置信息并不仅仅是一个编号或者顺序标识。当我们把镜头拉远,站在统计的角度上看,线性位置分布实际上承载了语义和语言类型在内的多种语言知识。甚至可以认为,词的线性位置分布这种表征形式,在某种程度上具有类似词向量的功能。线性位置分布这种载体上承载的语言规律,能够被神经网络语言模型自然地利用。更为重要的是,线性位置分布同时也能够被研究者看懂。这意味着这一表征形式是一种研究者和语言模型沟通信息的桥梁。最后说两句题外话,物理学者费曼的“What I cannot create,I do not understand”在神经网络语言模型时代似乎只说对了一半,如今研究者面对的问题是,即便能够创造出在实践中成功的模型,却并不了解自己创造的模型为何能成功。我们当前对神经网络语言模型的认识如同盲人摸象,这种状态也如同化学出现之前的炼金术,维生素发现之前的柠檬。尽管尚不能得知全貌,但是借助线性位置分布这一表征形式,起码我们能开始“摸大象”了。