转译器｜一位青年数字人文学者的自白

霍伊特·朗零壹Lab 2022-10-08

编者按

之前零壹Lab曾发过一期推文（可点击文末“阅读原文”查看），介绍美国芝加哥大学霍伊特•朗副教授和他的研究论文《文学模式识别：文本细读与机器学习之间的现代主义（节选）》。本期有关数字人文学者身份的讨论，也想通过霍伊特•朗教授的访谈，与大家分享这位青年学者是如何进入数字人文领域，又是如何反思自身的研究及这个领域的。

本文已于2016年11月由《山东社会科学》杂志中戴安德(Anatoly Detwyler, Penn State University)、姜文涛（浙江大学）主持的“数字人文：观其大较”学术专栏刊出，译者为清华大学人文社科学院中文系博士研究生赵薇。

一位青年数字人文学者的自白

◆ ◆ ◆

提问：可以稍微谈谈您的学术背景吗？您是怎么进入数字人文领域的呢？

回答：我原本的学术训练是在日本近现代文学领域，主要集中在20世纪早期这个历史时段。尽管本科时我也拿到了一个计算机专业的副学位，但计算和量化的研究方法并非我研究生时期专业训练的一部分，我博士论文中也没有采取计算与量化的方法，后来我的博士论文成为我的第一部学术出版物，是关于诗人、作家宫泽贤治（Miyazawa Kenji, 1896-1933）的。我第一次接触到数字人文方法时还是一名助理教授，当时参加了一个由国家人文基金会（NEH）组织的为期两周的工作坊，内容是关于网络分析及其在人文领域中的应用的。由于我的早期工作，我对探索艺术家工作网络的形成与发展发生了兴趣，特别是诗人与诗歌流传的网络。在工作坊期间，我学会了如何为这些网络作可视化和进行分析，此后，我使用这些方法开始了一项关于二战前日本现代主义诗歌期刊的研究。

最初吸引我转向这项工作的是掌握大量信息的技能，这些信息是关于诗歌的出版时间和出版地的，以及在此基础上去发现诗人间合作和社会区分的模式。涉及的规模之大，是我之前没有想到的。一个拥有几千名诗人和近十万首诗歌的数据库，可以让我以全新的方式去探索这些档案，开始以单个文本和作者的方式来提问。转换了分析的单元和规模之后，潜藏在历史材料中的模式浮现出来，这促进了新的研究问题的产生，以及对艺术生产中社会过程的新理解。自从参加了2010年工作坊之后，我在学习计算机方法方面投入了越来越多的研究时间，尤其是那些用于发现和分析大体积文学文本模式的技能方面。我现在正在写的一本书就用了这些方法，从量化的视角来考虑日本近现代文学史。

提问：您接受的训练是成为日本研究专家，曾对日文和中文文本做过数字人文方面的研究工作。和您相似的做亚洲研究的学者们在使用数字人文工具时会面临哪些挑战？或者说，您能谈谈关于数字人文在北美、日本研究中的现状吗？或者它在日本本国的日本研究中的情形，以及这和它在北美及欧洲学界的情况有什么不同？

回答：在这方面，学者们面临的最大挑战是技术上的，这很大程度上和分析非字母脚本（non-alphabetic scripts）时遇到的困难相关，在这些脚本中，词与词之间没有界限。很多计算工具是以单词为单元进行分析处理的，你想分析的任何文本必须事先是切分（或标记）好的。尽管现在有大量程序可以做这个切分的工作了，却没有一个程序可以达到百分百准确，而且大部分工具都偏向于处理当代语言。这意味着，能够处理20世纪晚期日文文本的程序，在处理20世纪早期文本时可能就没有那么准确，而且肯定无法应付任何日本书面白话文（written vernacular）定型之前的文本。鉴于这一情况，对中日语言由现代白话转变关键历史时期的研究，如果以这种大型、量化的方法来进行，就不可能了；或者这种情况至少使得采取大型量化的分析不那么容易了。而这种语言转变的历史时期正是界定日本和中国近现代文学的时间点。除了文本分割之外，一个更重要的挑战来自于如何运用光学字符识别软件（optical character recognition，即OCR）来将文本数字化。尽管这个领域的技术已经取得了许多进步，可是在识别亚洲文字中产生的困难情形，尤其是年代越久远的亚洲文字越难识别，这使得大型数字语料库的建设速度减慢。这一情况正在有所改观，大量的工作已经进行起来了，尤其是在处理前近代时期文本方面，但毫无疑问，与那些面对字母书写文字(alphabetic scripts)的研究相比，我们慢了几十年。需要更多的学者来做数字化的工作，更多的学者愿意创建和分享数字语料库，这样才能赶上去。

就日本研究来说，这些技术障碍已经减慢了北美和日本学者们采用数字方法的步伐。开始进入数字研究的门槛看起来似乎太高了，特别是对于老一代的研究日本的学者来说。几位北美日本研究学者，包括我自己在内，已经开始组织工作坊，创造探索分析工具，藉此改变现状。但这毕竟是少数。对于我们从事近现代文学的人来说，一个有利条件是“青空文库(Aozora bunko)”，它收集了超过1200个无版权约束的20世纪初文本，这些都是以众包的形式手动输入的。这给予我们一个非常重要的起点，来做大规模的现近代文学分析工作。然而，这个数据库里存在关键的漏洞和一些不符合规范的地方，使得它并不那么能代表近现代的文学生产。而且这个数据库覆盖的范围也非常小。相比之下，制作精良的数据库，在英语文学研究者们手里，已经用了一段时间了，它们涵盖了18世纪晚期到今天的文学作品。日本文学研究者想要用上这样长时段的数据库，恐怕还要好多年。

有趣的是，正是前近代领域的学者们在引领人们开拓这方面的研究方法，这种情况在日本尤其如此。比如，早期的一些数字工作是由一些宗教学者们完成的，他们投入了大量的精力和时间来制作升级版的数字化佛经。古典时期的学者也发现，他们更易采用数字方法，一部分原因是由于他们的语料库更小也更易于数字化。早期近代视觉文化的数字化工作也取得了很大进步。同时，也是由于大部分的工作已经做了几十年了，人们也不会经常同北美和欧洲最前沿的理论和计算技术对话交流。我认为，这一沟壑阻碍了数字人文在日本近现代学者中的流行，因为他们看不到这项技术进步可以带来的知识上的帮助。我知道只有非常少数的学者在将计算方法运用于近现代文本的研究，而且他们中的大多数还是语言学领域的。我希望，随着越来越多的人可以使用相关工具，可以使用语料库，会有更多的日本学者能看到这个领域可以带来的效能。最近，弗朗科•莫瑞蒂《远读》(Distant Reading)一书被翻译为日文，这很可能产生重要影响，也许会有助于复苏日本文学批评中的量化思路，这一思路可以追溯到夏目漱石（1867-1916）。

提问：假设一名中国的文学研究者想要使用计算机去探索分析100个中文文本，为此，他愿意接受某种培训（例如某种程序语言），如果可以拿出半年或两三年的时间，那么他该做些什么呢？

回答：如果一个人只有六个月的时间，我会建议他首先阅读一些该领域内领先学者们的文章和书籍，这有助于他弄清哪些类别的分析可以（或不可以）采用计算机方法来进行。这可能包括马修•约克斯（Matthew Jockers）比较基础性的著作《大分析》（Macroanalysis），杰弗里•洛克维尔（Geoffrey Rockwell）和斯蒂芬•辛克莱（Stephan Sinclair）的《诠释学》（Hermeneutica），以及安德鲁•派博、泰德•安德伍德（Ted Underwood）、马修•威尔肯斯（Matthew Wilkens）还有其他很多学者等的学术作品。看完这些后，他有可能想要阅读一些关于统计学和自然语言处理方面的介绍性材料。就编程来说，这真的取决于他之前的经验。但是如果之前完全没有背景，我会建议从一种叫Voyant的线上工具开始，它可以对单个文本做多种分析，也可以用于小批量文本的处理。如果有更大的雄心的话，我推荐去读一下马修•约克斯的《文学学者如何使用R语言进行文本分析》（Text Analysis with R for Students of Literature），这是一本非常简单易懂的书。人们在重新为中文文本编码时很可能会遇上一些难题，但我觉得怀疑这些问题都可以参考R语言的编程书来解决，或者参考一些为中文使用者所写的在线指导。我也建议他去参加数字人文年会，例如数字人文组织联盟（ADHO）的年会，或者其他会议中的相关专题研讨及工作坊。这将便于你熟悉该领域业已存在的学术环境，也会让你接触到一些当下的讨论和问题。

如果可以投入两至三年的时间，我建议参加一些编程的课程学习（甚至可以是在线课程），学习一些Python和（或）R语言的基础知识，也可以通过一些指导性的教科书来自学。这样的话，我推荐一些专门的教科书，诸如《使用Python的自然语言编程》（Natural Language Processing with Python）。Python和R语言都是用途极为广泛的编程语言，它们可以用于数字人文中的其他方面，包括社会网络和空间分析。我也建议与老师和（或）学生展开跨学科合作（例如来自语言学的、社会科学的），他们已经对这些方法相当熟悉了，可以更有效地为你提供资源。他们自己在使用工具时可能会有不同的目的，但是可以提供许多帮助，使你学到基础知识。对于那些想要做网络和空间分析的人来说，也有大量的指导资源存在。这取决于他们拥有什么样的方法和工具，以及你在开始前对现存的文献资料有多熟悉。

提问：我们对量化的文本分析如何能够挑战文学史的现有结论很感兴趣。您能谈谈数字人文如何确认或定义新的文学类型吗，或者数字人文如何扩张现有文学体裁的边界？

回答：这是一个相当宽泛的问题，我宁肯你去读一些我发表的文章，里面描述了我认为比较新的量化分析，以及它将会为文学史研究带来什么。简单地说，我认为与其说这种分析在界定新的文学类型方面作出了贡献，还不如说它更能够促使我们去批评和重审现有的文学体裁定义。也就是说，这迫使我们去思考，我们如今的定义是如何被某种规模的分析，以及关于文学文本如何起作用的那些不太明显的假设和模型所规定的。数字方法的关键并非是为了要使这些模型以及从中派生出来的解释无效，而是要将这些模型放置在与不同模型和规模分析的比较中，这样我们才有可能丰富我们的总体视野。数字人文最有前景的方面不在于它可以让我们脱离文学基本问题，而在于让我们能够从新的有利角度回到这些问题，从而使这些概念的讨论可以再度热起来。它迫使我们重新认识诸如文体、叙事、情节、人物以及话语等全部概念。但也刺激着我们重新检讨“细读”和其他解释实践，这些解释实践处于具体的历史和意识形态中，充满了偏见和未经审视的假设。

提问：关于数字人文是如何转变大学教育和研究使命的，我们想听听您的思考。简言之，有人指责数字人文的兴起正是高校新自由主义化的表征，您对此作何感想？

回答：我当然理解这一看法。向量化的靠拢、采取近乎科学的方法，给人一种感觉，似乎我们将很大地盘割让给了侵蚀人文研究领域的经济和社会权力。这在日本是尤其现实的，那里的政府努力重建大学体系（以及取消人文科学的项目），为的是使这个体系更直接地与当下的劳动力市场匹配。所以人们对这种威胁的体会非常真实，而且看上去数字人文不过是顺其道行之的。但是，我认为这种观点是非常短视的，它忽视了数字人文领域的学者们实际上真正从事的工作。如果认为只有人文学领域收到了大学新自由主义化的不利影响，进而对此作出的反应不过是对无论任何形式的数字人文研究都拒绝，且毫无旁顾地继续做我们学术界一直做的那种类型的研究，那是非常错误的。对于我来说，这种心态既反智，也属于误入歧途，因为它为我们现存体系之外设置了一个批评空间。但这从来未曾发生过。人文学者从来就是在大学的行政体系和经济结构之内工作的，而且在并不久远的过去，他们还十分愿意从事跨学科的工作呢。实际上，人文和文化研究与科学研究相悖的思想也是相当晚近的发明。在我们为现存的人文学科形式丧失而哀悼之前，我们应该始终记住更长时段的人文学科史。

的确，人文科学和自然科学当然蕴含了不同的认识论以及解释学假设，我们不能指望文化现象可以像生物或物理过程那样被量化和抽象化。但是，认为所有形式的量化研究都不适用于人文学科就不够坦诚了，这忽略了艺术与科学之间长久进行交流的历史。如果新自由主义化正在逼迫人文学者去与科学领域之中发生的研究进行谈话、与其他看待世界的模式之间再次沟通对话，那这未必是一桩坏事。如果对话是单边的，那就会带来问题，但这也正是为什么人文学者应该多去参与其他科学领域发展的原因。越是自绝于其他领域，我们将越是无法展开真正的对话，也无法为人文研究的独特性做辩护。保存我们的相关性并不是要拒绝曾经指引过我们研究的问题和对象，而是要在数字技术全面渗透的今天，重新思考这些问题和对象的处境。我们需要全面参与到这些技术中去，不仅为了帮我们把研究的问题和对象转换到这新的数字时代，同时也让我们以一种明智的、知情的方式去质询这转变带来的得失。我们作为人文学者，应积极为这种讨论贡献力量，但如果我们只是继续自言自语，那终将无济于事。

END

主编 / 陈静

责编 / 徐力恒顾佳蕙

美编 / 傅春妍

零壹Lab

记录数字媒介之日常

反思科技与人文精神

长按关注

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

那些内心强大的孩子，童年被允许做过这1件事

波罗的海，电缆断裂！

关晓彤突然官宣喜讯！粉丝欢呼：恭喜啊，终于等到这一天

转译器｜一位青年数字人文学者的自白

您可能也对以下帖子感兴趣

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

那些内心强大的孩子，童年被允许做过这1件事

波罗的海，电缆断裂！

关晓彤突然官宣喜讯！粉丝欢呼：恭喜啊，终于等到这一天

生成图片，分享到微信朋友圈

转译器｜一位青年数字人文学者的自白

您可能也对以下帖子感兴趣