唯理中国线上课程 | 第十九期:从计算机出发,重新定义阅读
什么是数字人文?
怎样用计算机工具理解文学?
这种新方法有什么创新,又有什么局限?
这会怎样改变我们的阅读体验?
从计算机出发,重新定义阅读
Digital Humanities
就像很多其他人文社科领域有越来越多的量化方法一样,现在有了越来越多文本分析工具,为我们提供了一个新的读文学的角度。这节课希望带大家入门基础的编程工具,了解一些有意思的数字人文研究,并且讨论该怎么设计实验、理解结果,寻找文本分析工具的局限和可能性。
开设这期课程是希望为对文学和计算机之一感兴趣的同学们打开跨学科研究的可能性。课上我们可以探讨传统的领域如何有更多方法论上的创新,一边学会使用一些有趣的工具,一边探讨一些经典的文学命题。很多非常有意思的前沿内容其实不需要特别多知识积累就可以领略到(不用会写码,有高中数学水平就好),所以希望初次接触这个领域的同学和已经有了很多想法的同学可以相互启发、走出舒适区。
讲师介绍
杜一冰
Stanford University
我叫杜一冰,斯坦福大三,读历史和计算机。之前做过的研究有清末旅日文人所作的竹枝词,还有七十年代华人华侨的政治活动和身份认同。喜欢读犯罪故事和在图书馆略带闹鬼氛围的区域溜达,但是不喜欢同一天干这两件事儿。
课程计划 | |
第一周 5/17 | 入门:什么是数字人文和文本挖掘? |
第二周 5/24 | 人文研究的变革 |
第三周 5/31 | 计量文体学与作者 (曹雪芹:红楼梦的后四十回是我写的吗?) |
第四周 6/7 | 词嵌入 (知乎用户:“呵呵”的含义为什么会在数年内发生这么大变化?) |
第五周 6/14 | 主题模型 (鲁迅:这话我...说过吗?) |
第六周 6/21 | 情感分析 (女朋友:我没生气,真的不用管我) |
第七周 6/28 | 命名体识别 (屁孩Ryan: 她Gucci的时候眼泪总是Prada Prade的Dior) |
第八周 7/5 | 结语:手里的工具我们该怎么用? |
讲师采访
Q&A
Veritas: 为什么会想要学习历史和计算机这两个专业方向?
杜一冰:因为我从小到大都是一个理科生,但是我又一直很喜欢文科,所以一直在一个纠结不定的状态一直到大学。我对历史很感兴趣是因为喜欢在不同的叙事中寻找真相,即使可能并没有这个真相。学计算机又给了我不一样的感觉,能有解决以前不知道怎样解决的东西的快乐。学两个学科总会有人问,这两个学科到底有什么关联。硬拗一些关联其实非常难,直到我接触到了Digital Humanities。这个领域非常新,所以很多根本的问题它没有固定的答案,我觉得它非常有意思、有前景,还能让我更方便向别人解释我在学什么(笑)。
Veritas:为什么想要在Veritas开设这门课呢?
杜一冰:我在国内上的高中,当时接触过的学科比较有限,因此学术兴趣几乎都是从学科出发,很少会从“寻找一个有趣的问题”的角度出发。对我来说,Digital Humanities结合了这两种思考方式:一边可以提出一些很宏伟问题、等会儿再考虑用什么工具解决,一边又可以把技术的特点作为出发点、来提出一些新的问题。我觉得这种思维方式是非常有意思的,和我在高中接触到的基于看书或是基于做题的学习模式非常不一样。现在Veritas的小朋友肯定比我当时的见识更开阔,不过我希望开设这门课来帮大家预先探索一下大学想学什么。我想大家可以通过接触这些工具、了解这个领域的人在研究什么,来开拓一些思路。
Veritas:你提到开这门课的原因是你之前上Digital Humanities觉得这门课很有意思,那你在上这门课的时候有没有什么非常印象深刻的经历呢?
杜一冰:之前一个学期,我在同时上一节英语系的Digital Humanities课和一节计算机系的自然语言处理课;我特别直观地感受到,从文学背景和计算机背景出发的人,在这些跨领域的学科里关注的东西可以非常不一样。Digital Humanities是我认为为数不多的人文学科里面非常适合合作的领域,不仅在文学方面有好玩的应用,在生活里面也是,我们Digital Humanities的lab最近就在做一些疫情相关的研究。比如如何理解人们对病毒不自觉的拟人化,像是“Coronavirus doesn’t care”这样的叙述;或者结合一些文学传统,例如literature of confinement这些写在狱中的作品,或者像鲁滨逊那种描述某种隔离状态里的小说有怎样的特点,从哪些方面可以映射现在我们各自的隔离生活。还有一些更社科的问题,像是新闻媒体怎样反映最新的科研结果,谣言是怎么传播的。
Veritas:你在接触到用计算机分析文本的时候有什么样的感受?
杜一冰:我觉得最大的一种惊喜是以前不可能做到的事情都可以做到。以前读5000本小说分析其中的规律是基本不可能的,但这项任务的成本被计算机无限降低之后,我们就可以来探讨一些有意思的问题,比如十九到二十世纪对性别的呈现有什么变化。直觉上我们可能会认为,随着女权主义的发展,女作家/文学作品中的女性角色也会越来越多。但是数据呈现的规律恰恰相反:女性角色的比例越来越低。但有意思的是,大数据分析不仅仅推翻了我们的假设, 还带来了新的发现:文学作品中性别的刻板印象在逐渐淡化,随着时间推移,算法越来越难以从非性别化的描述中区分男性和女性角色。通过计算机和统计学工具,我们可以获得一些人类读者没办法获得的信息。
当然这个研究过程是需要精心设计的,也是我希望在课堂上探讨的问题:我们选取怎样的文本分析,选择哪些工具,如何设置参数,如何在结果中抓取规律,如果没有规律的话又该作何解,如果有规律的话怎么理解、怎么提出之后的问题,这些都是开放的问题。我之前自己做过一个小项目探索十九世纪自传与自传小说的区别,想了解这一层虚构的成分能不能被某种分析工具捕捉到。我发现自传里提到童年经历往往更具体、实在,比如几月几号发生了什么事情,而自传小说里提到的童年往往是和感性的回忆相关。另一个很大的不同是对情感的态度,比如男性作家尤其不愿意在自传中提到浪漫爱情相关的词,但是在自传小说中就不讳提及。
Veritas:用数字化的方法分析文学与传统的方法有什么不一样吗?
杜一冰:大家肯定会有一种文学非常感性、而计算机是只会看数字的冰冷机器的天然印象。但是我觉得很多时候也不完全是这个样子。文学里面分析文学和创作文学本来也是两个挺不一样的过程。分析文学是非常系统的工作,在试图阐释微妙的东西时,我们也需要把问题具象化分析。从这个角度来说,Digital Humanities其实会为我们带来很多灵感。有人做过小说中标点的使用的研究,发现从19到20世纪有个显著的现象:英语小说中的句号用得越来越多、逗号用得越来越少,诗歌中也有类似的规律。如何解读这个现象我们先不谈,这样的发现是传统的方法下我们不可能读出来的。这样神奇的现象还有很多,比如把19世纪投稿到文学杂志的文章分为被拒绝和被接受两类,随机提取一些样本,让经过训练的计算机模型和学者分别判断这些文章是否会被接收,计算机的准确率甚至更高。这意味着计算机能更好地在数据里提取到我们没法看到的规律。
Veritas:自己做的项目和了解到的项目,有哪些是觉得最有趣好玩的?
杜一冰:我觉得一方面有很多人用到了这节课我们会讲到的方法去探究一些文学以外的问题,就比如说有人通过topic modeling来研究修建三峡大坝的社会影响、中医的药方里有哪些规律。我自己做过一个小项目,用一个爬虫程序收集了各种英文hip-hop歌词训练一个词嵌入的模型,来探究hip-hop世界里对家庭、性别、爱情、时空的认识。同样和家庭相关,与mother/sister紧密相关的往往是温情、快乐,而与father/brother相关的往往是讲挣扎、困境,“我和我的兄弟都不容易”的这种感觉。另一方面,文学这个领域也可以很宽泛。我的教授做过一个分析哈利波特同人小说的讲座。近十几年来的同人小说非常非常多,多到和哈利波特相关的总字数就超过了20世纪所有出版的英文小说加到一块。这是一个特别适合文本分析的材料库,可以来研究各个国家的网友更喜欢哪些cp、哪些桥段,观察作者和读者之间是怎样互动的。
Veritas:你觉得这样的研究对人文学科和现有文献的贡献是什么呢?
杜一冰:一方面,我觉得人有了新的工具就会提出一些新的问题。另一方面,Digital Humanities不是要对传统的研究方法取而代之,而是要为它们做补充。比如传统的精读从小处着眼得出一些复杂深刻的结论,但是这些结论多大程度上可以推而广之是很难说清的,这个时候Digital Humanities就可以提供有力的证据来支持或者推翻我们通过局域分析获得的结论。
这个研究过程本身也是非常复杂、丰富的。举个例子,我们要了解“20世纪小说和19世纪相比,女性角色是否具有了更独立的人格和更模糊的社会角色?”, 计算机是无法直接理解这个命题的。所以我们必须要对“角色”, “女性”, “20世纪”, “独立”,“人格”等等看上去我们人人都理解的词汇有更深刻更准确的定义。什么是角色?如果我给计算机1000本书,它如何判断一本书里有哪些角色?比如甄嬛黑化前后,我们该把她当作一个人处理还是该划分清楚呢?假如一本书中同一个角色被从很多不同的视角描述,每一个视角有不一样的写作方式和人物刻画深度,像罗生门那样,那么这个人物还是同一个人吗?假如一些角色从来没有在故事中出现,但是不断被书中的人物讨论到,这个角色是否应该被纳入分析?我们不仅要清楚地定义问题,还要有理有据地选择文本。这两个世纪有数不清的书曾被发表,我们如何选择其中有代表性的那些?在收集文本的时候,我们又带入了怎样的假设?如果我们选择所有被美国大学图书馆的馆藏,那么我们看到的就是当代美国文学研究人员关心的书;如果我们选择当年文学杂志上收录的内容,那我们更在乎的是当时每本书的评价,而不是尘埃落定以后人们还记不记得它们。这层层选择和思考不仅仅是在尝试回答原来的问题,也是在将这个问题细化、深化,也让我们可以回顾传统的文学批评并与之对比。
Veritas:这门课不需要CS基础,那你觉得这门课适合什么样的参加者呢?
杜一冰:首先不需要CS基础,有正常高中数学基础我觉得就可以。我觉得大家对数据或者文学感兴趣都可以加入,我也可以根据大家加入之后的反馈调整具体课程内容。
Veritas:能不能介绍一下课程的形式?
杜一冰:课堂的形式基本上是讲课、讨论与workshop都有,除了第一和最后一节课之外,每节课都会介绍一个工具和它对应的一类研究课题,课上会有workshop的时间来一起上手这个工具,如果出现了什么问题大家也可以现场解决。课堂讨论主要是基于阅读作业引申的问题,包括某个前人的研究用的方法有什么局限性、有哪些你觉得非常精彩的实验设计。
Veritas:对参与者有什么期待?
杜一冰:我希望大家通过分析别人的研究、掌握这些工具,以后可以自己做好玩的小项目、小研究。学文科的同学没有必要觉得计算机挺复杂的,与我们没有那么相关所以避而不用。你是可以通过这个课学到一些小工具,甚至解锁了更多的兴趣。对计算机统计感兴趣的同学可以通过这个机会看到文学中还有那么多悬而未决的问题,大家可以一起来探究。
具体的收获来讲,一个是大家可能会熟悉怎样使用基本的编程工具,不是说教会大家写码,但可以让大家熟悉这个编程环境,以后想学计算机或者单纯想用这些工具做有趣的小项目的同学可以打下坚实的基础。比如学完词嵌入这节课,大家就可以自己选择一系列想批量分析的文本,不管是过去二十年流行音乐歌词或者维基百科词条放到一块,训练出来一个词嵌入模型,去了解这个文本里面词与词之间内在的关联。
Veritas:最后用一句话形容你心中的博雅教育吧~
杜一冰:博雅教育就是去关注一些和自己此时此刻的生活需求不一定有关联的东西。
课程信息
- 2020年5月17日起,北京时间每周日上午10:30-12:30上课,共八次课
- 上课及讨论语言为中文,阅读材料是英文
参与及报名信息
参与要求
- 须确保能够在上课时间在线出席课程
- 须确保每次课程前均在课下认真完成相关阅读及作业
收费及押金政策
- 唯理中国为非营利组织,收取课费为负担运营成本及支付讲师课费。本课程收费¥199元。
- 为确保学有所得,本课程收取押金¥200元。学生出席全部课程并完成课前作业,押金将全额退还。
- 课程及作业各设一次告假机会。缺席或欠完成作业超过一次,押金将不予退还。
报名方式
- 北京时间5月10日 23:59前访问唯理中国网站veritaschina.org完成在线报名问卷,或点击推送底部“阅读原文”
- 参与人数上限为20人,将根据报名先后顺序邀请报名者参加,欲报从速
图片来源及相关资料
https://www.irishnews.com/lifestyle/2018/10/16/news/back-to-hogwarts-with-belfast-harry-potter-movie-marathon-1457226/
https://www.abzas.net/2019/05/%C9%99sl-robinzon-kruzo-kim-idi-v%C9%99-indi-onun-adasinin-v%C9%99ziyy%C9%99ti-nec%C9%99di/robinzon-kruzo/
https://www.edx.org/course/introduction-to-digital-humanities
http://abigailjoffe.org/digital-humanities/digital-humanities-whats/
https://www.chronicle.com/article/HackingYacking-About/141311
唯理对谈播客
唯理对谈是由唯理中国创制的线上播客节目。我们邀请来自不同学术领域的嘉宾,以严谨而又不失轻松的视角讨论政治、经济、历史等方面的议题。
链接:https://www.veritaschina.org/podcast.html
唯理通讯
唯理通讯是唯理中国创办的新闻通讯。通讯定期通过邮箱发布精选自中文互联网的深度文章,内容有关公众关心的社会议题和时事,同时附以唯理中国的项目动态。
链接:https://www.veritaschina.org/newsletter.html
有关课程详情和报名信息等更多内容
请点击“阅读原文”