其他

刘青峰 || 为什么及怎么样建立“中国近现代思想史研究专业数据库(1830-1930)”

2017-09-12 劉青峰 国际汉学研究与数据库建设

:此文为刘青峰教授《观念史研究与数据库的建立和应用》一文的第一部分。其它两部分则以“以含关键词例句为中心的观念史研究”和“引入数据库方法对人文研究的意义”为题分别在同一期内刊发。


作者信息

青峰,香港中文大学中国文化研究名誉研究员;香港中文大学中国文化研究所《二十一世纪》双月刊创刊编辑、前主编。

引语

自1997年起,十多年來在一系列研究計畫資助下,金觀濤教授和我建立並利用 「中國近現代思想史研究專業數據庫(1830-1930)」(以下簡稱本數據庫),研究了約十組中國現代重要觀念變遷。本文結合我們建立及應用研究型數據庫作觀念史研究的過程及體驗,談談在這種人機互動的研究中,人文學者和電腦各自發揮什麼作用。文章分三部分,第一部分介紹建庫和研究的互動過程;第二部分結合本數據庫功能,介紹我們提出的「以含關鍵詞例句為中心」的觀念史研究方法;第三部分,簡單談談數據庫方法主要特點及其對人文研究的意義。


第一階段:嘗試


創建本數據庫經歷了一個摸索過程。1997年開始的第一個研究計畫英文標題是:  A Quantitative Study of the Formation of Certain Modern Chinese Political Concepts (CUHK4001/97H)。我們與復旦大學歷史系章清教授組成十餘人研究小組,選取了新文化運動時期最具代表性的思想流派、團體或政黨的12種期刊雜誌,包括《新青年》、《少年中國》、《新潮》、《每周評論》、《建設》、《努力周報》、《嚮導》、《解放與改造》、《醒獅周報》、《甲寅》、《現代評論》、《星期評論》作為研究對象。[1]我們要求每位研究者按統一規格,對其負責期刊中的每篇文章填寫一張含有24項規範性意義分析的大表格,然後綜合起來看當時的思想圖景。這項持續兩年的研究,令我們獲得不少經驗和成果,但也意識到兩個突出的問題:第一,中國現代重要政治觀念在新文化運動中基本已定型,如要研究這些現代政治觀念的起源和演變,就必須把時段大大提前;第二,即使是依靠歷史專業的個別研究者、分別閱讀文本,他們的研究也必然會出現相當大的個體主觀性和差異性。


為了使觀念史研究有更可靠的基礎,我們認識到如果要追蹤那些表達現代政治觀念的關鍵詞在中文使用中的起源、發展和定型過程,就必須以全文錄入的歷史文獻電子文本作為分析對象,於是決定建立電腦數據庫,由我擔任主編。


第二階段:建庫與研究之間的互動


2001年建庫時,針對研究目標,在浩如煙海的近代文獻中,應該選擇什麼時段、哪些文獻呢?選擇文獻在時段上爭議不大。眾所周知,在1830至1930的一百年間,中國發生了兩次鴉片戰爭、太平天國、洋務運動、甲午戰爭、戊戌變法、庚子事變、清末新政、辛亥革命、五四新文化運動,基本上完成了傳統政治觀念向現代形態的轉型。但在選擇何種語種、何類性質的文獻上,一開始就會遇到相當大的糾葛。


首先,中國現代思想的形成不是中華文化原生、自發的過程,它涉及到在近代東西方文明碰撞過程中,中國人如何在傳統文化框架中去了解、發現、接受並消化西方現代觀念,進而演變為中國的現代觀念。其次,還涉及到中國、日本、韓國三個使用漢字國家間的複雜、糾纏不清的現代觀念的傳播和互相影響。那麼,是否要選擇西文、日籍和韓籍文獻就成為首先要思考的問題。我們認為,雖然中外學者在相關領域已經做出大量重要研究,但是,至今對中文語境中如何了解、傳播、接受並消化西方現代觀念,尚缺乏準確的實證研究和定位。因此,我們把目標先限定在研究中文文獻中現代觀念的引進和演變,有了這一基礎才能更好地研究不同國家間的傳播和相互影響。


限定了中文語種之後,文獻選擇的第二個問題,是選取反映官方、士大夫、來華外國人等以菁英觀念為主的文獻?還是反映傳播及普及、影響民眾觀念變化的地方小報、文藝(包括文學和戲劇等表演藝術)和教科書等文獻?各自比例占多少?我們認為,早期主要是由菁英階層引入西方現代觀念的,只有先研究清楚這一部分文獻,才有助研究這些現代觀念在中文世界與受眾的互動過程。這樣,本數據庫所收文獻是限定於以下六類側重政治、思想和文化類的中文文獻:報刊、檔案、文編、士大夫論著、來華西人傳教士的中文著述和期刊,以及傳播新學教科書。[2]


與西方現代思想轉型經歷了長達數百年、涉及多語種的互動過程相比,中國這樣一個有兩千年帝制結構的大國,在1830至1930短短一百年中,完成了由傳統向現代的鉅變,在人類歷史上是絕無僅有的。在這一百年中,中國的政治觀念就基本完成了以下兩種轉變:一是從內容上由傳統觀念向現代的轉化;二是表述形態上從文言文向現代漢語的轉型。因此,我們建立數據庫在文獻選擇方面具有語種單純 (中文),時段集中(百年左右)的優勢,這對研究者來說是很幸運的。


我們在決定文獻選擇方面一開始就可以有較明確的想法,但在數據庫功能設計方面,就顯得相當保守了。首次與IT工程師討論系統設計時,他們很誇張地說:你們可以根據研究需要,放膽設想需要電腦做什麼事;只有你們想不到的問題,沒有我們解決不了的問題。[3]事實上,我們在功能設計上能提出來的想法並不多,對總字數的要求,是以五千萬字左右為限。


在本數據庫收錄約兩、三千萬字文獻時,我們就開始利用數據庫作研究、發表論文。同時,不斷要求電腦工程師根據研究需要去改進、增加系統的功能。2003年初,當本數據庫文獻增加到七、八千萬字、增加了許多功能後,查詢速度和文獻導入都出現很大問題。這時,我們才體會到,電腦工程師一開始說的誇張之語,是希望在他們設計之初,就可以為系統預留下更多可以延展的功能。重新設計系統後[4],本數據庫具有了人文研究者所需的一些基本功能。[5]到2006年前後,與研究經費的分階段投入相對應,本數據庫經歷了三次文獻量的擴充:從三千萬字左右,到七、八千萬字,再到目前的一億兩千萬字。這裡,我要特別強調本數據庫不是一般意義上的「資料庫」,特別之處正在於它是一個具有特定專業內容和輔助研究功能的研究型數據庫。


第三階段:在具體研究中使用數位方法


2008年我們出版了《觀念史研究:中國現代重要政治術語的形成》一書,標誌著前兩階段的完成。2008年暑期我們來到臺灣後,開始推動香港中文大學與政治大學合作接手本數據庫的完善工作,[6] 2009年又在政大建立「中國現代認同的形成」研究群。參與研究群的師生大致每兩周活動一次,集體討論並分享研究進展。在香港中文大學時,限於人力我們沒有能力去處理一些重要的,但使用次數過於龐大的 關鍵詞,如「主義」多達50,000多條,「中國」一詞的使用更高達近200,000次,這就很難如我們以往那樣由個別研究者去逐條分析了。這時我們意識到只有與IT工程師合作,應用數據庫功能中沒有的其他電腦技術才能打開研究新局面。


一位選擇分析「中國」一詞的博士研究生,放棄了逐條判讀含「中國」一詞的意義,提出了考察在哪些領域、又是如何使用「中國」一詞的「關鍵詞叢」設想; 並嘗試尋找和利用現成應用軟體快速生成不同領域的「關鍵詞叢」,取得了較好的成果。又如,另一位碩士研究生與工程師合作分析了 5萬多條「主義」,確定出本數據庫中1898年至1930年代文獻一共使用了1680種不同的主義。他們的嘗試表明,在人文研究中有一類題目如果不使用數位方法,是不可能取得有效結果的。也只有到第三階段,才可以說是把數位方法運用到人文研究中去了。


下面,結合本數據庫功能,談談我們由此總結出來的觀念史研究方法,並說明在研究中人文研究者和數據庫各自發揮的作用。


注釋

1.參與並承擔五四期刊研究的人員如下,旦大學歷史系師生:張謙《甲寅》、孫青《新潮》、唐雲松 《每周評論》、汪乾明《嚮導》、章紅《建設》、黎建軍《星期評論》和《民國日報覺悟副刊》、金燕《少年中國》、趙文斌《努力周報》、孫青和曲偉《現代評論》、楚永全《解放與改造》、苑學武《醒獅》;香港中文大學:戚立煌和吳嘉儀《新青年》。


2.本數據庫所收文獻,詳見金觀濤、劉青峰(2008 : 463):附錄一〈中國近現代思想史專業數據庫( 1830-1930)文獻目錄〉;選文獻初期曾諮詢復旦大學朱維錚教授、姜義華教授。此後,吳通福博士、魚宏亮博士先後負責入庫文獻工作。


3.北京工業大學孟大志教授和他的學生張丙奇先生、陸薇小姐承擔了第一期編程工作。


4.2003年後,由黃勇先生擔任本數據庫總設計師。


5.本數據的基本功能如下:1、快速生成按年代使用次數排序之關鍵詞數量統計圖表;2、快速給出文獻中所有作者使用,或各篇文獻使用該關鍵詞的次數排序統計表;3、按每年文字總量的不同,自動給出一個係數求出該詞每年使用的平均值,消除由於各年總字數不等帶來的偏差;4、可用or或and 兩種方式考察兩個關鍵詞的關係;5、在研究者做出關鍵詞的不同意義類型,以及作者在使用該詞時的主觀評價(o;+;—)的標識後,自動生成按年代對該詞的不同意義及評價之分類統計句庫;6、針對中文特有的嵌詞現象:例如,「人民主張」短語中 ,嵌入了「民主」一詞,並不是研究者找尋的關鍵詞;可以當作「噪音詞」處理,不列入檢索和統計;7、此外,本數據庫還設定了如下功能,如筆名管理、文獻瀏覽及原文圖像對照,查找大段相近文字的模糊檢索等等。


6.本數據作為若干研究計畫的副產品,受到經費和人力的限制,需要兩校的再投入才能完善及解決遺留問題。目前,兩校已正式合作從事這項工作,相信在不久的將來可以為感興趣的研究者服務。


文章出处: 劉青峰,《觀念史研究與數據庫的建立和應用》,見項潔主編《数位人文研究的新视野:基礎與想像》,臺大出版中心,2011年,“數位人文研究叢書”(3)


编者按:“思想史/概念史研究法的数位转向”的学术进路


零壹Lab早前有幸获得金观涛老师授权,转发了由其撰写的《数位人文研究的理论基础》一文,并请金老师团队的邱伟云撰写了专题荐文,获得很多读者的关注。金老师原文发表于台湾大学项洁教授主编的“数位人文研究丛书”之《数位人文研究与技艺》(2014年)。此次“数字再发表”,让不少没有办法看到原书的同好们得以一饱眼福。

 

意犹未尽,自然必有回响。零壹Lab再次蒙金观涛、刘青峰两位老师授权,将连续三期发表一组由两位教授及其团队主持的、基于“中国近代思想史研究专业数据库(1830-1930)”的数字人文研究论文,以期能向各位读者系统地介绍金、刘老师团队的学术研究成果,为各位DHer提供经验和参考,以示明路。

 

如邱伟云博士荐文所云:

 

金观涛与刘青峰两位先生自1997年开始即在香港政府与香港中文大学资助下,设计与推动建置一个得以研究思想史/概念史的大型研究数据库,名为“中国近代思想史专业数据库(1830-1930)”(以下简称“数据库”)。此一数据库包含文献时间点横跨1830-1930年,即全球知名历史学家张灏先生所言中国近代思想的转型期。数据库中收集了一百年间重要的政治思想文献,包含清末民初近代期刊、晚清档案资料、清季经世文编、清末民初士大夫著述、晚清来华外人中文着译、西学教科书等六大类文献,可以说是研究中国近代政治思想史/概念史最佳的数据库,因为相较目前可见的大型报刊资料库仅收集期刊,数据库包含着更多不同类型的政治思想著作,具有其独特性。金、刘两位先生即运用此数据库,进行了中国近代观念史相关研究十余年,陆续发表了诸多重要论文,最后集合成《观念史研究》一书,2008年由香港中文大学出版社出版。而在2008年后,金观涛先生自香港中文大学退休,转任台湾政治大学讲座教授,适逢当时台湾大学项洁教授开始在台湾推动数位人文研究,金刘两位先生即在台湾政治大学带领着横跨文学、历史、哲学、资科、统计等跨领域学人,持续推进思想史/概念史研究法的数位转向工作,自2010年开始至今连续七年在台湾大学所举办的七届数位人文会议中都提出了研究论文,一方面推进了Text Mining技术的人文转向,一方面也推动了思想史/概念史的数位转向,相关成果可参见由台湾大学出版中心所编的“数位人文研究丛书”(共六册)。


 (《数字人文研究推介”:思想史/概念史研究法的数位转向(DigitalTurn)》

 

“思想史/概念史研究法的数位转向”专题本次三篇文章(见下)将分为三期,每期三篇发表:

 

- 劉青峰,《觀念史研究與數據庫的建立和應用》,見項潔主編《数位人文研究的新视野:基礎與想像》,臺大出版中心,2011年,“數位人文研究叢書”(3)。

 

- 金觀濤、邱偉雲、劉昭麟,《“共現”詞頻分析及其運用——以“華人”觀念起源為例》,見項潔主編《數位人文要義:尋找類型與軌跡》,臺大出版中心,2012年,“數位人文研究叢書”(4)。

 

- 金觀濤、劉青峰、邱偉雲,《新青年》的數位人文研究,見《思想史》(5),2015年。


来源:公众号“零壹LAB”

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存