- 唐宋歷史評論(第3輯)
- 包偉民 劉后濱主編
- 10436字
- 2025-04-07 16:29:34
唐宋史研究中的數字化語文學
魏希德 撰 徐力恒 譯
在過去的五年左右,研究中國史的學者和研究其他地區的歷史學者一樣,意識到數字史學并非只是把文本變成量化資料,或只是把這類資料整合起來。[1]不少人發現,歷史學者利用數字化語文學(digital philology)的方法可以輔助并豐富他們在研究文本和物質文化中使用的分析方法和詮釋策略。在這篇短文里,我將概括討論我接觸到的一些用于唐宋文獻的數字化研究方法,并討論我如何將之整合到唐宋政治史和思想史的研究之中。
一 從獨立的數據庫到數據的關聯
大部分歷史學者已經接觸數字化技術十到二十年了。除了最容易聯想到的用計算機打字以外,還有為了搜集資料進行簡單的檢索。此外,很多學者已經在使用一些常見的辦公軟件,用來創建表格、統計表、數據庫等。這些做法逐漸在輔助或已然取代了過去的讀書筆記和卡片。我自己探索數字人文(digital humanities)這個新領域的歷程是這樣開始的——2007年,我嘗試探討“中國歷代人物傳記資料庫”(CBDB)的資料和數據結構可以為研究南宋(尤其是12世紀)的書信網絡帶來什么樣的資源。我在那一年的“中古中國的群體傳記學:對中國歷代傳記資料庫的利用”(Prosopography of Middle Period China:Using The Chinese Biographical Database)工作坊[2]提交了一份報告,認定CBDB不適合用來研究書信網絡,因為它的相關資料還遠遠不夠。我同時指出它應該進一步擴充,收錄更多現成的工具書,并容納更個性化的小規模資料。在這種探索和研讀數據庫開發工作的相關文獻的過程中,我越發意識到把我本人搜集的文獻和閱讀筆記跟CBDB結合,能起到很大的作用。
我在這方面的嘗試,源于我對宋人筆記的編纂和刊刻的社會文化史研究。這是我對宋朝時政和歷史類文獻(例如邸報、會要、地圖、奏議等)的接受史進行考察的一部分。我首先編了一個表格,錄入目前所見宋代刊刻筆記的所有版本信息。[3]我把這個表格變成一份統計表,其中欄目包括作者、筆記原題、編纂時間、刊刻時間、刊刻者、贊助者(如果有的話)、刊刻地點、目前收藏地點(如果該筆記流傳至今)和這條信息的出處。有了這些信息,再把它們連到CBDB不斷增加的人物傳記資料,我得以對很多宋人筆記的作者及其生平進行社會背景和地理的分析。我也可以借助哈佛大學地理分析中心的貝明遠(Lex Berman)及其同事管理的“中國歷史地理信息系統”(CHGIS),運用其提供的地理坐標來畫地圖,呈現多部宋人筆記的序文和各書目材料中提到的地名。根據宋代刊刻筆記的社會情況,我在一篇論文中指出,從這些數據中,我們可以看到高層官員對筆記的編寫和刊刻仍有重要作用,但他們扮演的角色不再像過去那樣占據主導地位。[4]而這些筆記的主要內容卻沒變,仍是關于朝廷政治。因此,我所看到的情況和張暉等學者的觀察不同——他們認為筆記的作者逐漸變得不再是高官,其中包括了更多地方士人,其中有的人甚至沒有官位。[5]
在把自己搜集的數據跟其他數據庫連接起來之后,我繼續擴展這種研究方法,開始處理筆記的電子全文。把數據連接到這些全文,可以讓我在研讀筆記的過程中看到更豐富的信息。我也因而發現,要分析王明清《揮麈錄》的信息網絡,最好是利用筆記的文本建一個數據庫。王明清經常在這部書里提到他跟誰有過對話、他的消息來自何人、他讀到的書作者是誰,還有他拜訪了哪些藏書家,等等。我對全書的電子版做了標注,對書中的每條消息來自何人,關于什么話題,或關于什么文獻,都一一做記錄。當我這樣做的時候,我還在標注里為筆記提到的每個人加上CBDB的人名編號,然后把電子文本連到CBDB。這樣就可以從CBDB導出上百條在《揮麈錄》提到的人物的年代、籍貫、仕途等信息。盡管我有時候要為其增補一些額外信息,或糾正其中的一些資料(類似做法往往是必要的),但CBDB的好處在于,它收錄了昌彼得、王德毅等編的《宋人傳記資料索引》[6]和李之亮編的《宋代京朝官通考》[7]等參考資料,而這些資料可以幫助我們重現王明清的信息網絡,并分析其社會、地理面向。[8]
這項研究是我的新書《信息、疆域、網絡:宋帝國的危機和維系》(Information,Territory,and Networks:The Crisis and Maintenance of Empire in Song China)第二部分包含的內容。我在書中提出,中國政治體生成并散布信息的方式在宋代發生了結構性的轉變。本來,各種體裁的文獻,如疆域圖、會要、邸報、軍事地理書等都由中央官員編纂,并由同一批人使用、參考。不過,到了12世紀,閱讀和評論這些文獻的人是來自宋帝國在各處居住的各種文化精英。我在制度變化、法律史、文化生產等方面分析朝堂和士人之間在政治溝通上的變化。我系統地分析了筆記和其他文獻中記載士人閱讀各種材料的做法,并在此基礎上提出士人生成文本數量的大規模上升顯示兩種特點,對其后的中國歷史在大規模帝國的形成和維系有重要作用。首先,士人在他們對中國整體的討論中普遍表達出一種帝國觀,一種對理想中中華共同體的愿望。其次,這些文本在規模頗大的圈子中流傳和被人討論,涉及的人數眾多,背景多元,分布廣。正是利用了數字化手段,使我得以看到官方文書的接受和士人網絡呈現何種具體情況。
然后我進一步拓展這種嘗試,和徐力恒、陳韻如、李允中、尤紫錫等研究生選讀了更多筆記。我們的原始數據可以在我為這部書架設的網站上下載。[9]在何浩洋博士的協助下,我也把這些文本和數據建成一個在線平臺,為筆記中的信息網絡提供互動的可視化功能(見圖1)。讀者可以據此驗證我書中的論點,也可以對數據和文本進行其他分析,比如可以:
·畫出熱點圖(heat maps)和群集圖(cluster maps)呈現信息來源人的籍貫和為官地點等
·比較不同筆記提到的人的時代分布
·查閱信息來源人是否有為官經歷,以分析他們的背景
·查閱不同信息來源人和其他人物在筆記中出現的次數
·查閱這些人在哪些筆記段落中出現,并查閱原文

圖1 為特定宋人筆記建立的互動分析平臺
當前界面為“地圖視圖”,顯示信息來源人的籍貫。最下面的工具欄除“地圖視圖”外,包括“全文視圖”、“表格視圖”、“柱形圖”和“餅圖”等選項。
在探討筆記中提到的社會關系時,我對筆記這一類文獻和它在宋代的變化有了新的認識。這種語境化的閱讀方式,連帶其他種類的數字化閱讀方式(例如我書中第8章對不同版本進行比對的語料庫語言學分析[corpus linguistic analysis]),改變了我原來細讀這些文獻時得到的認識。這些方法使我能夠重新檢討王明清等人在筆記中如何表達他對當時宋金關系的獨特見解,并將之放到當時士人普遍看法的脈絡中。學者進行這種脈絡化的工作,總是很有挑戰性的。
二 大規模的文本挖掘
我最初探索數字化研究方法時,以大規模和中等規模的史料挖掘的做法為主。我當時集中研究了特定文本(例如一位作者編纂的一系列筆記)或少數幾個作者的特定著作。不過,數字化研究方法其實可以讓我們做更多元化的工作。對我來說,數字化閱讀能為我們實現一些獨特功能——它允許學者的眼光在不同規模之間切換,可以時大時小。其實,學者已經習慣對藝術品和文物采取這種方法,他們有時放眼在其中的細部,有時同時研究一大批物件。[10]而我們對文字材料也可以做同樣的事情。數據審編(digital curation,又譯數據管理)的做法讓我們得以擴大或縮小研究的規模,不過我們目前還沒找到最妥善地處理數據審編的方式。
對歷史學者來講,只要想到涉及一個人群、一個廣闊的地域,或各個世紀的長時段,規模的重要性很明顯。我會從目前進行中的研究計劃中舉出兩個例子,解釋數字化研究方法如何讓我們進行大規模的研究。第一個例子和政治史有關,[11]第二個則和城市史和科技史相關。
宋代政治史和思想史的研究者長期以來熱烈討論11~13世紀的大規模黨爭。對這個關鍵問題的大部分研究著作要么集中分析編年史料對這些事件的刻畫,要么集中在一些人物之上(有時候是重要人物,也有時候是比較邊緣的人物,例如黃寬重先生近來重點研究的孫應時)。利用這些角度研究黨爭問題,不容易理解集體人群是怎么聚合起來變成政治聯盟的。每個士人在生涯中的不同階段都參與到人脈的建立和維系。不論是準備科舉考試和應考的時候需要這樣做,尋求官職和遷轉,甚至是投身其他事業,都需要這樣做。既然這種活動對于士人的仕途來講是必需的,而且是種普遍現象,那么歷史學者自然不只需要了解中央朝廷中的黨爭,也需要知道地方上的情況如何。我認為,要研究黨爭如何滲透到地方上去,必須將現存的相關史料一網打盡。因此,在一些博士后和博士生的協助下,我開始分析不同黨籍人士的相關著作中同時提到過哪些人名,看看這能如何幫助我們研究這個問題。通過分析12世紀的三個關鍵時刻,我們希望探討黨爭在宋代的社會和文化演變中發生了什么變遷這個問題。
在一次實驗中,我們整理了《元祐黨籍碑》(12世紀前十年)、秦檜(1090~1155)迫害的人員名單(12世紀40年代)和慶元黨禁(12世紀90年代)等三個名單中的所有人物,然后搜羅每個時代在世士人的所有傳世文章。[12]然后,我們分析三個名單中的人在這些文章中有哪些是同時出現的。由于坊間已經有大量材料被電子化,所以這種大規模的分析是可以做到的。我們以CBDB的“指數年”(index years)為標準,[13]囊括了1104年、1142年和 1196年這三年前后各三十年的所有宋人文集中的篇章。1104年前后三十年的相關史料包含59969篇作品,包括2231 位作者的23701759字;1142年前后三十年的相關史料包含47040篇作品,包括1139位作者的18780575字;1196年前后三十年的相關史料包含52593篇作品,包括2598位作者的23446605 字。由于電腦對文本進行自動檢測的技術仍有很大局限,這些數據需要經過人工仔細處理,拿掉不相關的資料。
我們據此可以得出三組文集史料都出現的人物究竟有哪些。我們得出這些數據之后,可以用來做什么?其中列出什么作品論及不同黨派的成員,并注明次數是多少。我們能夠以此發現哪些作品是我們過去研究中沒有足夠重視的,應該得到更多注意。通過這些黨爭成員同時出現的關系,我們還可以進行社會網絡分析,考察黨爭成員的網絡重合度為何,有哪些小群體,并且其中有哪些人物占據重要地位,能起到把不同人群連起來的作用。我們可以由此回到一手史料和二手材料,進一步研究這些人物和我們過去忽略的一些小群體。我們也可以進一步考察有哪些因素影響這種同時出現的人,及其中小群體的成員構成,例如籍貫、家庭關系、仕途等。另外,我們希望以后能記錄史料如何呈現不同時期的黨爭成員之間的社會關系,并有什么樣的變化。這項研究仍在進行之中,但初步結果顯示幾個群體在黨派結構上相當不同——元祐黨人名單是小群體的松散結合,慶元黨禁則是緊密地和一個核心人群連在一起的,而秦檜迫害的人員之間的關系則不明顯。這顯示社會網絡分析可以用來展示社會關系有什么影響,也可以用來反映社會關系的缺席有哪些影響。我們也打算借助中國歷史的大型群體傳記數據庫和文本數據庫,推進目前分析歷史上社會網絡的做法,尤其是發展取樣(sampling)的方法,用以比較社會網絡中共同出現的人(co-occurrence)和同時代人群的隨機抽樣人群。這項工作顯示,道學群體是一個聯系很緊密的群體,因為當我們利用同樣方法抽樣分析慶元黨人中的一百個人在52593篇作品中共同出現的程度的時候,發現其要遠遠低于道學群體。
這些提取數據的方式對研究很多歷史問題都有幫助。我和我的一位博士生熊慧嵐目前正在研究修筑城墻的長時段歷史。我們利用一系列“正則表達式”(regular expressions)[14],描述地方志和文集中城記、門記等史料一般提到修筑城墻的文字表述,藉此提取數據。據此我們建了一套數據集,涵蓋從宋代到清代修筑城墻的活動記載。這可以讓我們在空間和時間上呈現城墻的修筑活動、維護、堅固程度、工程材料、使用人力、涉及、規模、地點、作用等方面。這種研究方法對其他歷史學者也有用處,例如城市史、軍事史專家在研究城市規劃和軍事科技時就可以利用這樣的數據集,考察修筑城墻和火藥技術發展的關系。[15]
這樣的大型數字化研究計劃可以用于大規模的考察,也可以讓用戶集中考察具體文本中的史料、人物、地點和修筑事件。當然,為了達到這種目標,歷史學者需要面對一些新的挑戰。他們要投入大量時間在數據審編之上。所有數字化計劃都是如此,因為自動化方法不是完美的。另外,歷史學者進行這種大規模分析的時候,可能要調整自己的期待值。我們進行數字化的研究時,需要調整研究的習慣。例如,當進行大規模分析時,可能要忍受試驗和失敗,也可能得容忍一定程度的不準確數據和凌亂。而且,這種工作也不可能是單槍匹馬可以完成的。要得到新的認識,就必須得到不同專長的學者合作,一起發展適合人文研究的數字化研究方法和平臺。[16]
三 關于成為開發者
也是因為體會到這一點,引發我主持開發“碼庫思”(MARKUS),一個用于古代漢語文本分析和閱讀的平臺。[17]我過去在申請一個研究政治溝通的項目時,決定聘用一位計算機專業的博士后,以我們對宋代私人著述的標記為基礎,主力開發可視化和分析信息網絡的工具。[18]當這個項目行將結束之時,我可以斷定花這么多時間和資源在數字化研究之上是讓我非常滿意的決定。歷史學者通常會把建立網站、數據庫和電子平臺的工作假手于他人,承包給學校內部或學校以外的開發商。這些開發商通常只能投入有限的時間,而且會利用現成模板來解決他們客戶需要處理的問題。當我和一位全職的博士后、對人文研究感興趣的計算機專家合作時,我終于可以開始處理我研究《揮麈錄》時遇到的問題。這些問題屬于中國數字化研究中的一些關鍵的結構性問題。
第一,正如我在別處指出的那樣,[19]20世紀90年代初以來就有一些大型商業公司建立數據庫,為歷史學者提供中文古籍的全文數據庫。不過,它們沒有在數據發現、可視化和文本分析等方面花太多精力,但這些全部是讓我們能更好地利用電子媒介做研究的工具。這些數據庫提供的檢索功能仍然非常有限,檢索結果的處理也很原始,提供的參考工具也不多,對于檢索結果的文本輸出也有諸多限制,讓人難以接受。當下的研究者往往需要從多個文本庫中搜集和處理材料,但這些數據庫的設計仍然用著作種類、作者、書名、地點(例如對地方志而言)等限定學者的檢索條件。[20]不同數據庫提供各有出入的文獻種類,使得不同數據庫仍在不斷出現,但內容往往存在重復。它們之間沒有相互操作性(interoperability),使得研究者難以從多個數據庫取得它們需要的資料。
第二,那些為了給研究者在處理文本和整理筆記上提供方便的軟件也存在一些限制。當我為了研究政治溝通而試用各種用來標注筆記和書信的方法時,我一開始用過一個為社會科學研究者設計、商業的量化分析軟件,然后也改用人手標記過一些文件。前者包含一些方便的標記和可視化功能,但由于它是商業軟件,所以它和其他數據庫(對我們來說就是CBDB和CHGIS)缺乏相互操作性。另外,由于它沒有完善的輸出功能,所以其他軟件不能讀取和使用它的文件。特定的文件格式也使得分享和可持續性變成問題。這些軟件在處理東亞語言上也有問題,雖然這些問題近來逐漸得到解決。利用一些標準格式(例如簡稱為TEI的文本標碼標準)手動地標記文件可以解決這些問題,但又會帶來其他不足。例如,很多標記步驟是重復進行的,其實可以自動化處理;而且,由于編輯的界面很原始,這種手動標記方法對于研究者來說在視覺上不直觀。
我很慶幸能聘用數字人文專家何浩洋做博士后。我和他首先做的是總結我在標記宋人筆記中采用的方法。在CBDB的基礎上,我們發展出人名、地名、官名和時間信息的自動標記功能。得到這些幫助時,學者可以比使用一般數據庫更完善地發現和分析文本,效率又比手動標記高得多。
我們在開發這個工具的過程中不斷加入新的功能,并把它設計成更貼近歷史學者和人文學者的工作流程。我們加入手動標記的功能,使用戶不只可以修訂、加入標記,還可以更自由地定義標記的類別。我們在這平臺上加入詞典的參考工具,因為它不只是用來標記文本,也是給研究者用來閱讀史料的(見圖2)。我們加入了用于特定語言和領域的詞典時,用戶可以同時看到很多參考文獻中的詞條解釋。系統里也有做筆記的功能,用戶能夠在其中記錄對文本的翻譯、筆記和寫上待辦事項(例如注明以后需要查證的地方)。此外,我們也加入關鍵詞標記的功能,讓研究者可以上傳自己的關鍵詞名單,甚至利用正則表達式、關鍵詞索引(KWIC)或關鍵詞生成器(一個利用詞頻分析關鍵詞出現模式的工具)來分析文本。我們也提供了篩選功能,讓用戶可以利用標記來選取特定段落。

圖2 碼庫思平臺界面
圖中右欄顯示標記選項和參考資料。
此外,我們簡化了提取文本的操作,整合碼庫思和其他數據庫,并利用現成的軟件來簡化為數據進行可視化的過程。在兩年時間之內,我們把碼庫思變成一個關聯的系統。在這個系統里,大量文本的標記和可視化可通過自動化操作。當我們把碼庫思儲存的文件連到Palladio和PLATIN等可視化工具,[21]用戶可以通過我們命名為VISUS的界面導入標記時提取的CBDB人物資料,并以地圖、社會網絡圖、表格、時間軸、餅圖和詞云(word cloud)等形式檢閱那些資料。用戶也可以輸出所有數據,利用專門的空間分析、網絡分析、統計分析等軟件,進行更復雜的分析。為了讓導入文本變得更容易,碼庫思已經連到一些人們常用的開源文本庫,例如德龍(Donald Sturgeon)建立的“中國哲學電子書計劃”(Chinese Text Project)[22]。我們未來還會將碼庫思跟維習安(Christian Wittern)的“漢籍リポジトリ”(Kanripo)[23]連接。
我們在未來會繼續讓碼庫思靈活地在標記、閱讀、探索、分析和做筆記等功能之間切換,更好地貼近研究者的工作流程。我在參與開發時學到很多——在設計這種研究的基礎設施然后付諸實行的過程中,我更好地注意到數字媒介和方法的長處和短處。當人們具有批判性和建設性地參與其開發,為它的改善而努力時,可以使之更好地為人文學科服務。這種經驗也讓我體會到學界和其他界別之間合作的重要性。大部分新加入和未來會加入的功能都來自人文研究者和學生的建議。這些例子包括對社會關系的標記,允許認定不同信息之間存在各種關系;也包括使用數字化手段對文本進行比較,還有利用機器學習提升自動標記的準確率(precision)和召回率(recall)。通過跟國際上的計算機專家(如臺灣大學的項潔和杜協昌)合作,我們也開發出同時標記多個文件的功能。
對歷史研究來說,這種合作其實不是新事物。20世紀初唐宋史研究的前輩們為了他們本身和學界的研究需要,編過不少索引、引得、詞典和其他工具書,為中國歷史研究的發展做出了很大的貢獻。開發數字化工具,其實是這種合作的延伸和提升。如果我們希望我們學術單位的資源能完善地利用資源,就應該更積極地參與這種開發。當然,這種參與同時會帶來一些新挑戰。在學術單位里找到辦法讓數字化服務能夠運營下去,只是數字史學學者面對的眾多挑戰之一。學者也面對迫切的需要,為學生設計課程,確保他們得到充足的訓練,了解人文相關的數字化研究方法、數字媒介的理論和批判,還有反思傳統和數字化語文學的工具。
四 小規模的文本標記
從我個人的經驗來看,投入時間總結一個研究項目采取的數字化研究方法是值得的,尤其當其他學者采用這些方法在研究取得新進展時。[24]對于研究者本身,這也是值得做的事情。在我做完宋人筆記的研究之后,我開始了兩個小型的研究計劃——一個是研究楊萬里的書信,另一個是對《貞觀政要》的研究。前者是一個比較歷史項目的一部分,該項目的目標是通過分別細讀文人、教士的書信,比較他們政治參與的模式和影響。后者是一個集體項目,目標是把《貞觀政要》譯成英文,作為“劍橋政治思想史原著系列”(Cambridge Texts in the History of Political Thought)的新書出版。[25]我們開發碼庫思對這些項目的工作是有幫助的——碼庫思在經過改良之后,更適用于我們處理的問題。這啟發我們繼續進行開發,讓歷史學者能夠做小規模的分析。
為了更好地理解楊萬里的將近500通書信,我決定結合傳統做閱讀筆記的方法和對文本進行多角度的數字化分析。我把所有書信題目和本文里提到的人名都做了標記,還另外加上了書信的時間和地點,以及收信人的官位(從楊萬里的文集的現代整理本和年譜而來)。除了這些元數據(metadata)以外,我還加入了書信的主要話題。我在碼庫思可以把這些我在閱讀書信時做的箋注轉成對所有文本的概覽,并利用地圖、時間軸、社會網絡圖、表格、標記和詞云等,瀏覽時間、地點、收信人、主題、書信里提到的任何地點、收信人的官位等。我可以把這些跟CBDB導出的數據結合起來,既可以宏觀地檢閱所有數據的情況,也可以集中地看某時段、主題或具體的書信內容(我們基于250通書信的樣本分析出來的結果見圖3~圖6)。這樣的工作有部分可以在Excel軟件中完成,但是能把元數據、全文和各種可視化的選項結合,是靈活度高得多的做法。我不斷因為這種新方法而重新檢討我過去在沒有這些工具時細讀史料獲得的印象。從我這里附上的截圖已經可以看到我們得出的一些整體觀察(例如宰執作為收信人的現象非常突出,從吉州發到京城的書信也非常多,等等)。不過,由于這是一項仍在進行的研究,我這里希望說明的只是這種數字化研究方式在方法上和語文學上的優勢,而非結論本身。

圖3 在碼庫思標記楊萬里書信(其中250通作為樣本)之后,利用VISUS導出資料,在Palladio分析其地域和時代分布

圖4 從VISUS導出標記過的楊萬里書信(其中250通作為樣本)之后,Palladio地圖視圖中的分面瀏覽(faceted browsing)界面

圖5 從VISUS導出標記過的楊萬里書信(其中250通作為樣本)之后,Palladio社會網絡視圖中的分面瀏覽界面

圖6 從VISUS導出標記過的楊萬里書信(其中250通作為樣本)之后,生成出官名和地名的詞云
在我們翻譯《貞觀政要》的過程中,我們進行標記的目的不同,主要是為了編輯文本。由于翻譯是集體進行的,我們對整部書進行標記,以進行標準化處理。標記的內容包括官名、地名、人名、書名的各個列表。我們也編制了一個靈活度很高的電子版,讓讀者可以用更多不同方式讀這部書——這么一來,書中段落既可以用時間順序來排列,又可以按它們在不同版本中的次序來排列。
在數字化研究中,很多進展都是研究開始之前無法預料的,往往令人驚喜不斷。這些可能會吸引學者更投入使用數字化語文學的研究方法。在標記王明清《揮麈錄》的信息來源人之后,為了看看該書提到什么人,而且都是哪些人提到的,我把其中出現的所有人名都標記了一遍。通過利用不同方法來衡量這些人物的中間性(centrality),我既可以據此印證我本來的估計(例如蔡京的中間性應該很高),又可以確認文本中不太明顯的一些現象(例如曾布和宋高宗),甚至可以探索重要人物是跟何種主張聯系在一起。關于他們的主張,我們不只可以通過對術語做考察,還可以通過分析群集(clustering),看某些人對其他人物的依附。這些發現可以幫助我們開發新的算法,預測文本包含什么偏見,并幫助歷史學者判斷他們的研究里需要包括哪些史料,并將之放到更廣的思想和政治語境中。
結語
我希望以上內容能夠清晰地說明一點:數字化的研究方法可以用于多種歷史課題的研究,從特定文本的細讀到大批文本的探索和分析,到利用成千上萬篇文字來繪圖,其中包含各種豐富的可能性。數字化的分析未必需要成為量化史學,我們現在借助數字化分析可以寫出多種多樣的歷史著作。我們可以利用數字化分析尋找歷史文本和物件的內在結構和信息,比如我過去第一個歷史地理信息(GIS)方面的研究成果就曾把《歷代地理指掌圖》凡例中的讀法在電子地圖上呈現。[26]我們也可以試試實現社會科學化的史學,例如利用社會網絡分析、取樣、概率方法等研究工具,以測試過去的結論,提出新的問題,突出過去研究中的空白,并提出新的解釋,等等。而且,我們在這過程中可以繼續使用并豐富研究文史的傳統方法,這些方法從近代早期就已經是史學研究的基石。
參考資料
筆者的博客文章:
Collaborative Innovation and the Chinese(Digital)Humanities.University of Nottingham China Policy Institute Blog,June 9,2016,https://blogs.nottingham.ac.uk/chinapolicyinstitute/2016/06/09/collaborative-innovation-and-the-chinese-digital-humanities/.
Isn’t the Sikuquanshu enough?Reflections on the impact of new digital tools for classical Chinese.Communication and Empire:Chinese Empires in Comparative Perspective,Feb.20,2014,http://chinese-empires.eu/blog/isnt-the-siku-quanshu-enough-reflections-on-the-impact-of-new-digital-tools-for-classical-chinese/.
Digital Interpretations.Communication and Empire:Chinese Empires in Comparative Perspective,Feb.5,2014,http://chinese-empires.eu/blog/digital-interpretations/.
訪談:
魏希德:《我學術生涯的關鍵人物和關鍵詞》,澎湃新聞,2017年2月9日,http://www.thepaper.cn/newsDetail_forward_1611403。
魏希德:《如何將數位人文工具Markus用于歷史研究》,澎湃新聞,2017年2月10日,http://www.thepaper.cn/newsDetail_forward_1611410?from=singlemessage&isappinstalled=1。
在線工具:
筆者Information,Territory,and Networks:The Crisis and Maintenance of Empire in Song China一書的網站和相關的可視化工具,2015,http://chinese-empires.eu/reference/information-territory-and-networks/。
播客節目:
“Hilde De Weerdt on MARKUS.” 2016年7月31日,DH East Asia Podcast,http://www.dheastasia.org/2016/07/31/podcast-3-hilde-de-weerdt-on-markus/。
軟件:
碼庫思(MARKUS):A markup,reading,and visualization platform for classical Chinese texts(與何浩洋共同開發),2014,http://dh.chinese-empires.eu/beta/。
碼庫思中文教學視頻:http://dh.chinese-empires.eu/beta/video_zhcn.html。
筆者的演講視頻:
Digital Perspectives on Middle-Period Political History,2016年4月5日,密歇根大學中國研究中心:https://youtu.be/2oxHTEFEa38。
(其他版本,哥德堡:http://media.hum.gu.se/filedb/index.php?cdir=TmpVNU1qZz0%3D&c_hash=62c1644730fcf46086164dc08fdcf5e8和http://media.hum.gu.se/filedb/?cdir=TmpVNU1qYz0%3D&c_hash=41c9fba5f4490c7c0501ac047752a02b。斯坦福:https://vimeo.com/168242706。)
Humanities Tools for Library Resources,2016年4月4日,密歇根大學圖書館:http://leccap.engin.umich.edu/leccap/viewer/r/azO7QY。
《文本標記與歷史研究》,2015年4月29日,臺灣中研院歷史語言研究所:https://www.youtube.com/watch?v=NltG3EjC9_A。
《宋代新資訊結構的形成》,2015年4月27日,臺灣大學中文系:https://www.youtube.com/watch?v=1Xd_mJ9eJHk。
[1] 參見:http://chinese-empires.eu/blog/digital-interpretations/。
[2] 工作坊的內容可參見:http://www.songyuan.org/Warwick.htm。
[3] 網址為:http://chinese-empires.eu/static/media/uploads/database/index.html。
[4] 參看我的“The Production and Circulation of ‘Written Notes’(biji),” in MichelaBussotti and Jean-Pierre Drège eds.,Imprimerautrement:Le livrenon commercialdans la Chine imperial,Geneva:LibrairieDroz,2015,pp.19-47.全文見:https://www.academia.edu/1640813/2015_book_chapter_The_Production_and_Circulation_of_Written_Notes_biji_._In_Imprimer_autrement_Le_livre_non_commercial_dans_la_Chine_imp%C3%A9riale._Ed._Michela_Bussotti_and_Jean-Pierre_Dr%C3%A8ge_pp._19-47._Ecole_pratique_des_hautes_%C3%A9tudes._Geneva_Librairie_Droz_2015。同時可以參看我的Information,Territory,and Networks:The Crisis and Maintenance of Empire in Song China,Cambridge,MA:Harvard University Asia Center,2016,第六章。
[5] 此處提到的是張暉《宋代筆記研究》,華中師范大學出版社,1993。——譯者注
[6] 昌彼得、王德毅等編《宋人傳記資料索引》,鼎文書局,1974~1976。
[7] 李之亮編《宋代京朝官通考》,巴蜀書社,2003。
[8] CBDB的資料來源可以參看:http://projects.iq.harvard.edu/cbdb/cbdb-sources。這些參考資料當然不會全無缺漏,但它們都是相對重要的。
[9] 網址為:http://chinese-empires.eu/reference/information-territory-and-networks/。
[10] 例如Florian Kr?utli開發的工具,網址為:http://www.kraeutli.com/index.php/2016/04/08/timeline-tools/。
[11] 參看我在萊頓大學的就職演講,全文見:http://media.leidenuniv.nl/legacy/oratie-de-weerdt-eng.pdf。中文翻譯見魏希德《重塑中國政治史》,《漢學研究通訊》2015年第2期,第1~9頁。
[12] Hilde De Weerdt,Chu Ming-Kin and Ho Hou-Ieong,“Chinese Empires in Comparative Perspective:A Digital Approach,” Verge:Studies in Global Asias,Vol.2,No.2(Fall 2016),pp.58-69。全文見:http://www.jstor.org/stable/10.5749/vergstudglobasia.2.2.0058。
[13] “指數年”是CBDB推算歷史人物年代的指標,標準參見http://projects.iq.harvard.edu/files/cbdb/files/131009_rules_for_index_years.xls?m=1438184906?!g者注
[14] 正則表達式可以幫助我們從全文數據中提取具有特殊寫法的信息。比如中文史料中常見的日期多以年號開始,后接年、月、日,學者編寫正則表達式時就可以按此格式,把一批文本中的日期信息全部抽取出來。——譯者注
[15] 例如Tonio Andrade,The Gunpowder Age:China,Military Innovation,and the Rise of the West,900-1900,Princeton:Princeton University Press,2016。
[16] 關于合作方面的問題,參看我在這篇博客文章的討論:https://cpianalysis.org/2016/06/09/collaborative-innovation-and-the-chinese-digital-humanities/。
[17] 網址為:http://dh.chinese-empires.eu/beta/。
[18] 項目網站的網址為:http://chinese-empires.eu/。
[19] 我曾在以下演講更詳盡地討論這一點。參見:http://leccap.engin.umich.edu/leccap/viewer/r/azO7QY。
[20] 相關討論參見:http://chinese-empires.eu/blog/isnt-the-siku-quanshu-enough-reflections-on-the-impact-of-new-digital-tools-for-classical-chinese/。
[21] Palladio的網址為http://hdlab.stanford.edu/palladio/。PLATIN的網址為https://github.com/skruse/PLATIN。
[22] 網址為http://ctext.org/。
[23] 網址為https://www.kanripo.org/。
[24] 一些文章提供了例子,參見http://dh.chinese-empires.eu/forum/category/8/research-blogs。
[25] 參看http://admin.cambridge.org/academic/subjects/philosophy/philosophy-texts/series/cambridge-texts-history-political-thought。
[26] 參見:https://ora.ox.ac.uk/objects/uuid:c0c281cd-4c2d-46ea-94b0-f7758cf0c3e6。