官术网_书友最值得收藏!

二 唐代詩人社交信息抽取及表示

(一)詩人社交關系抽取

本文以《全唐詩》收錄的900卷共計48900首唐詩為主要研究文本。在前期的詩作調研中發現,反映詩人互動交往的詩歌主要有兩種形式:其一,詩題中出現交往對象的姓名、字號或別稱,涉及友情贈答、尋訪聚會、悼亡思念、奉酬應制、拜謁求進等多類主題;其二,詩歌由兩名或多名詩人在宴集時共同創作,稱為“聯句詩”[1],詩文中相應詩句末尾會注上作者姓名,如這首由李崿、顏真卿、皎然創作的《五言重送橫飛聯句》:

春田草未齊,春水滿長溪。(李崿)

出餞風初暖,攀光日漸西。(顏真卿)

歸期江上遠,別思月中迷。(皎然)

基于以上交游詩的形式特征,我們通過以下步驟進行詩人社交關系的提取。

步驟1.詩作預篩選。排除《全唐詩》中作者不詳、與主題不相關的詩作共計4873首[2]

步驟2.構建唐代詩人信息庫。從中文維基百科、百度百科中抓取詩人頁面,2143名作者中共有1616位抓取到至少一種百科頁面;利用網頁解析工具和正則表達式從頁面中提取字、號、別稱、官名、生卒年等信息,經去重和人工審核確認后加入信息庫,共計挖掘字、號、別稱信息983條,生卒年信息881條。以下為詩人李白的信息示例:

字:太白;號:青蓮居士、謫仙人;別稱:李太白、李十二、李翰林、李供奉、李拾遺;生年:701年;卒年:762年。

步驟3.詩人信息直接匹配。利用詩人姓名和步驟2挖掘到的字、號、別稱信息,對詩題和詩文進行精確匹配,獲取到可信度較高的2691首候選交游詩作。

步驟4.詩人信息間接匹配。考慮到詩題中的交往對象名稱有諸多變體和組合形式,如《在兗州餞宋五之問》(宋之問)、《和姚令公從幸溫湯喜雪》(姚崇)等,且名氣較小的詩人存在百科信息缺漏或不足的情況,我們對交游詩進行了進一步挖掘:(1)雙字名匹配,如果詩人名為雙字,如“宋之問”,則提取“之問”加入匹配列表;(2)利用“姓.*官職名”[3]、“姓.*名”等正則表達式進行模糊匹配。該步驟共獲取候選交游詩5925首。

步驟5.對步驟3、4獲取的候選詩作進行篩選、校對和補充。(1)通過生卒年信息進行初步篩選:凡作者和交往對象在世時間無交集則作排除;如作者或交往對象卒年早于618年或生年晚于907年則作排除;(2)人工審核候選詩作,注重篩查詩人重名、重字號信息;(3)參考各種詩人別集的今人注本、唐詩人名考證研究(陶敏、2006)、詩人交游信息庫(羅鳳珠等,2014)等現有研究成果,對交游對象進行確認和補充。該步驟最終獲取反映唐代詩人交往的詩作4658首,涉及詩人961位、社交關系1972對。此外,在匹配中發現,大量交游詩的對象不屬于《全唐詩》作者,換言之,無法體現詩人之間的交往情況,因此,本研究只對《全唐詩》作者之間的詩歌交往情況進行分析,特此說明。

(二)詩人社交網絡構建

得到交游詩作數據后,我們試圖對以下幾個問題展開探討:從詩人角度來說,如何衡量其社交活躍程度,唐代核心社交人物有哪些?從詩人群體角度來說,基于社交關系是否可以進一步探測出社交圈?從唐詩本身來說,交游活動是否會對詩人的創作思想及內容產生影響?為了回答上述問題,需要對社交關系數據做進一步分析處理,并結合社交網絡圖進行討論。

我們首先對每對社交人物間的交往頻次進行了統計,發現約67%的社交關系對只有一次詩歌往來,而往來頻次最高的皮日休和陸龜蒙之間則存有337首交游詩作。為了衡量詩人的社交活躍程度,我們從三個維度對其社交狀況進行考察:第一,交往總人數;第二,交往總頻次;第三,PageRank權值。其中,PageRank權值借用了搜索引擎網頁排序的原理,當一個人物在社交中被越多人物鏈接時,其權重越高(Brin & Page,1998)。我們采用Gephi提供的PageRank統計工具[4]進行權值計算,概率(p)設為0.85,誤差(Epsilon)設為0.001,并將兩位詩人之間的交往頻次設為鏈接權重。三個維度下排名最高的15位詩人如下:

·交往人數:白居易(63)、張說(63)、韓愈(47)、劉禹錫(45)、姚合(44)、賈島(44)、貫休(39)、元稹(36)、皎然(35)、劉長卿(35)、杜甫(32)、韋應物(32)、張籍(31)、武元衡(31)、錢起(31)

·交往頻次:白居易(783)、劉禹錫(452)、元稹(408)、皮日休(384)、陸龜蒙(381)、韓愈(162)、皎然(153)、姚合(139)、裴度(136)、張籍(134)、張說(133)、杜甫(130)、賈島(127)、王維(127)、令狐楚(100)

·PageRank:白居易(0.0361)、張說(0.0215)、劉禹錫(0.0204)、元稹(0.0183)、皎然(0.0126)、韓愈(0.0114)、杜甫(0.0114)、王維(0.0105)、姚合(0.0099)、賈島(0.0096)、皮日休(0.0086)、陸龜蒙(0.0085)、貫休(0.0083)、張籍(0.0083)、李白(0.0077)

從以上數據可以看出,在社交相對活躍的人物中,白居易、劉禹錫、元稹、張說、皎然、韓愈、杜甫、賈島、姚合等人,無論是在交往的廣度還是交流的頻繁程度上都堪稱全唐最為活躍的詩人,而前文提到的陸龜蒙、皮日休雖然唱和詩作甚多,但交往對象較這些社交核心人物而言則相對單一。

基于上述權值,我們采用XML格式文件表示唐代詩人的社交網絡,如下例所示,每個詩人為唯一節點(node),具有ID、姓名、交往人數、交往頻次、PageRank權值五項屬性,詩人之間的交往關系用邊(edge)表示,邊權重為二人交游詩歌數量:

<node id="152.0" label="陸龜蒙" friends="16" freq="381" pagerank="0.0085"/>

<node id="396.0" label="皮日休" friends="16" freq="384" pagerank="0.0086"/>

<edge id="376" node1="396.0" node2="152.0" weight="337.0"/>

考慮PageRank權值接近交往人數和頻次兩項指標的綜合反映,我們取該維度下排名前100位的詩人,提取其社交關系,利用Gephi可視化工具繪制其社交網絡,如圖1所示。其中,節點大小和顏色深淺按照PageRank權值進行設置,關系邊寬按詩人之間交往頻次進行設置。該圖較好地顯示了唐代詩人的社交狀況:從整體上看,初唐、盛唐、中唐、晚唐四個時期的社交關系基本沿順時針方向展開,中晚唐的社交密度高于初盛唐;從節點角度來看,張說、杜甫、皎然、劉長卿、白居易、劉禹錫、元稹、賈島、姚合等人是非常明顯的社交核心人物。此外,陸龜蒙和皮日休的密切交往也通過邊寬得以體現。

圖1 一百位唐代詩人社交網絡圖譜

接下來,本文將結合各個時期的社交網絡圖對當時的詩人社交及創作情況進行分析,并對唐代社交活動中的詩歌發展脈絡進行梳理和總結。

主站蜘蛛池模板: 星子县| 随州市| 新蔡县| 汶上县| 喀喇沁旗| 贵州省| 南通市| 陕西省| 嘉荫县| 湖南省| 武威市| 健康| 龙山县| 林芝县| 永登县| 大同市| 通州市| 建昌县| 东辽县| 潍坊市| 大丰市| 义乌市| 新昌县| 如皋市| 扎兰屯市| 明水县| 信阳市| 安平县| 乌鲁木齐市| 曲沃县| 泾川县| 古浪县| 海伦市| 乌兰县| 温泉县| 平江县| 安泽县| 雷山县| 建平县| 万源市| 宜春市|