水鄉.png

用數據說話,從統計學看紅樓夢作者之謎

「滿紙荒唐言,一把辛酸淚。都云作者癡,誰解其中味?」

──曹雪芹中國的四大名著,紅樓夢有非常特別的位置。小時候喜歡《西遊記》,覺得魑魅魍魎,何其神幻;再者喜歡《水滸傳》,梁山好漢,快意江湖。但讀的最多的卻是紅樓夢。中國有句古話說,少不讀紅樓,老不讀三國。少時讀紅樓,覺得晦澀難懂;年紀大些再讀,仍覺得撲朔迷離,意味無窮。紅樓夢是一本包羅萬象的小說,縱橫詩書、繪畫、音樂、飲食、服飾等多個領域,其文學價值不言而喻。

紅樓夢共120章回,前80回比較公認的作者是曹雪芹。他自述「批閱十載,增刪五次」,方成此書。這跟他人生經歷不無相關。在康熙、雍正兩朝,曹家歷任江寧織造,極盛時期甚至接待過聖駕南巡。胡適先生考證,曹雪芹早年在南京江寧織造府親歷了一段錦衣紈絝、富貴風流的生活。至雍正六年,曹家因虧空獲罪被抄家,曹雪芹隨家人遷回北京老宅。後又移居北京西郊,靠賣字畫和朋友救濟為生。「滿徑蓬蒿」、「舉家食粥酒常賒」正是描述他那時的窘境。有學者認為,紅樓夢整個故事的發展,正是曹雪芹家族的鏡像。

紅樓夢後40回原作散失,至今作者歸屬仍是謎團,各學派爭論不一。1920年,胡適先生「大膽假設」,認為後四十回並非曹雪芹所著,而是高鶚續書。周汝昌認為《紅樓夢》共108回,現存80回,後28回遺失。白先勇認為,沒有人能續作紅樓夢,後四十回中作者筆觸細膩,前後呼應,一百二十回應全系曹雪芹所做。關於續作的文學價值,紅樓夢「發燒友」張愛玲並不以為然。她認為後十回乃是「狗尾續貂,附骨之蛆」。讀到第81回「佔旺相四美釣游魚」時,便覺「天日無光,百般無味」,彷彿進入了「另一個世界」。


眾多大家各執一詞,學術界仍無定論。今天,我們不妨再讀石頭記,班門弄斧,從統計學角度給出一點佐證。

用數據說話,從統計學看紅樓夢作者之謎

從前80回到後40回:紅樓一夢,大廈傾頹

想要了解紅樓夢作者,需先了解紅樓夢。紅樓夢講述賈、史、王、薛四大家族的興衰,貫穿賈寶玉、林黛玉、薛寶釵的愛情婚姻主線。「賈不假,白玉為堂金作馬;阿房宮,三千里,住不下金陵一個史;東海缺少百玉床,龍王請來金陵王;豐年好大雪,珍珠如土金如鐵」正是對四大家族極盛時期的判詞寫照。從紅樓夢前八十回到四十回,發生了什麼?簡而言之,從前80到後40,是四大家族「大廈傾頹」,賈寶玉和林黛玉愛情悲劇的重要過渡。

我們先來看看故事的主人翁。初讀紅樓夢,最艱難的是縷清人物關係。紅樓夢中眼花繚亂的宗親關係,常常讓人置身雲霧。這裡我們抽絲剝繭,只提取前十大出場人物和他們的出場比例,如下圖所示。賈寶玉出場的比例最高,著墨最多。令人有點意外的是出場其次的並不是釵黛,而是賈府的封建家長代表,賈母和鳳姐。賈母在書中有非常重要的地位,她是賈府內部最高權力的代表。這位老人不僅懂得享受榮華,而且當賈府傾頽之時,她拿出家財賑濟眾人,也是有條不紊,從容鎮定。鳳姐可以算是賈府的「執行董事」,明是一盆火,暗是一把刀。她執掌賈府實權,但為人心狠手辣,最終機關算盡,終免不了含愧而死。

紅樓夢.png

除了前三個代表人物,讀者最為關注的是賈寶玉、林黛玉、薛寶釵之間的愛情婚姻悲劇。從前80回到後40回,三人發生了什麼樣的故事?我們不妨來看看三人的出場密度統計。可以看出前40回中寶玉、黛玉的步調更為一致,此時黛玉剛剛來到賈府,與寶玉兩小無猜;中期三位人物描寫都有所減少,此時注重於賈府整體宏觀刻畫;在後80回中,三者出場再次推向高峰。其中關於黛玉的描寫,在100回左右已經淡出觀眾視線。此時最大的情節變化是「林黛玉焚稿斷癡情」,這是悲劇發生的時刻。黛玉聽到遠處傳來的娶親喜樂,內心充滿孤獨哀傷,也了卻了在人世的最後一點俗緣。這一段的描寫是很動人的,她焚的是詩稿,也是自己的詩魂。關於薛寶釵的描述在100回之後出現高峰,此時她已「出閨成大禮」,成為賈府權利代表認可的兒媳,未來等待她的整個家族的重擔。值得注意的是這裡釵黛之爭並沒有發生明顯的正面衝突,這與鳳姐瞞天過海的計策相關,整個婚姻事實是經過賈府高層操控的,這也是悲劇的源頭。

紅樓夢.png

接下來,我們再來看看,從前80回到後40回,人物關係發生了怎樣轉變?將人物共同處於一個自然段看做網絡連接1次,我們可以繪製1-40回;40-80回;80-120回人物之間的「社交網絡」(線條越粗,關係越強)。很明顯能夠看出,主要人物關係逐步加強,在第三部分推向高潮。此時寫四大家族「忽喇喇似大廈傾頹」,一時間眾人相互牽連,無一倖免。再回首曾盛極一時的大觀園,不禁讓人嗟嘆。

紅樓夢.png

最後,我們再來看看紅樓夢中的小人物。紅樓夢是一個群像小說。除了主角之外,作者對於小人物的刻畫十分傳神。比如焦大,他是賈府老僕,全書只在開頭和結尾處出現。但作者藉他的醉罵,已經道出賈府頹勢:曾經烜赫一時,如今子孫不肖。除此之外,令人印象深刻的劉姥姥進大觀園,也是神來之筆。曹雪芹寫富貴人物如賈母能夠寫出風流的貴族做派,寫村婦形象竟也是入木三分。藉著劉姥姥進大觀園的視線,讀者體會出大觀園盛時何其富麗堂皇。當賈府敗時,劉姥姥再次出現,救下巧姐。從80回過後,作者對於小人物刻畫也十分傳神,這與之前我們的結論一致,後40回作者主要處理賈府內部主要人物之間的矛盾。

紅樓夢.png

咬文嚼字,《石頭記》作者係誰?

1 從統計檢驗看《紅樓夢》作者歸屬從上面的分析已經可以看出,紅樓夢前後情節出現了很大變化,後40回作者更加關注主要人物之間矛盾的處理,減弱了對邊線人物的描寫。接下來,我們不妨「咬文嚼字」,看看作者在用語習慣上是否前後一致。


從統計學上,判斷作者前後用語是否一致,我們自然與【統計檢驗】聯繫在了一起。這裡,將整體分為:1~40回,41~80回,81~120回作對比。前兩個總體的對比將作為參照;重點對比後兩個總體之間的差異。我們將一個章節的詞頻作為一個觀測,使用t檢驗檢驗不同總體之間詞頻均值的差異(注:這裡我們要求這些詞不能在3個總體的詞頻都<30)。注意,在判斷顯著性時,我們不再以p值小於0.05為標準。這是由於此處涉及「多重檢驗」的問題。簡而言之,如果涉及許多組假設檢驗,設置顯著性水平為0.05是不盡合理的。此處我們採取Bonferroni修正,將p值根據總的檢驗組數進行調整。由於本案例總共涉及幾十組檢驗,採取謹慎性原則,我們標註了p值<0.001的詞彙。更多關於多重檢驗的科普和實施請見【多重檢驗小課堂】;對多重檢驗感興趣的讀者也可以了解一下專用於多重檢驗的FDR方法,此處我們不再贅述。

多重檢驗(Multiple Testing)小課堂我們舉個例子,來說明在檢驗組特別多的時候為何需要多重檢驗。假設有K = 20個重點詞,那將對應K組t檢驗。如果我們仍設置顯著性水平:

紅樓夢.png 

我們看看具體結果,首先我們關注【高頻詞彙】。經過統計檢驗,紅樓夢前後用詞出現較大斷層的高頻詞集中於形容詞、副詞方面(在動詞、介詞、連詞等方面差異不大,此處不再列出細節結果)。幾個頻率顯著減小的詞包括:越發、難道、可巧、不曾、原是。

①越發:

眾人越發慌了。(第25回)

那襲人、麝月等一發慌了,回過鳳姐幾次。(第95回)

②難道:


黛玉笑道:「你說你會過目成誦,難道我就不能一目十行麼?」(第23回)

雨村低了半日頭,忽然笑道:「莫非他有遺腹之子,可以飛黃騰達的麼?」(第120回)

③可巧:


可巧寶玉往黛玉那裡去了。(第60回)

恰好王夫人打發周瑞家的照看(第103回)

④不曾:


黛玉道:「不曾讀書,只上了一年學,些須認得幾個字。」(第3回)

賈母道:「我活了八十多歲,自作女孩兒起,到你父親手裡,都托著祖宗的福,從沒有聽見過那些事。」(第106回)

⑤原是:


鳳姐兒說道:「大老爺原是好養靜的。」(第11回)

襲人道:「二爺的病原來是常有的。」(第105回)


紅樓夢.png

除此之外,我們對文獻[1][2]重點詞彙進行了統計檢驗。在名詞方面,「丫鬟」出現顯著減少;動詞方面,「打量」顯著增加;副詞方面,「越發」顯著減少,同義詞「更加」顯著增加,「剛才」顯著增加。值得注意的是虛詞中的句尾虛詞和文言虛詞兩個類別出現了顯著變化。句尾虛詞中,疑問句式結尾的語氣詞增多,這可能與後40回中對話增加有關;單字文言虛詞在後40回大部分顯著減少,這說明後期語言向白話靠攏。除以上詞彙外,其他詞彙並沒有在統計意義上得到的顯著變化的證據。

紅樓夢.png

紅樓夢.png

最後,從文章組織方面,我們對段落長度、標點符號構成進行了統計檢驗。這裡我們發現,後40回段落長度變長,且句號、雙引號、問號都顯著增多;這與後四十回的人物對話增多有關。

紅樓夢.png

2 再論參考系:以《倚天屠龍記》為例我們從統計檢驗角度談紅樓夢作者歸屬,不能夠沒有參考系。在本節開頭,我們已經說明,將前40回與41~80回的語言特徵連續性作為參考;實際上,從前面的統計檢驗結果來看,前80回的語言風格相對更加統一。但是似乎這裡並不能讓我們完全信服,對於一般的章回小說,出現語言風格的波動是不是正常現象呢?由於情節、感情的波動,小說的文字使用出現差異可能並不是一個「奇葩」的現象。

我們不妨看看其他章回小說是咋樣的。這里納入我們之前討論過的一個章回小說,《倚天屠龍記》作為參考(顯然這一部小說沒啥作者爭議,感興趣的讀者可以自行分析其他章回小說)。同樣地,我們對倚天屠龍記劃分三個總體,檢驗在實詞、虛詞等方面的差異。結果如下表所示,我們並不能找到非常顯著的總體之間差異。這說明《倚天屠龍記》這部小說作者在前後用語用詞習慣上是相對更加統一的。

紅樓夢.png
紅樓夢.png

3 回歸分析:能否「智能」區分前80回與後40回?最後,我們進行了一個「鬼畜」的回歸分析。首先將一個章節看成一個觀測,前80回所有章節標記成Y=0,後40回標記成Y=1。一個自然的問題是,通過回歸分析,能否「智能」區分前後總體?刪除一些可能跟情節相關的詞,經過變量選擇後保留了6個詞彙,它們大部分是文言虛詞,回歸係數如下表所示:

紅樓夢.png

關於模型的預測性如何呢?我們進行了5折交叉驗證,得到預測集平均AUC達到95.4%!這說明通過用語特徵能夠非常清晰的區分出紅樓夢前後的差異。

後記紅樓夢這部小說可以說包羅萬象,從統計學看作者歸屬只是其中一個方面。紅樓夢中有許多語言特徵很有意思,它的內容從古至今也多方爭議。本文不能一一囊括,在此處備註幾點說明:

1、諧音字。前80回中含有大量隱喻,比較著名的是金陵十二釵的判詞,其中已經隱含了她們的命運。除此之外,作者在起名上也頗下功夫,比如「甄士隱、賈雨村」,代表「真事隱、假語存」;元春、迎春、探春、惜春四姐妹,諧音是「原應嘆息」;「賈政」諧音「假正經」等等。有學者考證,《紅樓夢》前後諧音比例大有不同,且後40回諧音用法生硬。由於此處樣本較少,我們沒有納入統計檢驗的範疇。

2、詩詞創作。《紅樓夢》詩詞是非常重要的組成部分。第三十七回中,紅樓夢群釵成立海棠詩社,各取別號,根據詩題作詩。其中以寶釵黛玉詩才最高,曾各得魁首。除此之外,黛玉的《葬花吟》,寶玉的《芙蓉女兒誄》也是非常著名的。細讀紅樓夢詩詞,創作風格與作者性格特徵緊密貼合:黛玉的詩作感時傷事,與她寄人籬下的身世相關;寶釵的詩大氣沉穩,可以說是「任是無情也動人」。我們統計發現,後40回中詩詞比例減少,尤其是詩的創作,更是寥寥無幾。這是否可能是續作作者「詩才不足」呢?由於全文詩作非常有限,我們不再做更多技術性探討;歡迎更多感興趣的讀者跟我們討論。

3、參考文獻【1】【2】中還列了許多詞彙,比如常見的兒化音和擬聲詞。常見的有名詞+兒化音(如小么兒、顰兒);形容詞+兒化音(如靜靜兒,輕輕兒);數詞+兒化音(如些兒、點兒)。我們統計發現前80回中更多名詞+兒化音;後80回更多動詞、形容詞、副詞+兒化音。擬聲詞也起到類似作用,使得語言更具備生活化的特點。比如雙音節擬聲詞(嗤嗤、叮噹、噹噹);三音節擬聲詞(哼哼哼、呼喇喇、豁啷啷);四音節擬聲詞(咕咚咕咚、嘩喇嘩喇)。這裡我們統計發現後40回更多四音節擬聲詞;而前80回作者更偏向雙音節擬聲詞。但由於總體出現樣本過低,無法從統計檢驗角度給出更多證據。

4、多重檢驗。《紅樓夢》有數以千計的詞語,哪些詞語應該納入檢驗,似乎是值得討論的話題。從技術上,本文采用比較保守的Bonferroni修正進行多重檢驗。另外一種常見的方式是FDR方法,由Benjamini於1995年提出[5],能夠在假陽性和假陰性之間取得較好平衡。我們用FDR方法進行p值修正後,得到的結論比較類似。

5、關於最後的回歸分析,需要進一步斟酌。我們希望納入回歸分析的詞應該與情節盡量無關,而與個人用語習慣相關。但是這似乎不是一個簡單的問題,如何通過統計學的方式,排除情節的差異而著重於用語習慣的差異,是一個有意思的事情。另外,注意到這裡以章節為觀測,總體樣本比較稀少;考慮其他的切分方式,比如按照段落作為觀測,預測段落屬於前80回還是後40回,則難度將大大增加。

【參考文獻】

[1]陳大康.從數理語言學看後四十回的作者——與陳炳藻先生商榷[J].紅樓夢學刊,1987(01):293-318.

[2]唐友忠.紅樓夢後續作者考釋[M].北京:中國文聯出版社,2014.

[3]白先勇.白先勇細說紅樓夢[M].廣西:廣西師範大學出版社,2017.

[4]張愛玲.紅樓夢魘[M].北京:北京十月文藝出版社,2012.

【文章出處】
《數據分析網》
用數據說話,從統計學看紅樓夢作者之謎
2018-06-25
網址:

https://www.afenxi.com/56377.html
作者:不詳

arrow
arrow
    全站熱搜

    樵客 發表在 痞客邦 留言(0) 人氣()