荔园在线

荔园之美,在春之萌芽,在夏之绽放,在秋之收获,在冬之沉淀

[回到开始] [上一篇][下一篇]


发信人: scu (井蛙), 信区: honglou
标  题: 统计在红楼梦的应用
发信站: 荔园晨风BBS站 (Sun Dec 28 22:52:32 2003), 站内信件

统计在红楼梦的应用(注)

余清祥
政治大学统计系副教授

 (注) 本研究受行政院国家科学委员会补助 (编号NSC 84-2121-M004-009),特此
致谢。

摘  要
  「红楼梦」为近代文学的一大巨着,堪称古典小说的代表作品,然而作者是谁,
始终是未解的谜。在一般的认知中,红楼梦是曹雪芹所作及高鹗编纂,但专家对于
本书之前八十回与后四十回是否为同一位作者仍无定论。本研究藉由统计方法(包
括变动点分析),将「红楼梦」中的文字叙述数量化,用以分析作者的写作风格,
进而寻求解答「红楼梦」作者的可能性。本文所采用之红楼梦版本,以「庚辰本」
及「程甲本」为主要研究书目;而以「红楼梦校注」为辅(注1)。统计分析则以
Minitab、SPlus等软件为辅助工具。

关键词:变动点分析、红楼梦、多项分布、品种的个数。

(注1):里仁出版社。

一、绪论:
1.1  前言:
    中国古典小说创始于明朝,至清朝发扬光大,为明清两朝的文学代表作品。与
传统的诗词曲赋不同,小说并非由单一文体所构成,它结合了诗词、文言文的叙述
,以及白话的对话。因此,它的读者群不再只是自命风流的文人墨客,一般平民百
姓,甚至目不识丁的贩夫走卒,亦可藉由说书人的生动描述,捕捉书中人物的面貌
,进而咀嚼玩味小说的精髓。小说普遍化之影响程度实非以往其它文学作品可相抗
衡,而其影响力之大,也可由民间俗谚略知一二,即所谓「少不看水浒,老不看三
国」。虽然有人批评小说多半具有浓厚的政治化倾向,然不容讳言,小说题材之包
罗万象,以及内容之平民化、生动化,无疑地为中国文学打了一剂强心针。

    但由于印刷的昂贵与古代中国人缺乏著作权观念的影响下,一部小说或因誊抄
的错误;或因原著的散佚;或因后人的篡改增删,可能产生与原著出入甚多的各种
版本,令后来的读者无所适从。以本文研究的『红楼梦』为例,坊间所知的版本计
有「甲戌本」、「己卯本」、「庚辰本」、「甲辰本」、「戚 本」(以上为「脂
本」,也就是未经高鹗辑补过之版本)、「程甲本」、「程乙本」等。其中五个脂
本,全都是经由过录而得的手抄本,但较差的抄手因抄誊的错误,对抄本的质量有
负面的影响。另一方面,由于高鹗编辑的版本搜集民间各版本,将原先不足或散佚
的部份补足,而有一百二十回的完整小说,高鹗整理之功虽不可没,但原著书者的
创作精神也受到相当程度的扭曲,无法以原始面目见于世人。

1.2  研究目的及方法:
    一般相信曹雪芹为前八十回的作者,而高鹗则续作了后四十回,使『红楼梦』
得以一百二十回的型态问世。但此一说法也引起相当大的疑问。例如第八十回至八
十一回的转接非常平畅,毫无切割的痕迹;而且后四十回的铺陈也与前八十回相若
。因为续书通常比著书更难,除非高鹗的文学素养高出曹雪芹,否则难以在短时间
内,将曹雪芹十年心血的创作延续下来。另外,赵冈与陈锺毅也指出(注2),『
红楼梦』一书是「写实往事」,将曹家几代为江宁织造的往事融入小说情节,但曹
雪芹并未亲身体验曹家的全盛期,许多事迹的细节必须仰赖族中长辈的帮助,如曹
天佑及曹棠村等人,而『红楼梦』的增删修改与素材灵感,也藉由这些人的批阅获
致。因此,此书可说是曹家繁华旧梦的回忆录,并为一集体创作;但并无数据显示
高鹗与曹家故人有密切来往,则高鹗如何能将前八十回的叙述与情节毫无破绽地延
续下来?

    另一方面,前八十回及后四十回在用字遣词上的差异,以及情节铺陈上明显的
不同,不难在读者细心比较下发现蛛丝马迹。但过去对前八十回与后四十回差异的
研究,除了赵冈与陈锺毅(1980)以统计方法来分析,大多以文学欣赏的角度加以评
论,鲜少采用数量化的方法。(但不当的使用统计方法,则可能产错误的结论,如
高本汉于1952年的研究。)本研究着重于统计方法的应用,将各回的用字结构转变
成数字,作为分析前后各回是否有显著不同(Significant difference)的评论依
据;另由于『红楼梦』一书创作历经五次增删及十年光阴,作者 的写作及用字风
格可能因时空的变迁与经验的累积,产生质与量的改变,因此除了一般的统计方法
将前八十回及后四十回当作两个样本(Two sample)来分析外,本文也采用变动点问
题 (Change-point problem)的方法,判断一百二十回的小说中是否有前后不一的
现象;如果前后不一,转折点是否出现在第八十回附近。

本文编排如下:第二节为文献探讨,包括赵冈与陈锺毅(1980)的用字分析,以及本
文所使用的统计方法,如t检定( t-test)、卡方检定(Chi-square test),加上与
变动点问题相关的文献。第三节为实证分析,介绍如何选取字词来比较,并讨论分
析所得的结果与意义。第四节为结论与建议,除了总结第三节的分析结果,并以统
计的观点尝试解决『红楼梦』的作者问题,同时也讨论本篇研究的限制;于本节末
也提出未来可能的研究方向,以期达到更精确的结果。

 (注2):红楼梦研究新编,P187。
二、文献探讨
  本节分为两个部份:一为介绍与关于作者写作风格研究的统计报告,一为与本研
究相关的统计方法之探讨。其中作者风格的报告又可分为国内外两类,而统计方法
也可分为一般检定与变动点分析两种。以下先就作者风格的部份逐一介绍。

2.1  研究作者风格的文献
2.1.1 国内部份:(赵冈与陈锺毅,1980)
  赵冈与陈锺毅使用「儿」、「在」、「了」、「的」、「着」五个虚字作为比较
,前八十回采用俞平伯的「红楼梦八十回校本」,后四十回则采「程甲本」。在前
后半部中各挑出(抽样)一百页(每页七百二十个字),各页中没有回目、诗词或分
段,计算每页出现这五个虚字的频率,得到以下前八十回及后四十回的t检定值:


 3.677


 3.392


 0.116


 3.391


 3.910

  其中除了「了」字的平均频率差异不显著外,其它四个虚字的P值(P-value),
也就是由或然率而造成的结果,其值都在百分之一以下,如果把这四个字的效果结
合在一起,因为或然率而造成巧合的可能性几乎为零。这四个有显著差异的字,在
后四十回的出现次数较前八十回有过之而无不及。赵陈两人对这种现象的解释是可
能由于曹雪芹为南方人,用北京话写小说系属创举,因此对北京话的使用并非十分
纯熟,然而高鹗是地道的老北京;后四十回极有可能在高鹗的修辑中,改成地道的
北京话,使得「儿」、「在」、「了」、「的」、「着」出现频率有增高的倾向。

  其它赵陈两人发现的歧异计有如:问句结尾的「吗」或「么」,「我们」与「咱
们」,「给」及「与」,「都」及「多」,动词迭用等,赵陈两人也计算出这些字
词在前后半部各一百页抽样中的出现次数,作为支持前后半部用词不同的另一证据


2.1.2国外部份:
  以统计方法分析写作风格(Literary style),称为Stylometry,可追溯自英国
逻辑学家Augustus de Morgan 于公元1851年所作的研究,他建议以英文单字的长
短作为区分作者风格的判断依据。在1930年代,G. Udny Yule 和 George Zipf 发
现文章的字汇使用频率有一定的模式(Pattern),可作为分辨不同作者的标准。而
最著名的写作风格比较首推 Frederick Mosteller 及David Wallace (1984) 的研
究,他们主要运用贝氏分析的技巧(Bayesian techniques),探讨美国自开国以来
即存在的作者认定问题 . "谁写了拥护联邦主义的论文"(The Federalist
Papers)。该系列论文由Alexander Hamilton 、James Madison及John Jay  撰写
,在77篇文章里有65篇已大致可确定作者,但历史学家对剩下的12篇文章却迟迟未
能结论,推测可能是Hamilton 或Madison 所写。Masteller 及Wallace 的分析归
结出除了第55篇极有可能是 Hamilton 所作外(可能性为90:1),其它应该为
Madison 的作品。

  另一较知名的是研究对莎士比亚(Shakespeare)使用字汇总数,由Bradley
Efron及Ronald Thisted在1976年所提出。他们使用出现字汇的总数及其频率,估
计莎士比亚知道但未使用的字汇,进而估计出莎士比亚知道的字汇总数,作为判断
一篇作品是否出自莎翁的凭据。之后,他们更由此推测1985年新发现的一首诗,是
由莎士比亚所作。

  由于计算机科技的发达以及数据库的进展,几乎可化为数量化的特性都被拿来比
较,不再局限于字汇的出现总数与其频率,其它数值如单字的长短、字句的长短,
以至于名词、代名词的出现次数,都曾被选作比较的标准。C.B.Williams(1975)研
究莎士比亚与培根(Bacon)两人于散文(Prose)及诗词(Verse)上用字长短的差别,
并发现无论莎士比亚或培根,对散文及诗词都有不同的用字习惯,因此对不同作者
作比较时,应选用同一文体为原则;他并用此结果驳斥Mendenhall先前研究的误谬
。B.J.R.Bailey(1990)则选用连接词(Function words or contextfree words),
如代名词作为比较的依据,在二项分布(Binomial distribution)的假设下,计算贯
词(Articles)的出现频率,并使用卡方检定(Chi-square test)来检测。A.F.
Bissell(1995)则考虑Weighted Cumulative Sums与Weighted Variance
Estimation,测量作者是否有习惯用字,并讨论用两个字母及三个字母构成的单字
在文章中的出现频率,使用统计图形作为辅助判断的工具。

  但值得注意的是中文与英文在用词遣字及文体结构上的差别。英文是由26个字母
所构成,较易转化成数字来比较,如计算每个单字的字母总数。但反观中文,每一
个字都是一个方块或一个单元,很难直接数量化,如英文单字的长短在中文里毫无
意义。另外,英文里的贯词,如a、the 等字的用法,在中文里并无对等的字,因
此如何选取适当字词作为比较的标准,进而判断中文写作的风格,与英文将是大相
径庭,各异其趣。在第三节我们将详述如何选取字词,并解释原由。

2.2  本研究使用的统计方法:
  本研究的统计检定假设可分为两类:一是假设前八十回及后四十回来自两个不同
的主体(Populations),并采用两个样本(Two sample)的方法检定;一是假设全书一
百二十回来自同一主体,使用变动点问题(Change-point problem)的方法检定。


2.2.1  两个样本:
  在前八十回及后四十回为两个样本的分类下,一般的检定方法皆可视情况需要而
使用。例如t检定可用来比较每回中使用的总字数,以及「儿」字在前后各部的出
现频率但因为前八十回有五万余字,后四十回也有两万字以上,在大样本的条件下
,t检定也可用z检定来代替。当数据可分成数类时,卡方检定也适用。除此之外
,时间序列分析(Time Series Analysis)及辨别分析(Discriminant Annlysis)也
适用于两个样本的比较,但仅作为辅证。其中时间序列可用在分析前八十回的某些
字词,他们是否遵循某一特定模式出现;而此一模式或类似模式是否也在后四十回
中出现。辨别分析是用在选取数个不同的特质,如将「儿」、「在」、「了」、「
的」、「着」五个字同时考虑,藉由线性辨别函数(Linear Discriminant
function),判定前八十回及后四十回是否可归类成不同的两组资料;如果分成两
组数据,又有多少回的数据被判定成另一组的资料,其误判率为何。

2.2.2  变动点问题:
  变动点问题的研究始于1930年代,最初应用于工业上的质量管理(Quality
Control),近三十年来的应用也不再局限于工业方面。变动点问题在于研究一系列
同性质的事或物,(或以统计的术语来看,则是研究一系列独立且有相同分配的随
机变量),并决定这一系列事物的特性是否在某一时间产生变化。举例而言,某工
厂生产日光灯管,要求成品至少有五千小时的寿命,但生产的机器随运转时间的增
长,可能会生产不合规格的灯管,如能愈早查出机器故障的时间,及时调整,可为
工厂省下生产成本。

  本研究采用变动点方法的原因,在于『红楼梦』一书著作前后历经十年,作者的
风格可能在这段时间有明显的不同,若单纯以前八十回与后四十回分段比较,极有
可能造成读者的错觉,认为前后各回属于不同的作者。如能将全书一百二十回视为
同一系列的产品,而得到确实有变动点,且其位于八十回前后,当可作为前八十回
及后四十回风格不同的左证,支持不同作者的假设。反之,若没有变动点的产生,
也就是前后各部文风相近,或是有两个或两个以上的变动点,代表作者风格有变化
或有两个以上的作者,则前后各回分属不同作者的假设极有可能不成立。

  变动点问题若在固定样本(Fixed Sample Size)的假设下,可分为二项分布及常
态分布两类数据。在二项分布的情形,David V. Hinkley和Elizabeth A.
Hinkley(1970)推导出变动点的最大概似估计量(Maximum likelihood estimate简
称为MLE)之大样本分布(Asymptotic distribution),并包括概似比例检定量
(Likelihood Ratio Tests)的大样本性质。A. N. Pettitt(1980)考虑条件检定
(Conditional test)与另一变动点的估计值,而且在他的模拟(Simulation)结果中
,这个新的估计值较MLE为佳。K. J. Worsley (1983)研究当二项分布的总个数不
同的情形,并比较概似比例检定及累积总和检定(Cumulative Sum test,简称
CUSUM test)的优劣。

  研究常态分布的报告不少,仅探讨其中几篇较具代表性的文章。E.S.
Page(1954)使用概似估计找出一个检定方法,并用MLE估计变动点,但他的方法可
适用于非常态假设,只要分布及参数给定。H. Chernoff 和 S. Zack(1964)考虑当
常态分配的变异数为1的情形,给定贝氏检定(Bayes test)并计算出检定的临界值
(Critical value)与检定力函数 (Power function)。David V. Hinkley (1971)研
究当常态分布的期望值不设定下,用MLE检定变动点发生的时间,大样本的性质也
同时被考虑。其它与变动点有关的介绍,可参考S. Zacks (1991) 或B. E.
Brodsky 和B. S. Darkhovsky (1993)。


三、实证分析:
3.1  简介:
    写作风格有如个性特征,充份表现出一位作者的特性;有些作者偏好华丽炫烂
的词藻,另一些以简单易懂取胜;有些作者精于分析与推理,另一些则擅长描写气
氛与场景;更由于小说丰富的题材,以及其独特的文体的组合(诗词、白话及文言
文),更容易凸显出作者的写作风格。有鉴于此,针对小说文体的特性及作者用字
习惯,本文的实证研究分为两个部份:一为结构性的研究(如诗词占一回的字数比
例),一为用字的分析(如「儿」字的出现比例),分别讨论于3.2及3.3 节,而变动
点问题则于3.4 节中讨论。

    本研究的数据分析以陈郁夫先生建立的红楼梦数据库为主,并以中央大学所建
的公共网络版为辅助,但网络版有十八回缺佚,故仅作辅助及参考用。陈郁夫先生
的数据库以「彩画本红楼梦校注」一书为输入依据,也就是前八十回参照「庚辰本
」,后四十回参考「程甲本」。而本研究的字数计算及单字与词之搜寻,由两种程
序执行所得:一为数据库语言DBase IV所撰写的程序,一为由陈郁夫先生提供的字
词检索程序。

3.2  结构研究:
    作者的文笔主宰一部小说的风格,但为了故事结构及情节发展的需要,适时的
增删诗词或是对话的比例势所难免,藉以表达作者构思。以『红楼梦』的第五回为
例(回目:游幻境指迷十二钗,饮仙醪演红楼梦),本回公认为『红楼梦』一书的重
心,为全书的未来情节发展铺路(注3),回中包括如「新制红楼梦(曲)十二支」和
「金陵十二钗正册」等线索,为书中主要女性人物勾勒出她们的习性特质,并事先
为她们的结局与未来埋下伏笔,因此诗词在第五回中共出现1853字,占整回6321字
的29.3%,与全书一百二十回所有诗词比例的1.6%高出许多。另外,第七十八回因
情节需要(回目:老学士闲境姽婳词,痴公子杜撰芙蓉诔),由贾政与众人乘兴各作
诗词,而诗词也占此回文字的19.3%(诗词1745字,全回9039字)。由此可见,每回
的诗词因情节需要,其出现频率有相当程度的差异,本节的结构研究即针对此一特
性,分作每回总字数、诗词字数及对话字数三部份。

表3.2-1各回诗词数字数

字 数 范 围
 前80回
 后40回

  =0
 43
 28

(>0
 37
 12)

  1~200
 21
 11

201~400
  7
  0

401~600
  5
  1

601~800
  1
  0

  801~1,000
  1
  0

1,001~1,200
  0
  0

1,201~1,400
  0
  0

1,401~1,600
  0
  0

1,601~1,800
  1
  0

   1,801-
  1
  0

总  数
 80
 40


注3:关于第五回的讨论,详见高阳着「红楼一家言」中「曹雪芹对红楼梦的最后
构思」
每回总字数与对话字数在前后各回中差别不大,虽然前八十回有较高的平均值,但
其统计上并无明显的差别;反而是六十一回至八十回的每回总字数与对话字数的平
均值明显较高。值得注意的是诗词出现的次数及字数在前八十回与后四十回中有非
常大的差别:前八十回中有四十三回无诗词出现,而后四十回中则有二十八回无诗
词;出现诗词的各回中,绝大部份的诗词字数都在200字之内。其中前八十回出现
诗词且字数小于200的回数共二十一回,约为出现诗词的三十七回中的56.8%;而后
四十回出现诗词且字数小于200的回数有十一回,大的占出现诗词的十二回之91.
7%,表3.2-1可充份显示此一特征。

    以二项分配的方式比较前后半部中,诗词是否出现在某一回中的机率,可得 z
 检定统计量:

其中,及为一百二十回、前八十回及后四十回中每回出现诗词的机率,及为其样本
数,其对应的P值为:

P值≒0.0439
  若检定
 V.S.

P值≒0.0878
  若检定
 V.S.


这两个P值在统计上均可视为有显著的不同,也就是前八十回中每回使用诗词的可
能性较后四十回为高。

前八十回与后四十回的平均每回诗词字数的比较,也可由图3-2.1的序列图中看出
不同,后四十回中除了第八十七回诗词用字达406字外,其它出现诗词的各回,用
字不超过100字;此一现象与前八十回中,每隔数回即有一回诗词超过200字的情形
,相差甚多,即使去掉诗词字数最多的第五回及第七十八回,此一特性在前八十回
中依旧存在。以t检定测试可得P值为0.029(两侧检定,Two-sided test),其中
前八十回平均每回出现135.9字的诗词,后四十回仅有22.9字的诗词,在统计上有
显著的不同,前八十回有较多的诗词字数。同理,若以二项分布来比较诗词的字数
占每回总字数的比例,可得t检定量约为57.10,其中P值几乎为0,显示诗词在每
回所占的比例,前八十回明显的高于后四十回,此结果与每回诗词出现的可能性,
前八十回高于后四十回是一致的。

图3.2-1  每回诗词字数序列图



3.3  用字分析:
    在第二节曾提到,连接词(Function Words)曾被使用作为比较英文写作风格。
由于连接词的功能在于连接句子,一般不至于改变句子的原意,而且通常一个连接
词有其它同义词可作替换,惯用某一连接词可视为作者的偏好。本节的用字分析即
源于这个动机,选用可替换并且不影响句子的字词为分析标准,判断『红楼梦』前
后半部的常用字词是否不同,藉以推论是否有曹雪芹以外的作者参与创作,这个部
份的分析详述于3.3.1及3.3.2节,另外,3.3.3节为每回结尾时采用的词句,作为
连接两回的桥梁,这类的词句在章回小说中一般为「且听下回分解」或类似之词句
。3.3.4节则综合分析,同时考虑所有的用字与词。

    3.3.1及3.3.2节的用字分析,参考赵冈与陈锺毅(1980)的统计研究,首先探讨
五个虚字「儿」、「在」、「了」、「的」、「着」,这些虚字为北平话里常见的
语助词,在句子里可有可无,赵冈与陈锺毅举出以下的例子作为参考:
「便伏在枕上歇一会」和「便伏枕上歇一会」。

「宝玉已醒了」和「宝玉已醒」。

「各房的ㄚ头」和「各房ㄚ头」。

「笑着说」和「笑说」。


3.3.2节考虑的其它字词,计有「吗」和「么」,「给」和「与」,「都」和「多
」,「我们」和「咱们」(或「咱们」)。

3.3.1  五虚字的分析:
    赵冈与陈锺毅对五个虚字的分析,乃是将前八十回及后四十回中各抽出100页
,每页各有720字,该页没有回目也没有诗词或分段,逐页计算五个虚字的出现次
数,并使用t检定比较这五个虚字平均每页的平均值。本节也采用相同的方法,但
考虑前八十回及后四十回的所有文字,以去除因抽样而产生的误差。
    表3.3.-2为前八十回及后四十回中的五个虚字比较,括号内为每千字的平均出
现次数,如「儿」字在前八十回平均每千字出现8.03次,后四十回中则为每千字出
现8.73次,全书一百二十回的总平均为每千字出现8.25次。
表3.3.-2  五虚字出现次数比较

 儿
 在
 了
 的
 着
 总字数

1~80回
 4024
(8.03)
 2405
(5.00)
 14293
(28.51)
 10216
(20.83)
 3782
(7.54)
 501284

81~120回
 2066
(8.73)
 1501
(6.34)
 6956
(29.38)
 5513
(23.29)
 2382
(10.06)
 236740

1~120回
 6090
(8.25)
 4005
(5.43)
 21249
(28.79)
 15729
(21.31)
 6164
(8.35)
 738024


这五个虚字的出现次数t检定值分别是:

 3.10


 7.31


 2.08


 8.08


   11.10


这五个检定值均属显著,其中除了「了」字的P值约为0.02外,其它四个虚字的P
值都小于0.001,而后四十回使用这五个虚字的次数明显较前八十回高。此一结果
与赵冈及陈锺毅的结果非常接近(但「了」字在他们的分析里并不显著),同时也建
议这五个虚字的出现模式在前后半部中并不一致,可能是后半部有不同的作者,或
是曹雪芹的用字习惯因写作历时十年,而有不同的写作风格。为更进一步探究这五
个虚字是否可能为渐进式的增加,在3.3.4节中,我们将使用变动点方法,分析变
动的各项特征。

3.3.2  其它字词分析:
    (1)「吗」和「么」:问句后的结尾可选用「吗」或「么」,但表3.3-3的各回
问句以「吗」字结尾的出现次数呈现一个非常极端的现象,前八十回仅有一回出现
「吗」字共两次,其它七十九回皆为0次;反观后四十回,其中共二十一回无「吗
」字。单纯以每回是否出现「吗」字作比较,二项检定量为8.29,支持前后半部在
使用「吗」字上,有非常明显的差异;以t检定测试平均「吗」字的出现频率,结
果也是如此。由图3.3-2中也可看出以上特性。另外,表3.3-3的后四十回出现次数
,显示作者在后四十回使用「吗」字相当一致,但前八十回似乎完全没有使用这个
字的习惯,因此,前八十回与后四十回分属不同作者较有说服力,就问句以「吗」
字结尾的出现情形,我们倾向于接受有不同作者的假设。

「么」字出现次数也是如此,前八十回中多数每回使用「么」为问句结尾不多于3
次占了六十六回,大约比80%多一些;反观后四十回,「么」字为结尾的问句多于
3次的有二十六回,占了后四十回的65%,以 z 检定考虑每回是否出现三次或三次
以上的「么」字,可得检定值约5.41,P值几为0 (后四十回每回平均出现5.1次「
么」,前八十回仅有2.3次),此一结果与「吗」字相同。若单纯以每回所有的「吗
」及「么」字 (非问句结尾) 作比较也有相同的结果,以下为其 t 检定值。

  表3.3-3 各回问句以「吗」字结尾的出现次数
次数范围
 前80回
 后40回

0
 79
 21

1
 0
 10

2
 1
 7

3
 0
 2

总  数
 80
 40



图3.3-2  每回问句以「吗」字结尾的出现次数序列图




「吗」与「么」两字的t 检定值:


 「吗」字每回平均次数
 「么」字每回平均次数

前八十回
 0.038   t检定值=62.77
 24.92   t检定值=33.90

后四十回
 1.875   P-Value=0.000
 41.60    P-Value=0.000


    (2)「给」和「与」:这两者前后半部混用,但前八十回使用「与」字比「给
」字多些,而后四十回则是「给」字多于「与」字。其中前八十回及后四十回在使
用「给」字上不分轩轾,但前八十回明显的使用较多的「与」字,每回平均约有
10.75次,约为后四十回的平均每回5.1次的两倍,t检定为5.93,P值几乎为0。


「给」与「与」两字的 t 检定值:


 「给」字每回平均次数
 「与」字每回平均次数

前八十回
 8.61   t检定值=0.351
 10.75   t检定值=5.93

后四十回
 9.78    P-Value=0.87
  5.10    P-Value=0.000




    (3)「都」和「多」:前八十回使用「都」和「多」的次数,都比后四十回高
。另外,在前八十回中使用「都」和「多」次数高的回数也较多,整个次数分布函
数也较分散;而后四十回的次数分布函数较集中,没有非常高或低的使用次数,举
例来看,后四十回中大多数每回出现约10至30次的「都」字,「多」字也集中在2
至12次。t检定值也支持我们的推论:

「都」与「多」两字的 t 检定值:


 「都」字每回平均次数
 「多」字每回平均次数

前八十回
 23.67   t检定值=2.06
 10.99  t检定值=4.28

后四十回
 19.60   P-Value=0.042
  7.32  P-Value=0.000




(4)「我们」及「咱们」:由于南方人说话都用「我们」,而北京话中的「我们
」及「咱们」并不完全相同。「我们」在前八十回平均每回出现10.48次,稍高于
后四十回的9.85次,但没有显著的差别;「咱们」出现的次数也类似,后四十回的
平均每回5.68次比前八十回的4.91次高,但也非显著不同。由于前八十回使用较多
的「我们」,后四十回有较多的「咱们」,若以前八十回作者的作者为南方人及后
四十回作者为北方人作为解释(也就是说前八十回为曹雪芹所作,后四十回作者为
高鹗所作),似乎可说明此一现象。但因为使用「我们」及「咱们」的习惯差异,
在前后半部中不显著,我们也可作不同的诠释,譬如曹雪芹使用「我们」及「咱们
」的习惯,随着居住在北京的日子增加而改变,因为「我们」及「咱们」的每回平
均出现次数在1~60回都有上升的趋势,在下一节中,这个假设可由变动点分析作验
证。

3.3.3 每回结语用词:
章回小说每每在每回最后引入使剧情扑朔迷离或急转直下的文字,使读者难以自己
、欲罢不能;而说书人更可藉此制造紧张悬疑的气氛,让听众流连忘返。这是章回
小说的特色之一。表3.3-4 为各回结语用词的统计表:

表3.3-4 各回结语用词

  回末用词
    前80回
    后40回

  下回分解
            3
           29

  要知端的,且听下回分解
           23
             0

  且听下回分解
           14
             7

  无任何结语
           15
             0

  诗
             6
             1

  要知端的
             7
             0

  欲知后事且听下回
             1
             3

  其它(共八种)
            11
             0

 总数
       80
     40



后四十回的结语用词只有四种,与前八十回的15种有非常大的差别,若以卡方检定
来比较这两组数据,可得

类别
 1
 2
 3
 4
 5
 6
 7
 8
 总数

前80回(Y)

 3
 23
 14
 15
 6
 7
 1
 10
 80

后40回(Y)

 29
 0
 7
 0
 1
 0
 3
 0
 40

总数
 32
 23
 21
 15
 7
 7
 4
 10
 120




检定值
=




P值几乎为0,因此回末用语有显著的差别。又因章回小说多以「下回分解」作为回
末结语,若以是否出现「下回分解」作为比较标准,可得前后半部各有40及36次,
以二项检定测试,其检定量为4.29,P值约为0.038,有相当强的证据支持前八十回
及后四十回有不同的使用「下回分解」习惯。单以回末用语作为考虑,我们较支持
『红楼梦』的前后部半分属不同作者。

若比较1~60回及61~80回,可得

类别
 1
 2
 3
 4
 5
 6
 7
 8
 总数

1~60回
 1
 18
 11
 12
 6
 7
 0
 3
 60

61~80回
 2
 5
 3
 3
 0
 0
 1
 7
 20

1~80回
 3
 23
 14
 15
 6
 7
 1
 0
 80




检定值=21.34, P值为0.0033,也有显著的不同。但若以「下回分解」为主要考虑
重点,1~60回与61~80回各有30及10次,出现频率皆为0.5,可认定并无差异。假若
将是否使用「下回分解」视为1或0的结果,则1~120回的使用「下回分解」情形可
表示成图3.3-3 的序列图。后四十回几乎全为「下回分解」外,1~40回中连续使用
或不使用「下回分解」较常见,41~80回则较平均地使用,甚少连续使用(或不使
用)「下回分解」,在下一节的分析中将再作更详细的分析。

图3.3-3  每回回末是否出现「下回分解」序列图




3.3.4综合分析:
若将上述用字分析考虑的十三个字词,作为使用辨别分析的参考依据,判定前八十
回及后四十回是否可视为两个不同的群体,可得结果:

                                                        True  Group
Put into Group
           1
           2

           1
          75
           4

           2
           5
          36

      total
          80
          40


Squared Distance between Group=7.16587
也就是用线性判别函数做分类,将前八十回及后四十回视为不同类别的群体时,前
八十回中仅五回分类错误,而后四十回也只有四回,判别的正确率高达92.5﹪。另
外,由F检定做测试,我们也可得出相同的结论,认定前八十回及后四十回在使用
这十三个字词上,有显著的不同,所得之F检定值如下:




其中及n,P=13为考虑的判别因素个数,D=7.16587为两类群体的距离,可得P值几
乎为0。由这个判别分析,我们明显地看出前后半部于用字上确有不同,完全出自
同一作者的可能性非常低。



3.4  变动点分析:


本节使用的变动点分析分法主要为二项分布的假设,根据K.J.Worsley(1983)的
研究,且因为CUSUM检定与Likelihood Ratio 检定结果相近,但Likelihood Ratio
 检定无法处理观测值为0的情形,原则上我们用CUSUM检定来比较。以下为我们检
定所采用的方法:


 ,01




其中为第i回的总字数,为第i回中出现某一特定字词的机率。一般而言,我们要检
定的假设是




    i
   v.s.

其中。假设为第i回中出现此一特定字词的次数,则可定义





CUSUM检定量则为



      其中

而变动点为对应于最大
值的k,显著程度可用
来检定与Pearson 检定量相同。


变动点若出现在第八十回附近(即前八十回与后四十回不同),可支持两个不同作者
的假设;反之则不然。变动点在第八十回附近的字词计有「在」、「着」、「吗」
、「么」、「与」及每回结尾用语共六个。其它字词的变动点则较无规律,例如「
儿」、「了」、「的」三字的变动点是在第五回,「给」、「都」、「多」、「我
们」、「咱们」则散布在第四十回与第八十回间,无法作为两个不同作者的左证。


四、结论与建议
4.1 结论:
    鉴定作者的写作风格相当不容易,作为评判的标准也是见仁见智,某甲认为足
以作为结论的证据,某乙可能不以为然。即使是大家都公认的标准,也可能产生难
以令大家获得共同结论的状况。在现实生活中,因为每个人都有自己的效用函数(
Utility Function),多半可依据自己的需要,作出最合乎个人效用函数的选择。
在本篇研究中,我们先后就文体结构、用字分析及结语用词作分析,共考虑了17个
不同的数值作比较,其中除了少数几个数值(每回总字数、对话比例、「给」、「
我们」、「咱们」),其统计检定不足以支持前八十回与后四十回不同外,我们发
现前后半部确实有显著差异。若以变动点分析为标准,支持前后半部不同点在八十
回前后者,则有诗词比例、「在」、「着」、「吗」、「么」、「与」、每回结尾
用语,问题是17个数值中有7个支持『红楼梦』在第八十回附近,写作风格有一突
然而明显的转变,我们能否根据此一分析结果,作出『红楼梦』一书可能有两个或
两个以上的作者呢?这是在作出本研究的结论前,必须考虑的问题。

  纯粹以7/17的命中率来看,似乎不太能作出有力的结论,但我们有不同的看法。
基本上,我们认为作者固然在用字遣词时不见得前后一致,但我们选用的17个判定
标准中,竟有12个建议前八十回与后四十回的风格不同;藉由其中7个判定标准更
可指出风格的改变在第八十回前后,在机率上如仍坚持『红楼梦』只有一位作者,
其正确的可能性则是微乎其微。

  或许有人会以『红楼梦』一书创作历时十年为理由,认为曹雪芹极可能随年纪及
经验的增长,在写作风格上产生变化,而有前八十回及后四十回不同的用字习惯。
但我们也不能忽略另一件事实,『红楼梦』历经五次增删,曹雪芹在不同时间校阅
自己过去的文章,他的用字习惯应该同时会影响全书一百二十回的文字,而不仅仅
是后四十回。根据红学专家赵冈与陈锺毅的研究,『红楼梦』在第一次或第二次增
删时即已完成全书一百二十回的初稿,故事的大纲与结构应已成形,第三次到第五
次的增删则着重于修饰或补充,例如增补诗词以符合情节需要,或从曹家其它人的
评语建议中增写新的情节。因此作者因创作时间的增长,而产生写作风格改变的推
论,我们并不支持。

  根据我们的分析结果,『红楼梦』有两个或两个以上的作者较为可行。但一般认
为的前八十回为曹雪芹所作,后四十回为高鹗所作却也不是我们较支持的论点。在
本文第一节即已指出,『红楼梦』为一集体创作,代表的是曹家数代的生活经验,
绝非高鹗一人可凭空杜撰,并在短期之内可以延续完成。赵冈及陈锺毅(1980)在他
们的书中,提出一个可能的解答:由于前八十回描写曹家繁荣景象,以戏剧对比为
考虑,后四十响应为叙述贾家遭抄家而家破人亡的惨状,如此更可突显世事无常,
天子喜怒不定与事君如事虎。当然,这种写法必定遭致当政者的封杀,不得已,原
书的结局必须重新修改,以传后世。但改写结局并不是那么容易,尤其曹雪芹在第
五次增删后,因生活的压力而必须任教以赚取生活费,因此并没有足够的时间将改
写的部份再交由同族的亲戚校阅。

  根据我们推测,可能曹雪芹完成了新的结局但未经其亲戚校阅,因此未与前八十
回同时流入世面;也可能曹雪芹在去世前并未将结局改写完毕,而参与创作的其它
人(如曹天佑、曹堂村及畸芴叟)为了使自己的心血公诸于世,继续完成结局的改写
。但因为某种不知名的原因(可能穷困潦倒),无法将最后四十回付梓,直到程伟元
购得后四十回的版本,经高鹗的整理后『红楼梦』才得以一百二十回的面目公诸于
世。其中前后各回的用字可能是原稿散佚不全,经高鹗增补文字后而形成的差异;
或者是曹雪芹的族人续书时,因文笔不同而造成的。无论是以上哪一种可能(或两
者皆是),『红楼梦』的一百二十回版本,应有两位或两位以上的作者,而曹雪芹
以外的作者只直接或间接参与了后四十回的写作,故事的主体应遵循曹雪芹的原意
,如此前八十回与后四十回在情节的衔接上才能毫无破绽。当然,我们的推论虽然
参考了几位红学专家的想法,再加上本研究的统计分析,一定也有不完善的地方,
在后续的研究中,我们将考虑其它可能的统计方法,用另一个角度分析『红楼梦』
的作者问题。


4.2 建议:
  本研究之原始动机来自于变异点的分析,由于过去对『红楼梦』的数量化分析多
半停留在两个样本,并无考虑前八十回及后四十回的差异是否为一渐进式的改变,
这也是本研究与众不同之处。但限于对于红学知识的不足,在选取判断标准上遭遇
不少问题,尚有许多其它测度量未能考虑。

  本研究未来可能的方向可朝向品种问题(Species Problem)及重复补取模型
(Capture-Recapture Model)发展。以品种问题而言,我们可以把每回出现的文字
视为观查值,计算共有多少不同的字出现,每个出现的字共出现几次,由这些数据
判断回与回之间是否相同,进而论证是否全书一百二十回可分为两组不同的族群
(population),其中前八十回在一个族群内,而后四十回在另一族群。如此则可避
免比较标准选取的问题,使得结果更具说服力。另一个研究方向则是与红学专家合
作,选取其它有意义的字词或理念作为比较标准。举例而言,施铁民(1994)在甲戌
年台湾红学会议中,提出一篇研究『红楼梦』意象的文章,其中论证「红」、「绿
」使用频率之高,应非偶然(全书有九千条含红绿及其同义颜色的例子)。如果可与
红学专家合作,将文学上的比较标准数量化,可赋予统计分析在文学专业上的意义


参考文献:
(1)中文部份:
1.赵冈,陈锺毅(1980),"红楼梦研究新编",联经出版社.
2.高阳(1977),"红楼一家言",联经出版社.
3.高阳(1983),"高阳说曹雪芹",联经出版社.
4.冯其庸等校注(1984),"彩画本红楼梦校注",里仁书局.
5.周汝昌(1994),"甲戌年话甲戌本披露之原委",甲戌年台湾红学会议论文.
6.施铁民(David Steelman, 1994),"红学为体计算机为用--从红楼梦的意象谈起
",甲戌年台湾红学会议论文.



(2)英文部份:
1.Bailey, B. J. R.(1990)"A Model for Function Word Counts", Applied
Statistics, 39, pp.107-114.
2.Bissel, A. F.(1995)"Weighted Cumulative Sums for Text Analysis using
Word Counts", Journal of Royal Statistics, Series A, 158, pp.525-545.
3.Brodsky, B. E. and Darkhovsky, B. S.(1993)"Nonparameteric Methods in
Change-point problems", Academic Publishers.
4.Chernoff, H. and Zacks, S.(1964)"Estimating the current mean of a
Normal Distribution which is Subject to Changes in Times",  Annals of
Mathematical Statistics, 35, pp.999-1028.
5.Efron, B. and Thisted, R.(1976)"Estimating the Number of Unseen
Species: How many Words did Shakespeare Know?", Biometrika, 63, pp.
435-447.
6.Hinkley, D. V. and Hinkley, E. A.(1970)"Inference about the
Change-point in a Sequence of Binomial Variables", Biometrika, 57, pp.
447-488.
7.Hinkley, D. V.(1971)"Inference about the Change-point from
Cumulative Sum Tests", Biometrika, 58, pp.509-523.
8.Holmes, D.(1995)"Who was the Author?", Journal of Royal Statistics
News, Vol. 23, No. 2, pp.1-2.
9.Horvath, L.(1989)"The Limit Distributions of Likelihood Ratio and
Cumulative Sum Tests for a Change in a Binomial Probability", Journal of
 Multivariate Analysis, 31, pp.148-159.
10. Karlgren, B. (1952), "New Excursions in Chinese Grammar", in
Bulletin of the museum of Far Eastern Antiquities (Stockholm), No. 24,
pp. 51-80.
11.Mosteller F. and Wallace D.L.(1984),"Applied Bayesian and Classical
Inferrence:The Case of The Federalist Papers",Springer-Verlag.
12.Pettitt A. N.(1979)"A Nonparametric Approach to the Change-point
Problem", Applied Statistics, 28, pp.126-135.
13.Pettitt A. N.(1980)"A Simple Cumulative Sum Type Statistic for the
Change-point Problem with Zero-one Observations", Biometrika,67,pp.
79-84.
14.Smith, A.F.M.(1975)"A Bayesian Approach to Inference about a
Change-point in a Sequence of Random Variables", Biometrika,62,pp.
407-416.
15.Thisted,R.and Efron, B.(1987)"Did Shakespeare Write a
Newly-discovered Poem?", Biometrika, 74, pp.445-455.
16.Sichel, H.S.(1986)"Word Frequency Distributions and Type-token
Characteristics", The Mathematical Scientist, 11, pp.45-72.
17.Williams, C. B.(1975)"Mendenhall's Studies of Word-length
Distribution in the Works of Shakespeare and Bacon", Biometrika,62,pp.
207-212.
18.Worsley, K.J.(1983)"The Power of Likelihood Ratio and Cumulative
Sum Tests for a Change in a Binomial Probability", Biometrika,70,pp.
455-464.
19.Yue, C.J.(1994)"Bayesian Sequential Tests for Comparing the Species
Richness of Two Populations", Ph.D. thesis, Univ. of Wisconsin-Madison.

20.Zacks, S.(1991)"Detection and Change-point Problems", Handbook of
Sequential Analysis, Mercel and Dekker.


--
         ¤ ╭⌒╮ ╭⌒⌒╮
          ╱◥██◣ ╭ ╭ ⌒⌒╮梦里的家园
         ︱田︱田田| ╰----------------------
         ╬╬╬╬╬╬╬╬╬╬╬╬╬╬╬╬╬╬

宠辱不惊,闲看庭前花开花落;去留无意,漫随天外云卷云舒。

※ 来源:·荔园晨风BBS站 bbs.szu.edu.cn·[FROM: 61.144.235.39]


[回到开始] [上一篇][下一篇]

荔园在线首页 友情链接:深圳大学 深大招生 荔园晨风BBS S-Term软件 网络书店