切换到宽版
北斗六星!·百事通·查看新帖·设为首页·手机版

北斗六星网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
北斗六星网 六星时事 酒 巷 给曹雪芹做亲子鉴定——《红楼梦》后40章为续作的铁证!
查看: 1499|回复: 31
打印 上一主题 下一主题

给曹雪芹做亲子鉴定——《红楼梦》后40章为续作的铁证! [复制链接]

跳转到指定楼层
主楼
发表于 2022-5-25 11:16 |只看该作者 |倒序浏览 |
搜索本主题

  跟大槐公主聊天,说到了《红楼梦》,大公主坚信这部奇书是由曹雪芹完全创作,不存在续篇。但我大学期间再读红楼时,感觉后半部分的描写明显逊色一筹。粗略的记忆是,前半部分的文字敏感点很丰富,很多人物描写的语言、细节、用词都需要仔细揣摩一番,才能捕捉到人物的心理和性格。比如某某“抢着说”,就要去思考他为什么“抢着”说,想了那么几秒,豁然开朗。另外,前半部分即便叙述一些细小的事件,三五百字之间人物心理、事情发展往往都有些曲折变化,摇曳生姿的多,平铺直叙的少。诸如此类,与后有别。

  总之,前八十回的文字耐读,叙述有趣,曲径通幽,可以逐字逐句进行精读;后四十回无论摹人叙事,都有一通到底的直白之感。

  其实,与搜罗考证历史资料、文献相比,通过文笔的差别去判断作者是否统一是最简单直接的思路,因为文字本身就才是最真实的证据。但话说回来,这方面的体验比较个性化,再加上续写者有意的模仿,使得大家更难分辨。因此,我们只能将这种差别作为自己的判断标准,而不能作为呈堂证供让公众去评判。

  因为被大公主的认真与执着所打动,我昨天重新看了《红楼梦》,决定跟她一起甄别下这个疑案。可惜手机看了半天,看得眼睛发疼,后来想想即使我看完后再洋洋洒洒写一篇前后对比的论文,也不足以直观、充分的证明我的论断,岂不白白费力?既然只是想根据前后行文风格是否相同,确定是否为同一个作者;那么,完全可以通过更科学、更客观、更直观的方式去研究。

  于是,我决定采用了一种新型的研究方法,利用大数据和概率对《红楼梦》前后全部文字进行分析,并得出极为直观和准确的数据。好比做亲子鉴定,对《红楼梦》各部分文字进行DNA测试、比较,以一目了然的结果来鉴定此事。具体方式如下:


1

查看全部评分

分享到: QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
分享分享0 收藏收藏0 顶0 踩0

使用道具 举报

沙发
发表于 2022-5-25 11:16 |只看该作者
本帖最后由 杨逍逍 于 2022-5-25 11:18 编辑


  第一步:确定方向

  我锁定“了、的、一、说、是、着、又、那、便、得、因、可、且、地、但”15个行文中最常用的助词、语气字,尝试对比《红楼梦》前后两部分中这些字的使用规律,看是否接近或统一。

  我相信,在同一种文字风格的小说中,同一个作者对这些字的使用特征是相同的,在不同部分里肯定有浮动但不可能有较大差别。既然我们无法充分明晰、证实文笔的风格差异,我们就去证实、明晰这些文字的运用差异

  我统计的是这些字的使用次数和使用率,而这些,就是作者文字里蕴含的DNA!


1

查看全部评分

使用道具 举报

板凳
发表于 2022-5-25 11:16 |只看该作者
本帖最后由 杨逍逍 于 2022-5-25 11:19 编辑



  第二步:确定方法

  我计划将共120章的《红楼梦》分为前、中、后40章三部分,分别统计这些字的使用次数和使用率。前、中40章可以确定都是出自曹雪芹笔下,两组数据应该相对接近;通过这两组数据的对比,我们可以获得同一个作者,在不同文字中文字使用数据的浮动范围。

  后40章是存疑部分,其使用率可与前80章进行对比;同时对比出其与前80章使用数据的浮动范围。如两组使用率具和浮动范围接近,可视为DNA相同,基本确定是同一个作者;如果两者相差较大,可以确定不是出自一人笔下。

  以上为文字DNA对比的基本逻辑。



使用道具 举报

地板
发表于 2022-5-25 11:16 |只看该作者
本帖最后由 杨逍逍 于 2022-5-25 11:22 编辑



  第三步:数据统计

  我在网上下载TXT版本《红楼梦》全文,统计总数字863141个;前40章271939个,中40章314982个,后40章276220。如此庞大的调研基础,完全可以确保相关数据的客观性和真实性。

  我通过word里“替换”功能,分别得出上述文字在前中后三部分中的使用量,并按大小进行了排序。出乎意料的是,“且、地、但”在清代文字中使用率较低,居然排到倒数三名;而且“地”字加上作为名词在“地上”、“背地”等词语里的应用,也排倒数第二。这三个字因为数量太小,未被我列入正式统计样本。

  根据文字使用数量,又计算出各个字的使用率。其结果如图:


附件: 您需要 登录 才可以下载或查看,没有帐号?立即注册

使用道具 举报

5
发表于 2022-5-25 11:16 |只看该作者
本帖最后由 杨逍逍 于 2022-5-25 11:27 编辑


  第四步:前、中40章文字使用率的浮动范围

  根据上图中的使用数据,让前40章的使用率“除以”中40章的使用率,即可得出不同字的使用浮动范围。

  通过对比发现,前、中40章里,上述12个字中(后三个数量太小,偶然性较大,剔除),使用率相差上下相差最大的分别是“又”和“那”字;“又”字使用率下浮16.40%,“那”字使用率上浮19.84%。除这两个字外,另外10个字的使用浮动范围都在15%以内。

  注:考量的主要的是浮动范围,其实所谓上浮并不是前40章比中40章使用率高,而是低。具体数据如图所示:


附件: 您需要 登录 才可以下载或查看,没有帐号?立即注册

使用道具 举报

6
发表于 2022-5-25 11:16 |只看该作者
本帖最后由 杨逍逍 于 2022-5-25 11:28 编辑



  第五步:前80章和后40章使用率浮动范围

  根据基础数据,算出前80章的文字使用率,再跟后40章的进行对比;得出前80章和后40章使用率的浮动范围。

  通过对比发现,该浮动范围比前、中40章的浮动范围大了很多。“因”字上浮76.06%,“那”字下浮29.16%,12个字中浮动率在15%以内的只有“了”、“的”、“说”三个字。而“了”、“的”是最最常用的汉字,“说”也是对话为主的《红楼梦》中最常用的字。同时,12个字中有6个字(着、又、那、得、因、可)的使用率浮动空间大于20%;4个字(那、得、因、可)使用率浮动空间大于或约等于30%。

  通过对比发现,后40章中最常见的文字使用规律与前80章中的有极大差别;亦即它们的作者行文习惯有极大不同。


附件: 您需要 登录 才可以下载或查看,没有帐号?立即注册

使用道具 举报

7
发表于 2022-5-25 11:17 |只看该作者
本帖最后由 杨逍逍 于 2022-5-25 11:30 编辑


  第六步:前80章和后40章文字使用率排名

  从10个字使用率排名角度分析。前、中40章中所提取12个字使用率排名大致相似,除了“说、是”“着、又”两组使用量接近而发生紧邻的次序调换外(但属于同一梯队),其它8个字的排名相同;这说明前、中40章文字使用习惯相同,DNA大体一致。

  后40章使用率排名与前、中相差极大,12个字中除了前3名外,其它均无法与前保持一致。这说明该部分文字使用习惯与前两者相差极大,DNA明显不同。


附件: 您需要 登录 才可以下载或查看,没有帐号?立即注册

使用道具 举报

8
发表于 2022-5-25 11:17 |只看该作者
本帖最后由 杨逍逍 于 2022-5-25 11:33 编辑


  结论:

  通过科学的文字研究,我们发现曹雪芹所作的前、中40章文字使用规律相近,我们可将此规律视为曹雪芹文字的DNA。后40章与前两者文字使用习惯相差极大,其作者文字DNA与曹雪芹不同。

  在题裁相同,风格接近,场景相同,人物相同,历史背景相同的同一部小说里,在至少27万字以上的庞大统计基础上,如果作者相同,不可能出现DNA有较大差异的情况。

  因此可以确定,《红楼梦》前80章与后40章,文字DNA差异较大,不可能是同一个作者!

  注:本方法采用最直接的证据,最客观的数据分析,仿佛人的“笔迹鉴定”;但因为时间有限,没有增加采样数量,有兴趣的朋友可以分析更多字、词的使用规律作对比,来更准确的鉴定这一结论。


使用道具 举报

9
发表于 2022-5-25 11:23 来自手机 |只看该作者
杨逍逍 发表于 2022-5-25 11:16
  第一步:确定方向

  我锁定“了、的、一、说、是、着、又、那、便、得、因、可、且、地、但”15 ...

这个可以有,比如我老爱在一句话后面用哈。了字有时用啦等特点。

使用道具 举报

10
发表于 2022-5-25 11:23 来自手机 |只看该作者
杨逍逍 发表于 2022-5-25 11:16
  第一步:确定方向

  我锁定“了、的、一、说、是、着、又、那、便、得、因、可、且、地、但”15 ...

这个可以有,比如我老爱在一句话后面用哈。了字有时用啦等特点。

使用道具 举报

11
发表于 2022-5-25 11:24 来自手机 |只看该作者
先饭饭,等会儿细看。

使用道具 举报

12
发表于 2022-5-25 12:08 来自手机 |只看该作者
请不要笑话我不识数哈,看到你的表格就头疼。但是,在红楼梦研究中,这样的用现代大数据说话的你不是第一个。比如,有人拿程本和脂本对比分析来证明哪个是伪本。
具体到一个字的出现频率,这个对比我认为不科学。
原因,前四十回的故事情节和中四十回后四十回能一样吗?这个情节不一样,遣词造句就不一样,用的语气助词也不一样。所以,你这个是无用功根本没有道理。
要是这样来鉴定作品真伪,这也行的话,我到底建议你直接就查出第一回多少字。以后每回字数不一样就不是一个作者写的,多简单啊!哈哈哈!

使用道具 举报

13
发表于 2022-5-25 12:59 |只看该作者
古老传说 发表于 2022-5-25 12:08
请不要笑话我不识数哈,看到你的表格就头疼。但是,在红楼梦研究中,这样的用现代大数据说话的你不是第一个 ...



不要小看那些差异;当统计规模足够大的时候,就会有必然规律。就像赌博,单次来看虽然输的概率比赢的稍微低一些,但一直赌下去必输无疑。

我选择了十五个字,这些字基本都是辅助词,是遣词造句的必然元素,这样就能脱离情节、背景等影响,做更准确的参考。就像盖房的砖块,无论在路边、河边还是其它地方,它们都有使用的必要。而且,这些字的使用特征每个人都会有差别。

另外,这些字大部分是小说里出现次数多的字,也足以作为代表;除了“贾”“玉”“王”等特指词外,比这十来个字出现频次更高的字不多了。

我没精力和条件去做更大规模的分析。但前、中40回文字特征接近,而后40回与前、中特征差异较大;这足以说明问题。




使用道具 举报

14
发表于 2022-5-25 13:07 |只看该作者

好比测谎仪。普通人判断撒谎从语言内容、表情变化、形体动作去做直观判断,但对于伪装高手就不行了。

测谎仪通过脉搏、呼吸、皮肤电阻等方面进行监测和对比,监测的是肉眼与直观之外的数据信息,而且是必然变化的信息;所以,它的鉴定结果正确率大大提高。

上述文字的使用,就相当于生理上的各种指标。

使用道具 举报

15
发表于 2022-5-25 13:10 |只看该作者
这密密麻麻的的数字

理工科看书纬度都是精确的

使用道具 举报

16
发表于 2022-5-25 13:10 |只看该作者
会不会前八十回是曹頫,后四十回由于文字狱加上因罪残疾出家的曹頫身体缘故,做了删改,又无力重写,由曹雪芹最后修订完成

使用道具 举报

17
发表于 2022-5-25 13:16 |只看该作者
舞婆娑 发表于 2022-5-25 13:10
这密密麻麻的的数字

理工科看书纬度都是精确的



重要的是思路。这个思路能摆脱外界的各种干扰,直接分析最可靠的证据——小说文字本身,连情节、人物等等内容都不分析,直接分析最基本元素,字。

而每个人对文字的运用确实有规律可循,而且不知不觉中都有较大差异。

1

查看全部评分

使用道具 举报

18
发表于 2022-5-25 13:18 |只看该作者
四手 发表于 2022-5-25 13:10
会不会前八十回是曹頫,后四十回由于文字狱加上因罪残疾出家的曹頫身体缘故,做了删改,又无力重写,由曹雪 ...



不知道。我能感觉出前后行文有较大差异,而对文字的分析也印证了确实有差异。

使用道具 举报

19
发表于 2022-5-25 13:33 |只看该作者
后四十回那个穷酸气啊……

使用道具 举报

20
发表于 2022-5-25 14:02 |只看该作者
杨逍逍 发表于 2022-5-25 11:16
  第一步:确定方向

  我锁定“了、的、一、说、是、着、又、那、便、得、因、可、且、地、但”15 ...

别说,就我个人的写作习惯而言,或许,这真是个办法!

使用道具 举报

21
发表于 2022-5-25 15:09 |只看该作者
养生丸 发表于 2022-5-25 14:02
别说,就我个人的写作习惯而言,或许,这真是个办法!



对于习惯写字的人,且相同风格的文字,这个规律基本跑不了。但要有相当大的文字基数。



使用道具 举报

22
发表于 2022-5-25 15:09 |只看该作者
鱼小溅 发表于 2022-5-25 13:33
后四十回那个穷酸气啊……



情节走向就不一样。

使用道具 举报

23
发表于 2022-5-25 15:32 |只看该作者
杨逍逍 发表于 2022-5-25 15:09
对于习惯写字的人,且相同风格的文字,这个规律基本跑不了。但要有相当大的文字基数。

是,即使时间跨度很大,换言之,即便水平越来越高,但最初的某些习惯,或者观念,基本不变,顶多精简,越来越精炼~

使用道具 举报

24
发表于 2022-5-25 17:55 来自手机 |只看该作者
杨逍逍 发表于 2022-5-25 12:59
不要小看那些差异;当统计规模足够大的时候,就会有必然规律。就像赌博,单次来看虽然输的概率比赢的 ...

逍帅,首先你的类比就不对,砖于房子的应用是取决于房子的高矮窗台门的大小,来确定用多少块砖。再不管是砖散落在河边还是哪里,我们把它收集了盖房子。
同样道理,你选用的这几个文字就是砖,使用多少?得因房子而异!
前中后的情节背景不一样,虽然都是四十回,也不能要求它们都得使用一样数量的字和词。你的这个就和我那个师父封建余孽一样,他能把红楼梦读者分出两组,然后用性别划分,喜欢前八十回的是老娘们,喜欢后四十回的是老爷们一样可笑啊。
拿你的统计数据说吧,第一个字了,前四十回使用率2.28%中四十回是2.58%后四十回是2.52那么,你说通过鉴定,中四十回不是原著吗?
还有,且字前四十回和后四十回使用率是一样的,到是中四十回不一样了。你能说中四十回就不是原著吗?
更重要的一点是,你认为这种方法科学,那么,前四十回和中四十回为什么这些字的使用率不是一致呢?既然你承认前四十回和中四十回都是原著都是一个人写的,你怎么不要求这两个四十回的常用字使用率一致呢?既然一个人写的,因情节不同常用字可以浮动,你这个方法用来鉴定后四十回文本就很荒谬。
你的这个方式要是好用,我支持你选几个27万字的小说,然后也鉴定一样使用率,根据这个使用率和红楼梦前四十回常用字的使用率对比,肯定能找出曹雪芹是谁的笔名。
艾玛,恭喜逍帅你又会发现一铁证!成功怎么那么青睐你呢?真是人想走运福至心灵,在家拿着手机脑袋一拍就得了!哈哈哈!

使用道具 举报

25
发表于 2022-5-25 18:14 来自手机 |只看该作者
四手 发表于 2022-5-25 13:10
会不会前八十回是曹頫,后四十回由于文字狱加上因罪残疾出家的曹頫身体缘故,做了删改,又无力重写,由曹雪 ...

不管是谁应该是写完了,由于什么原因不清楚在流传时,前八十回广泛一些。程伟元和高鄂鄂把后四十回收集齐了,但是有些后四十回稿子残缺,高鄂鄂负责编辑整理。这个在程甲本凡例里有交代。也就是有这个交代,后来给了胡博士作假的机会。

使用道具 举报

26
发表于 2022-5-25 18:23 |只看该作者
本帖最后由 四手 于 2022-5-25 18:28 编辑
古老传说 发表于 2022-5-25 18:14
不管是谁应该是写完了,由于什么原因不清楚在流传时,前八十回广泛一些。程伟元和高鄂鄂把后四十回收集齐 ...

是的,都是倾向于是一个人写的,后来由于文字狱,做了很多修改,又散失了不少,后来就不知道怎么整理的了,陈林好像证明了程乙本是造假,具体的我也记不清了

使用道具 举报

27
发表于 2022-5-25 18:25 |只看该作者
古老传说 发表于 2022-5-25 18:14
不管是谁应该是写完了,由于什么原因不清楚在流传时,前八十回广泛一些。程伟元和高鄂鄂把后四十回收集齐 ...

学习我挺喜欢看他们索引什么的,觉得像悬疑片,有意思。
其实我看刘心武说红楼,也觉得好看,像谍战片,只不过那个确实是想象的故事然后我看刘心武把那些中药方子都弄成了暗号一类,觉得好看极了

使用道具 举报

28
发表于 2022-5-25 20:43 |只看该作者
前年有传江浙一座古墓发掘出清代吴梅村的文本,说体制,情节,人物与《红楼梦》极相吻合。
今年不见争论,不知为何。

使用道具 举报

29
发表于 2022-5-26 15:11 来自手机 |只看该作者
四手 发表于 2022-5-25 18:25
学习我挺喜欢看他们索引什么的,觉得像悬疑片,有意思。
其实我看刘心武说红楼,也觉得好看, ...

我又看到我文师姐的文章,也是认同作者是曹頫。那个母亲姓马是曹天佑,我记错了。她有和曹頫同时代的几位失势皇族的朋友。其中爱新觉罗永忠有首诗写红楼梦和曹雪芹的。那诗证明红楼梦是写完的,所以永忠看了会哭。还是四手老师说的怕文字狱是有道理的,他们都躲避不提作者真实名字。只有曹侯芹圃等代替。
1

查看全部评分

使用道具 举报

30
发表于 2022-5-26 16:27 |只看该作者
古老传说 发表于 2022-5-26 15:11
我又看到我文师姐的文章,也是认同作者是曹頫。那个母亲姓马是曹天佑,我记错了。她有和曹頫同时代的几位 ...



妙玉是被谁偷走了?我觉得要是曹雪芹写,会给出暗示和可确定的线索。

曹是上帝视角,啥玩意都知道。

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

北斗六星文学网所有文字仅代表作者个人言论,本站不对其内容承负任何责任。

Copyright ©2011 bdlxbbs.cn All Right Reserved.  Powered by Discuz! 

本站信息均由会员发表,不代表本网站立场,如侵犯了您的权利请发帖投诉   

平平安安
TOP
返回顶部