- 1、本文档共16页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《红楼梦》的文本分析
摘要
《红楼梦》作为中国古代优秀的章回体文言文小说,其中的人物关系错综复杂,所以研究《红楼梦》中的人物关系疏密度具有重要意义。
本文以所选《红楼梦》文段中的人物作为特征项,通过分析人物出现的频率和出现位置的分布,来分析所选文段中人物的主次以及他们之间的关系疏密度。
首先通过Matlab等软件进行编程获取所取的文段样本中的人物以及人物出现的频数和位置分布,再根据人物之间出现位置的绝对值距离与人物之间关系密切性近似成反比的关系来建立能够刻画人物之间关系疏密度的数学模型。通过我们所建立的数学模型计算出的人物之间关系疏密度的结果能够较好地符合所选文段中人物之间关系疏密度的实际情况,我们所得到的人物之间关系疏密度近似服从幂律分布,与现有的一些研究结论相符合。
关键词
人物关系 疏密度 数理统计方法 绝对值距离 幂律分布
问题重述
文本分析是对文本信息进行挖掘,信息检索的一个基本问题,由于文本中一般含有大量的信息,如何从大量的文本中挖掘有用的信息,就需要选取合适的分析角度对文本进行分析。基于数理统计的方法对文本进行分析一直以来是一个热点。对于《红楼梦》的文本分析,目前已有很多人从不同的角度提出了分析方法。如运用聚类分析对虚词分析(1987,[1]),运用独立样本检验动词和名词的搭配(2009,[2])以及运用K-S检验法检验动词,连词的分布等,但现有的分析主要集中在对写作之人写作手法和写作风格上的分析,或是对于情景的关注程度的分析,却没有人对小说三要素之一的人物进行过深入的分析。本文采用数理统计的方法主要对《红楼梦》里的人物主次和主要人物之间关系疏密度进行分析。
问题分析
每个文本里包含了多个人物,每个人名出现的频率存在差异,每个人名可能多次出现,在整个文本里出现的位置也存在差异。要对人物进行分析就要统计每个人物在文本里出现的频率和出现的位置分布。可认为人物出现的频率与人物的重要程度是正相关,对于每个人物出现的位置分布,可认为两人物多次出现的位置邻近的越多,则两人物间关系越密切,反之,两人物的名字出现的位置邻近的越少,则两人物间的关系越疏远。可用绝对值距离来反映两人物的出现的位置的邻近程度,可认为绝对值距离与两人物的邻近程度近似成反比关系。因此两人之间关系疏密度可看成是两人多次出现的位置相互间的绝对值距离反比的累加。基于此来建立我们的数学模型。
模型假设
假设人物名字出现的频数与人物的主次成正相关,出现次数越多,越是主要人物。
假设人物A出现的各个位置附近人物B出现的次数较多且距离人物A出现的位置较近时,可认为人物A与人物B的关系较为密切(这里的关系指两人间的关联,而非带有感情色彩的关系);反之,可认为人物A与人物B的关系较为疏远。
符号说明
:选取的文字去除停用词后的样本;
:选取的文字去除停用词后的样本1;
:选取的文字去除停用词后的样本2;
:选取的文字去除停用词后的样本3;
: 样本的总字数;
:样本的总字数;
:样本的总字数;
:样本的总字数;
:从样本中提取的人物;
:从样本中提取的人物1;
:从样本中提取的人物2;
… …
:从样本中提取的人物n;
:人物出现位置的相对数值;
:人物第1次出现的相对位置;
:人物第2次出现的相对位置;
… …
:人物第m次出现的相对位置;
:人物与人物关系疏密度;
模型建立与求解
模型的建立
记从《红楼梦》中选取的某段文字去除停用词后记为样本,所选的三段文字去除停用词后分别记为,对于样本,它的总字数为,三个样本的总字数分别记为,从样本中提取的某人物记为,提取的n个人物分别记为,人物某次出现的相对位置记为,m次出现的相对位置分别记为,的定义为
上式中乘以100的原因是为避免“人物第m次出现的位置值/人物所在样本去除停用词后的总字数”的数值过小,在使用Matlab处理时会出现较大误差。
人物()m次出现的相对位置组成的一维向量用表示。
定义样本中人物与人物关系疏密度如下:
;
;
;
其中,如果,则令;
的定义:
将从样本中提取的所有人物出现的相对位置值从小到大排列,相邻的相对位置值之差(绝对值)的平均值作为。
引入r的意义:
由于可能出现特别小的情况,当特别小时,会特别大,为了避免过大而引起出现较大误差,故引入r,当时,令;r取所有人物出现的相对位置值从小到大排列后,相邻的相对位置值之差(绝对值)的平均值作为,可使上述误差大大降低,而且所得结果与事实符合的较好。
模型的意义:
当人物出现的各个位置附近人物出现的次数较多且距离人物出现的位置较近时,可认为人物与人物的关系较为密切;反之,可认为人物与人物的关系较为疏远。
我们所定义的关系疏密度是一个能够综合反映人物出现的各个位置附近人物出现次数的多少和距离人物出现位置远近的量。
观察,我们可以看到当有多个出现位置
您可能关注的文档
- 谁说汇报不可以赏心悦目 (2).doc
- 第二十一单元——概率统计.doc
- 谁说马尾都一样10款扎法天天换不停.doc
- 第九章第6讲高分子化合物和有机合成.doc
- 调戏历史(三):后宫美女给皇帝戴绿帽子的四大款式.doc
- 调查报告_默认报告.doc
- 第二届会计知识竞赛活动总结.doc
- 第二届“一战到底”智力挑战活动选手题目.doc
- 第二届国学知识竞赛(2011.3.26).doc
- 调用google地图和网页地图.doc
- 2024年企业人力资源管理师之二级人力资源管理师模拟考试试卷A卷含答案完整版720780578.pdf
- 2024年检验类之临床医学检验技术(师)全真模拟考试试卷B卷含答案优质 完整版720844645.pdf
- 2024年四川省成都市第七中学初中学校中考一模物理试题(解析版).pdf
- 2024年二级建造师之二建水利水电实务过关检测试卷B卷附答案 .pdf
- 2024年教师资格之中学思想品德学科知识与教学能力综合检测试卷A卷含完整版720848701.pdf
- 2024年教师信息技术2.0教研组研修计划(优秀模板6篇)(6) .pdf
- 2024年教师资格之幼儿综合素质通关提分题库及完整答案 .pdf
- 2024年心理咨询师之心理咨询师基础知识通关提分题库及完整答案完整版720794806.pdf
- 2024年消防设施操作员之消防设备初级技能题库附答案(典型题).pdf
- 2024年小学信息技术工作计划样本(三篇) .pdf
最近下载
- 高等应用数学问题matlab求解习题参考答案.pdf
- 农产品交易品种介绍.pptx VIP
- 《扁鹊心书之进医书表》完整版原文全文.pdf
- 2025年陕西省气象部门事业单位公开招聘(49人)笔试备考试题及答案解析.docx
- 黑龙江省哈尔滨市呼兰区2023-2024学年九年级上学期期末数学试题[答案].pdf
- 初中一年级上学期地理《沙特阿拉伯之谜——探究气候对生产和生活的影响》教学课件.pptx
- 监控设备管理规章制度(通用8篇).docx VIP
- 电影头脑特工队Inside.Out台词剧本中英文对照完整版.docx VIP
- KTV治安突发事件处理预案(内部).doc
- 2024煤矿安全ppt课件.pdf
文档评论(0)