- 1、本文档共19页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
?
?
大规模古籍文本在中国史定量研究中的应用探索
?
?
欧阳剑
摘要利用新的信息技术与面向数字人文研究的跨学科方法,采用大数据研究理念对古籍文本进行字词的历时词频分布规律可视化分析,以中国史定量研究为例,对部分中国史的经典宏观理论从量化角度进行了初步验证。认为大数据视域下的技术逻辑和人文逻辑相耦合的数字人文研究为人文社会科学经典理论的验证和拓展提供了更多研究空间与研究方法,有利于推进古籍文献深层次的开发与利用。
关键词大数据数字人文定量分析计量史古籍
1.引言
随着“大数据”时代的到来,对大规模历史资料进行定量分析已成为历史学研究中一种新的、行之有效的方法,通过统计分析从大规模数据中挖掘新事实、产生新认识,能够发现靠传统文献阅读无法发现的隐藏在历史文献中的史实与现象。20世纪中期以来,历史学定量分析逐渐成为国际学术研究中的一股新风潮,并服务于学界,现在学者们认为许多不具备数字特征的事物或事件,只要所研究的事物或事件存在特征并能加以量化,同样可进行定量研究,计量史学在经济史、政治史、社会史、人口史等领域研究中取得了很多的研究成果,发挥着巨大的作用。人文学科中的定量研究不仅能通过数据挖掘新发现,更能解释和理解这些发现,进而改变我们固有的历史和社会科学理论与认知。
大数据给了人文学科研究的全新思维。人文学科研究往往会预先设定研究问题或理论模型和假设,然后去寻找相关材料,但部分研究因为材料收集有较强的主观性和选择性,往往倾向于重复确认“已知”,而忽略发现“未知”。因此,很难促进对社会事物整体规律形成统一且有效的认知。而大数据研究思维则不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。埃雷兹·艾登(ErezAiden)等在《可视化未来数据透视下的人文大趋势》(UNCHARTED:BigDataasaLensonHumanCulture)中以“谷歌图书”项目为背景,通过500多万本电子书不同词汇使用频度随时间的变化,讲述了大数据在研究历史文化、人类语言、社会名望、群体记忆等方面的重要作用,凸显了大数据对人文社会科学研究的变革意义。大数据时代的各种思潮和视角在不断涌现,大数据作为一种全新的资料,以其大大超越传统调查数据的样本量和时间跨度,为人文社会科学经典理论的验证和拓展提供了更多研究空间。而基于大数据的定量分析则为人文社会科学研究提供了一个全新的视角,传统人文社会科学的实证研究强调在理论的前提下建立假设,大数据时代重在发现知识与现象,在没有理论假设的前提下去预知,从海量的数据中发现知识,寻找隐藏在数据中的模式、趋势和相关性,揭示事物现象与发展规律,大规模的古籍文献扩大了人文学科资料的范围,提供了人文学科新的研究空间和新的研究可能。
2.大数据视域下的传统古籍文献开发及利用分析
目前,我国古籍文献的数字化已经比较成熟,文字层面的数字化也具一定规模,为古籍的深度开发与利用奠定了基础。古籍文献的统计分析是数字人文研究对古籍深度利用的基本需求,定量分析则是数字人文研究的一种主要研究方式。与传统的定性分析不同,定量分析是依据统计数据,建立数学模型,并用数学模型计算出分析对象的各项指标及其数值的一种方法。因此,定量分析的应用使人文学科研究更趋于科学化。人文学科的研究者对定量分析的需求日趋强烈,研究者不再满足检索结果的简单罗列,更需要从计量学的角度对符合一定条件的古籍文献从作者、文献来源、体裁及年代等多角度进行统计分析。近年来学者在古代诗、词、古代文学及中国史等研究中采用定量研究的趋势更为明显,例如,武汉大学著名词学研究者王兆鹏教授把文献计量的方法成功地引入词学研究中,李伯重教授在史学研究中大量地采用量化方法,李中清教授通过定量方法提出了150年来中国精英出身家庭四个阶段论述,胡俊峰、俞士汶利用统计分析的方法定义了唐宋诗中词汇语义的统计表达,20世纪90年代中期,北京大学开发的古诗研究系统就设置了统计分析的功能,定量方法的使用使得人文学科的研究成果增加了定量的特征,增强了人文科学研究的科学属性。
此外,多元、多角度的对比分析及古籍内容挖掘也是人文学科中数字人文研究所急需的。科学研究可以从多个角度进行对比分析,发现新的问题与现象,寻找隐藏在数据中的模式、趋势和相关性。对于作为史料来源的古籍文献来说,通过文献记载的史实对比,可以考察文献原始出处及后续的演变。哲学上,空间和时间的依存关系表达着事物的演化秩序,时间及空间上的比较分析法是常用的分析方法,它从时间角度和空间角度对事物的发展及变化进行立体式的描述,将是古籍文献深度利用方面的重要方式。而古籍内容挖掘更是人文学科领域深度分析的主要方式。利用文本挖掘技术可以对历史事件的发展等做出宏观的描述,更能准确地还原历史真相,对古籍文献中错综复杂人
文档评论(0)