日语语言文体研究中的计量方法.docVIP

下载本文档

32
0
约8.5千字
约 15页
2016-12-12 发布于北京
举报
版权申诉

日语语言文体研究中的计量方法.doc

1、本文档共15页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

日语语言文体研究中的计量方法摘要：借助原文语料库和计算机技术可以定量地分析日语的词汇和句子，主要考察对象包括句子长度、名词比率、MVR和会话文比率等，通过对这些指标的大规模数据统计和对比分析可以探究日语语言的文体特征。以此为基础对宫泽贤治童话作品的各项指标进行了考察和对比分析，分别计算了其句子长度和描写性语言的分布情况，得出了其个人的文体特征，验证了用计量方法探究日语语言文体特征的可操作性。关键词：日语语言文体计量方法语料库一、相关研究回顾随着信息技术的发展和普及，进入20世纪80年代后，研究者开始借助语料库来研究文本，并通过定量分析来探究文本的特征。人们通常用语料库文体学、计量文体学等词语来描述这一新兴的研究方法。但无论哪种说法，其根本均为基于语料库对文本进行定量分析。近年来，国内对文本进行定量分析的研究主要分为两大类。分别为汉语言文学作品分析和英美文学作品分析。前者研究内容主要集中在唐宋诗词等古代汉语言文学作品的词汇语义、诗词语言风格评价等方面。[1]其用途之一在于通过字、词、标点等出现的频度统计来分析文本的文体风格。在此基础上，还可用于通过字、词、句的出现频率来确定文学作品的创作者。如通过对《红楼梦》前80回和后40回的用词统计，确定后40回是否为曹雪芹所作。也就是说，通过文学作品的计量研究分析文本的语言风格，可以确认未知作者的文本或作者有疑义的文本的真实创作者。国内对文学文本进行定量分析研究的第二类为英美文学作品的量化研究。[2]尽管人们认为量化研究文学文本始于20世纪80年代，但事实上，以日本为例，早在1950年，波多野完治即有所涉及。他随机抽取了500个小说片段进行字数统计，并与报纸、杂志中的文本进行了比较。尽管这只是一个雏形，但可以说开创了日本定量分析文学文本的先河，为后来者提供了一个全新的研究视角。二、定量分析日语文本的文体目前文本的量化分析方法主要运用于分析其文体特征。所谓文体即是文章“内容的展开方式”“作者的表现态度”和“所选取的表达方式”的结合（桦岛忠夫，1968：76）。文体考察实际上是对某一语言特征的考察，即运用语言学的方法将文本作为语言形式来进行文体分析。这种文体分析具体来说即分析、统计文章的音韵、文字和文的具体形态。例如，文章有无音韵规律，经常使用的词语类型，文的构造和功能，多运用短文还是长文，等等。在计算机技术发展之前的定量分析文体方法只适合于“诗歌或语篇片段的分析。对篇幅较大的小说、剧本或一个作家的全部作品困难较大。”（刘世生、朱瑞清，2006：69）就目前的研究情况来看也确实如此。虽然现代文体研究通过抽取文章语言并进行统计，可以明晰某一类文学作品或是某一位作家的语言特征，但到目前为止，所研究的文学作品多为诗歌、短剧等篇幅短小、统计起来较为方便的文学类别，并且统计分析对象大多集中于英语圈作家的作品。国内这类对文体进行定量分析的研究也大多集中在唐宋诗词等古汉语作品这类篇幅相对短小的作品上。“对具体作家的文体风格的研究，以国外居多。”（刘世生、朱瑞清，2006：65）目前国内对日本文学作品和作家的文体研究现状也是如此。但是随着语料库的发展，通过语料库这一平台，分析长篇的日语文本或某一作者的文体成为可能。但从具体的分析考察内容上来说，日语的语言特点决定了其文本与汉语及英语文本存在较大差异。在量化分析汉语及英语文本时，大多采用统计词频的方式，即统计某字或词语出现的频率，进而分析文体风格。但是在日语文本分析中，统计词频较为困难。首先，日语的表记方法多样，有汉字、平假名、片假名以及罗马字等多种方式，有的词语还有多种汉字写法，如「?浃à搿ぬ妞à搿ご?える」，因此同一词语可能会出现多种书写方式；而同样的假名也可能有不同的含义，如「?（あり）?有り（あり）」，这无疑大大增加了词频统计的工作量。其次，日语词汇中活用变化较多，同一含义的单词根据上下文的不同可能会变化成五六种不同的活用形，这同样给词频统计带来不便。因此，在试图运用语料库量化分析日语文本时，需要结合日语的表现特点重新确定考察对象。通过比较分析，可以从以下几个方面着手：1.句子长度这项指标考察每一句中字数或自立语数或文节的数量。由于日语中每一文节仅包含一个自立语，因此该项指标考察的自立语数量和文节数应为一致。一篇文章中，若每句句子越长（即包含的自立语数或文节数越多），则文章越难理解；相反则浅显易懂。波多野完治曾对日本的小说、报纸、杂志文章中的句子长度进行过统计，结果如下：[3]表1：类别小说报纸杂志句子长度/字数 34.5 98 61也就是说在日语文章中，与报纸、杂志报道相比，小说的句子长度是最短的，平均每句句子只有34.5个字。但是与日常对话相比，其结果又将如何？桦岛忠夫曾对具体数值进行过统计，统计结果如下表所示：[4]表2：类别日常对