BYU语料库系统及其语言研究应用.docVIP

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
BYU语料库系统及其语言研究应用.doc

BYU语料库系统及其语言研究应用   摘 要:美国杨百翰大学(BYU)的语料库系统现含10多个免费语料库,在规模、速度、检索方式、语料范围等方面均为同类之最。文章在简要介绍该系统的必威体育精装版进展后,从语言资源和技术手段评价其优势与局限性。然后收集国内外基于该系统的重要前沿研究文献,建成小型文本,用AntConc软件输出其高频主题词,从而分析相关研究的热点和趋势。发现相关研究集中在如下互为交叉的领域――变异语言学、认知语言学、词汇语义学和语言习得或教学。最后从语言研究、外语教学与词典编纂三方面分析了该系统的应用前景,强调它在语言变异和认知语言学研究等方面的特殊意义,并阐述了相关研究的跨学科整合趋势。   关键词:BYU语料库系统;美国当代英语语料库;语言变异;认知语言学   中图分类号:H319.3 文献标志码:A 文章编号:1673-8454(2017)09-0038-06   一、BYU语料库系统简介   1.总体介绍   美国杨百翰大学(Brigham Young University)的语料库系统()由Mark Davies教授创建,目前主要包括11个英语语料库、西班牙语和葡萄牙语语料库各一个。这些语料库之间实现了无缝对接,相互补充,检索一致,自成体系,故称为“系统”。它们应用非常广泛,中国用户数量排世界前列。各库规模、语种(方言)、语料年份及发布年份如表1所示(Davies 2013c)。   最具代表性的是美国当代英语语料库COCA(Davies 2008-),是目前世界上最大的英语通用语料库,分口语、小说、报纸、流行杂志和学术期刊五个均匀的子库。此外还有四个谷歌图书语块库(Google Books)的高级检索平台,以及早期的几个语料库――Register Variation in Spanish、Polyglot Bible、Polyglot Book of Mormon、Medieval Spanish bibles和Latin/OSp/ModSp bibles。   2.必威体育精装版进展   BYU语料库系统的新成员NOW Corpus、GloWbE和The Wikipedia Corpus规模巨大,但检索速度很快,是Sketch Engine或CQPWeb的五六倍。The Wikipedia Corpus是维基百科的高级检索平台,其检索功能远远超过维基百科原有系统,用户还可以挑选其语料来创建临时的个人专题语料库(刘喜琴、Davies,2017)。Hansard Corpus和CORE Corpus分别是英国议会演讲和网络英语语体语料,特别适于历时的语体研究。   Google Books的语料年份从16到21世纪,但其原有检索系统比较简单,用户能查到的信息仅是“冰山一角”。为挖掘该库潜能,Davies(2011a)设计了更为高级的检索平台(),分美国英语、英国英语、百万图书、西班牙语四个子库。除词和词组外,可以检索子字符串(如*ake代表所有以ake结尾的词)、词目(如start的所有屈折变化形式)、词类(如“形容词+woman”)、同义词和搭配(相邻词)等。当然也可在此基础上组合查询,如“形容词+silliness的同义词”,以及一些特别的句法结构。改进后的检索系统使基于Google Books的英语词汇、短语学、句法、语义变化方面的研究成为可能 (Davies 2014c)。   此外,BYU语料库系统发布了几类基于COCA等的英语词频表――常用词词频表、多词单位(n-gram)频率表、搭配词(collocate)表和学术词表,大部分含文体分布信息。第一,常用词频表()包括常用5,000词表、5,000-60,000词表和100,000词表。据该网站介绍,前面两个词表按词目(lemma)排序统计,可能更适合教学用,而最后一个词表按词形(word form)排序统计,含词汇屈折变化形式的频率信息,可能更适于研究用。第二,多词单位频率表()含2至5词单位,其中百万高频多词单位表可免费获取。第三,搭配词表()中含节点词(node)与搭配词组合达430万对,是迄今世界最大、最精确的搭配词表。最后,学术词表()有三个:学术词族表(word families)、核心词表和总词表。该学术词族表接近Coxhead(2000)的英语学术词表,但提供的信息更丰富。学术核心词表含三千词,学术总词表含两万词。   二、BYU语料库系统评价   1.语言资源   从语言资源层面来看,BYU语料库系统的特点主要体现在规模、语料范围与分类以及词频表。   首先,其最大特色是语料库规模大、语料丰富,因此用户能检索到其他语料库无法查到的低频语言现象。加之COCA和GloWbE的部分语料原文和词库可下载,可进一步挖掘其语言资

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档