基于语料库的词汇和语法研究.pptVIP

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语料库与词典编撰 Contents 语料库 语料库对词典编纂的作用 语料采样与语料库分类 语料分析与语言信息检索 语料库 语料库(corpus)是指一个由大量在真实情况下使用的语言信息汇集成的专供研究者使用的资料库; 是指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的语料文本.由于使用计算机的先进技术建设语料库,效率和规模大幅度提高,库存容量大,信息提取快速准确,其效率是人工收集例证所无法比拟的。 语料库对词典编纂的作用 随着电子语料库的出现以及计算机技术的不断发展,语料库对词典编纂起到了划时代的作用。最重要的作用就是省时省力。以往的词典编纂都是人工阅读,人工抄写,将选择的例句记载在纸条或卡片上,然后人工分类、整理和查找,投人了相当大的人力、物力和时间.如今大量电子文本的出现以及光学扫描仪的产生,都大大减少了文本输人的时间,并且计算机的巨大容量使其可以贮存数以亿计的文字信息和符号。 其次是计算机的强大分析能力。计算机可以在短时间内检索到所有相关信息。 其次,和以往词典编纂收集的引证文本相比,语料库更具有代表性。 再次,电子语料库更彻底、复杂的检索、分析能力使得对单词的意思和用法理解得更全面。以前通过人工挑选,一方面是主观性较强,总避免不了根据自身的偏好来选择例句。 CharlesJ.Fillmore和BerylT.Atkins对risk的用法作了一项研究,发现risk作为动词时,有三种不同的直接宾语,这三种直接宾语分别是事件(Deed)、危害(Harm)和所珍惜的物(ValuedPossession),如: I wouldn’t risk the climb. (Deed) Youwouldriskafall.(Harm) Youwouldberiskingyourlife.(VP) 在对十部词典里的risk词条进行比较之后,发现只有《科林斯贝尔特词典》和《朗文当代英语词典》列出了所有三种用法,而其他词典都只列举了其中两种用法,而且不是相同的两种(Fillmore1992:40)。而列举了所有三种用法的这两种词典正好是以电子语料库为基础编纂的,从这一点可以看出语料库在选例方面的优越性。通过认真分析语料库里含有某个单词的句子,可以发现以往所忽略的词的意思和用法。 语料采样与语料库分类 语言是一个无边的海洋,语料库即便达到上亿单词的规模,也只是语海之一粟。但如果要继续扩大语料库规模,并且要求检索速度足够快,普通电脑设备就不能胜任。在现阶段,就普通电脑的处理能力而言,语料库的规模以1一2亿单词为宜。如果规模再大,运行速度就会过于缓慢。然而,要用有限的语料反映语言实际使用情况,就必须制定周密的采样计划,让所选材料具有一定的代表性。首先应当对语言材料进行系统的分类,例如划分出书面语和口语,普通语言与专业语言,标准语与地域变体(包括方言),成人语言与儿童语言,早期语言和当代语言等类别;然后根据各类语料在语言中所占的大体比重,确定合理的采样比例。 语料采样计划很大程度上取决于语料库的用途。语料库根据用途可以分为通用语料库和专门语料库前者旨在反映语言的基本面貌,供编纂普通语文词典使用,各类语料的比例应当保持平衡,不能偏重某一类别。后者用于反映某个专业、年代、地域、体裁、阶层或年龄组等的语言使用情况,供编纂各种专门词典使用。 语料库还可以分为主语料库和辅语料库。主语料库以普通语言材料为采集对象,反映共核语言的使用情况;辅语料库则以特殊语言材料为采集对象,反映各种语言变体的使用特点。主语料库与辅语料库联合使用,则形成大型综合性语料库;各个辅语料库加以扩充便可成为较大规模的专业语料库。 各种语料的采样比例确定之后,大量的工作就是选取具体语言材料(即语篇),输入计算机。其中难度最大的是口语语料入库,需要把口语录音材料逐词转录成电脑文字材料。文字语料入库,早期使用键盘录入或光学字符识别(()CR),相当费时费力。现在电子书籍很多,囊括古今中外各种题材,入库就方便多了。互联网的普及又给采集必威体育精装版语言材料带来极大的便利。当然,在语料入库之前,必须慎重考虑版权问题。 语料分析与语言信息检索 语料分析与处理包括词频统计,索引生成,语法分析,语体分析,语义分析等项目。 词频统计这是最基本的语料分析。其任务是指出每个单词在整个语料库中出现的次数是多少,并且生成词频表,作为词典收词立目的科学根据。 (朗文当代英语词典》(1995年版)则在词条边上用符号和数字表示词目在书面语和口语中的使用频率。其中“S”表示“口语”,“W”表示“书面语”,“1”、“2”、“3”表示有关词项分别属于“1000,,、“2000”、“3000”高频词。 索引生成这也是语料分析处理的重要目,目的在于生成很有参考价值的词项索引,把整个语料库

文档评论(0)

精品天地 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档