网站大量收购闲置独家精品文档,联系QQ:2885784924

2016第七讲中文语料库.ppt

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
衡阳师院中文系古代汉语教研室 * 第六章 中文语料库 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. 一、什么是语料库? 语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。 经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。 人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。 语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. 二、语料库产生的原因 : (1)传统语言学研究方法的落后性是语料库语言学产生的内在动力。 任何一项科学研究都是建立在大量资料之上的。资料占有的完备性、取样的准确性和使用的有效性是科学研究的一个基本条件和前提条件。语言学研究也必须建立在大量的语料基础之上。而传统语言学研究方法在搜集、处理语料方面有很大的局限性,表现在以下几个方面: Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. 一是语料的主观性强。传统语言学的研究方法是“内省”、“举例”方法,这种方法在很大程度上依赖于语言学家的主观经验。用带有浓厚主观色彩的语言事实作为立论的根据,往往是靠不住的。最原始、最可靠的语言证据只能来自使用中的客观语言材料。 二是语料占有量小,覆盖面窄,代表性差。通过手工获得的语料从数量上不能得到充分的保证,致使其覆盖面不够大,自然代表性就差,由此得出的结论的科学性令人怀疑。 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. 三是语料整理工作量大,共享性不够,效率低。比如编一本《牛津英语词典》需要准备近500万张卡片,编《现代汉语词典》这样一部中型词典,资料卡片超过100万张。工作量之大可想而知。而且每一张卡片都是就某一项特定的要求制作的,不能移作他用,使用效率很低。而现代语料库存储的语料量大,具有充分代表性,而且存贮在磁盘上,并附有多功能检索系统,可根据多种不同的需要,从不同的角度,对语料进行重组,提高了语料的共享性。 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. 四是知识问题。一般语法著作和词典提供了语言知识。但是就汉语词典来看,没有哪一本大型汉语词典是带有词性标注的用法解释的。像英语的朗文词典和牛津词典那样的专门为外国人学习语言而编纂的详解词典,在国内还没有见到。这就给计算机进行汉语信息处理带来不便,迫切需要带有词性标记的语料库作基础,并进一步形成一个供计算机使用的语言知识库。 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. (2)计算机的运算速度和存贮容量的大幅度增长是语料库得以发展的物质基础。 计算机的运算速度快使得计算机语料库具有建库快、使用方便的优点。 计算机语料库容量大使得计算机语料库具有占用空间小、成本低的优点。 如果一个卡片盒装2000张卡片,编《现代汉语词典》的100万卡片需要500个卡片盒才能装下,而用30张5·25英寸盘则可全部装下,仅占1/3抽屉的面积。而且成本低,如果一张卡片1分钱,100万张卡片需要1万元,如果用磁盘存贮,每张磁盘7元钱,30张磁盘只需要210元。用其他介质则更优势明显。 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. (

文档评论(0)

rxpb887b8 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档