语料库语言学(Corpus Linguistics).ppt

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语料库语言学 (Corpus Linguistics) 语料库(corpus) (1)一个语言数据的集合,可以由书面文本构成,也可以由录音言语的转写本构成。 (2)一个语篇的集合,尤其指完整的和自身需求的语篇集合。 (3)语料库是输入到计算机中一大批语言材料的结集。 (4)语料库是载有语言信息的大量语言资料的集合。 语料库的主要目的是鉴定关于语言的假说——例如,确定一个特定的语音,单词,或句法结构的使用是如何变化的。 语料库的分类(根据功能) 一般语料库 专门语料库 样本语料库 监控语料库 语料库的分类 以语料的媒体形式分:书面文字材料的电脑文本、转写的口语语料、视频语料、几种形式的混合语料 以语料库设计分:均衡结构语料库、无结构的随机开放式语料库和由若干子语料库叠加而成语料库网 以语言的来源分:单语种与多语种之分,原语料与翻译之分,操母语的人的言语资料与外语学习者的语言资料之分。 以语料的时效分:共时语料与历时语料 以语料的处理方式分:未经标注的文本语料与经过标注的文本语料 语料库的用途 了解语言在现实中的使用情况 频度信息 语境与上下文信息 语法信息 搭配信息 语用信息 语料库语言学(Corpus Linguistics) 论述语言研究中使用语料的原理和实践。 研究任何语料库中的数据。 语料库语言学的两层含义 一是利用语料库对语言的某个方面进行研究,即“语料库语言学”不是一个新学科的名称,而仅仅反映了一个新的研究手段。 二是依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。 语料库语言学的发展 60年代开始。初期进行词的分析。后来增加了语法属性标注如词性等。 现在人们越来越开始重视对语料库作不同层次的标注,如:语音、构词、句法、语义以及语用等层次的标注 现代语料语言学已经得到越来越多人的承认,其应用也越来越广泛,从语言分析、语言教学、词典编撰到人工智能等领域都开始应用语料库。 语料库语言学的应用 言语研究: (1)语言学理论。(2)语言史研究。 (3)句法、词法及自动语法分析。 词汇研究:编篡工具参考书籍。 语义学。 社会语言学。 心理语言学。 机器翻译及文本校对。 外语教学。 Chomsky对语料库语言学的批判 实证主义 理性主义 语料库对语言学家而言,不再是有用的工具。(必须寻求概括语言能力而不是语言的使用) 叙述一种语言的语法的唯一途径是描述它的规则而不是列举它的句子。 即使语言是一个有限的构造,语料库方法论也不一定是研究语言最好的方式。 除此以外,语料库语言学的实用性也有很多问题。 语料库语言学需要解决的问题 语料库的设计目的。 收集语料时的文本形式、文本所有权和版权的问题。 需要不断更新应用软件以满足语料库的发展需要。 语料库的规模问题。 语料库的代表性问题。 语料的时限问题。 由于语料库须不断更新的需要和检索手段的改良而对语料库标准化提出的更高要求 。 语料库语言学的发展前景 目前以英语为主。 但多语种的并行语料库也会应运而生。 如多语种语料库(The ECI Multilingual Corpus,简称IECI/MCI),近1亿字,包含了所有欧洲主要的语言及土耳其语、日语,俄语、汉语和马来语等。 语料库语言学展现了广阔的发展前景。 * * *

文档评论(0)

allap + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档