- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
暑假学术会议学习汇报.doc
2007暑假学术会议学习汇报An Introduction to Corpus Linguistics 计算机辅助第二语言研究技术应用
汇报人:楚向群
一、An Introduction to Corpus Linguistics
Contents
语料和语料库
语料库的起源和发展
主要的语料库和工具
语料库语言学的理论解析
语料库的应用
国内语料库语言学的研究现状
语料库语言学的前景展望
1.语料和语料库
语料(corpus)是指收集的未经组织和加工过的语言材料和素材。 ——戴炜栋,1999
语料(corpus)又称为素材,是自然发生的语言材料(包括书面语和口语)的集合。可以用来作为描述一种语言的出发点或用于证实有关一种语言的假设的手段。 ——陈建生,1989
语料库是按照一定的语言原则,运用随机抽样方法,收集自然出现的连续的语言,运用文本或话语片段而建成的具有一定容量的大型电子文本库。从其本质上来说,语料库实际上是通过对自然语言运用的随机抽样,以一定大小的语言样本代表某一研究中所确定的语言运用总体。 ——杨惠中,2002
语料库——按照特定目的与方法建立起来的存储语言材料的“仓库”。
语料库语言学(corpus linguistics)——
是以语篇预料为基础对语言进行研究的一门科学,是计算语言学(computational linguistics)的一个分支。
2. 语料库的起源和发展
2.1 计算机化以前的语料库
1. 为词典编纂,语法研究而收集的语料。eg. Johnson, 1747: Plan of an English Dictionary
2. 为教学目的而编制的书面语料库与词表 eg.Thorndike,1921:含450 万词的英语文章库,主要由经典文学作品和圣经构成
3. 为语言调查而收集的方言库 eg. Ellis,1889:将英格兰,苏格兰划分为42 个方言区, 并据此 写成了835 页的分析专著。
2. 计算机化的语料库
3. 主要的语料库和工具
Brown (1963 – 64) ——《布朗大学当代美国英语标准语料库》( The Brown University Corpus of Present Day American English) 。含100 万1961 年前后的书面英语。由Francis 与Kucera 主持完成。
COBUILD——John Sinclair 主持,迄今最大的语料库之一;含的语料超过5 亿词。
BNC——英语国家语料库,收词一亿多,牛津大学/朗文/钱伯斯-哈洛普出版公司。
ICE——国际英语语料库,口语和书面语各一库,收词1百万
The Bank of English——英语库,收词2.5亿。朗文/柯林斯/伯明翰大学。
国内英语学习者语料库
3.3 软件工具
concordancer——索引软件。功能是“要语行索引” (KWIC) :要查的关键词连同上下文被迅速以单行的形式同时展现在屏幕上,为词汇学研究提供了很大便利。Result1 result 2
Wordsmith——索引软件。提供关键词检索,语块检索等。关键词及上下文共显。英国,付费。
Tagger——标注词类软件。词性赋码工具。
Classifier——分类软件。能在几段文章共同点的基础上,罗列有关实例。该程序又可为区分文章提供基础。
Collocator——词语搭配软件。可帮助确定词形搭配,包括复合词,固定短语等。
Disambiguator——消歧软件。根据词语搭配的能力来消除歧义。
MicroConcord、 ConcApp6.0、VocabProfile、PowerGrep
4. 语料库语言学的理论解析
4.1语言事实与语言理论
langue vs parole; competence vs performance
Questions ?
语言事实和语言理论哪一个是第一性的?
4.2.1 Probability vs Rules
4.2.2 概率语言学的兴起
4.2.3 基于规则和基于概率的实际应用
如:机阅作文成为可能;机器翻译的新生
4.3 语料库语言学的兴起及其学科地位
4.3.1 国外语言学家的认识
4.3.2 国内学者的认识
5. 语料库的应用
用于语法分析和语言对比(如初期建成的LOB 语料库)。
在语言学和应用语言学研究中,基于语料库的研究深入到语音分析(phonetic analysis) 、语音识别和合成 (speech recognition ,speech synthesis) 、词语研究(lexical studies) 、词语搭配分析、语法分析和语法教学、句法分析、语义分析、语用分析、话语分析、翻译研究、词
文档评论(0)