网站大量收购独家精品文档,联系QQ:2885784924

语料库语言学重点.ppt

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语料库语言学重点

语料库语言学 提纲 1 什么是语料库?? 2 语料库的发展简史?? 3 语料库的设计?? 4 语料库的加工?? 5 语料库的应用 语料库与语料库语言学 传统上认为语料库就是存放语言材料的仓库(或数据库)。 语料库语言学主要包括两方面的内容: 一是对自然语料进行加工、标注; 二是用已经标注好的语料进行语言研究和应用开发。 1 什么是语料库 在今天,仅仅将语料库视为存放语言材料的仓库,是令人无法忍受的观点。新一代的兆亿级的大规模语料库可以作为语言模型的训练和测试手段,来评价一个语言模型的质量;此外,诸如困惑度之类的统计方法也可利用语料库来评估一个语法模型对语料的解释能力。——Geoffrey Leech, The State of The Art in Corpus Linguistics, 1991, InAijmar, K. and Altenberg, B. , eds. , English Corpus Linguistics: Studies in Honor of Jan Svartvik, London:Longman, 1991. 关于语料库的三点基本认识 1.语料库中存放的是在语言的实际使用中真实出现过的语言材料;?? 2.语料库是以电子计算机为载体承载语言知识的基础资源;?? 3.真实语料需要经过加工(分析和处理),才能成为有用的资源; 语料库示例(一) 北京大学计算语言所富士通人民日报标注语料库样例: 历史/n 将/d 铭记/v 这个/r 坐标/n :/w 北纬/b 41.1/m 度/q 、/w 东经/b 114.3/m 度/q ;/w 人们/n 将/d 铭记/v 这/r 一/m 时刻/n :/w 1998年/t 1月/t 10日/t 11时/t 50分/t 。/w ……[中国/ns 政府/n]nt 顺利/ad 恢复/v 对/p 香港/ns 行使/v 主权/n ,/w 并/c 按照/p “/w 一国两制/j ”/w 、/w “/w 港人治港/l ”/w 、/w 高度/d 自治/v 的/u 方针/n 保持/v 香港/ns 的/u 繁荣/an 稳定/an 。/w 语料库示例(二) London-Lund英语口语语料库样例 ^what a_bout a cigar\ette# ./ *((4sylls))*/ *I ^w\ont have oneth/anks#* ---/ ^arent you .going to sit d/own# -/ ^[/\m]# -/ ^have my _coffee in p=eace# ---/ ^quite a nice .room to !s\it in ((actually))#/ *^\isnt* it#/ *^y/\es#* ---/ 转引自TonyMcEnery Andrew Wilson, 1996, Corpus Linguistics, p55。 语料库与语言知识库 语言知识库(Linguistic Database) 语料库(corpora/corpus) 2 语料库发展简史 早期语料库语言学( 20世纪50年代中期以前,乔提出转换生成语法理论之前的所有基于语言材料的语言研究) (语言习得:方言学;语言教学;句法和语义;音系研究) 20世纪50年代Chomsky的影响(1.乔认为基于语料库得研究方法有误,提倡理性主义;2.语料的不充分性,短语结构具有递归性) 第一代(1970-80年代)?? 第二代(1980-90年代)?? 第三代(1990年代-) 第一代语料库 Brown语料库 ?? LOB语料库 百万词级以语言研究为导向 ?? LLC语料库 第二代语料库 COBUILD语料库 ? 千万词级词典编纂-应用导向 Longman语料库 第三代语料库 ACL/DCI语料库 (上亿词级) ?? 标准编码体系 UPenn树库?? 深度标注/多语种 LDC超大规模 NLP应用 3 语料库的设计 语料库的编码体系 SGML(标准置标语言)/MarkUp/SGML/ XML(可扩展的置标语言)/TR/REC-xml TEI(文档编码计划)/ CES(语料库编码标准)/Applications/index-co02.html 冯志伟,1998,《标准通用置标语言SGML及其在自然语言处理中的应用》,载《当代语言学》1998年第4期。 CES标准(Corpus Encoding Standard) 语料库/n 标记/n 应该/v 有/v 规范/n sample_corp

您可能关注的文档

文档评论(0)

4477704 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档