- 1、本文档共52页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
自然语言理解-语料库
语料库 什么是语料库 语料库是语言材料的集合 语料库的特点 必须是真实语言环境中出现过的语言材料 必须是以电子计算机为载体 必须经过一定的分析、加工和处理 语料库的类型1 按来源分类 口语语料库 书面语语料库 按语言分类 单语语料库 双语语料库 按加工分类 生语料库 熟语料库 语料库的类型2 按加工方式分 单语 原始语料库 切分标注语料库 句法树库 语义标注语料库 …… 双语 篇章对齐语料库 句子对齐语料库 词语对齐语料库 结构对齐语料库 …… 语料库研究的历史 第一代(1970-80年代) 百万词级 以语言研究为导向 第二代(1980-90年代) 千万词级 词典编纂-应用导向 第三代(1990年代-) 超大规模(上亿词级) 标准编码体系 深度标注/多语种 NLP应用 第四代(?) 互联网作为语料库 第一代语料库1 Brown语料库 始建于1960年代初 W.N.Francis和H.Kucera发起 美国Brown大学建立 世界上第一个根据系统性原则采集样本的标准语料库 主要代表当代美国英语 规模100万词次 第一代语料库2 LOB语料库 始建于1970年代初 由英国Lancaster大学著名语言学家Geoffrey Leech倡议 挪威Oslo大学StigJohansson主持完成 安装在挪威Bergen大学挪威人文科学计算中心 规模于Brown语料库相当 主要代表当代英国英语 第一代语料库3 LLC语料库 1960年代初,由Randolph Quirk主持 收集2000小时的谈话和广播等口语素材并整理成书面材料 由瑞典Lund大学J. Svartvik主持全部录入计算机 1975年建成 第二代语料库1 COBUILD语料库 建于1980年代 以词典编撰为应用背景 有英国Birminghan大学与Collins出版社合作完成 规模达2000万词次 基于该语料库出版的Collins Cobuild词典(1987)受到了广泛的好评 第二代语料库2 Longman语料库 建于1980年代 包括三个语料库 LLELC语料库(Longman/Lancaster英语语料库) LSC语料库(Longman口语语料库) LCLE(Longman英语学习语料库) 目标是编撰英语学习词典,为外国人学习英语服务 词典规模达5000万词次 第三代语料库2 PennTreeBank(宾州大学树库) 美国Pennsylvania大学1980年代末开始发起 由该校计算机系M.Marcus主持 1993年,完成了对近300万英语词的句子语法结构标注 2000年完成了中文树库(第一版):10万词次,4185个句子 第三代语料库1 ACL/DCI语料库 美国ACL倡议发起 收集语料范围广泛 华尔街日报 Collins英语词典 Brown语料库 PennTreeBank 一些双语或多语文本等 既有已标注的语料,也有未标注语料 制定了语料库文件的格式标注 采用统一的SGML标注语言 语料标注依照TEI(Text Encoding Initiative)标准 语料库的收集、整理和应用 语料的选取 Summers, Longman/Lancaster English Corpus: Criteria and Design, Harlow: Longman –精品原则 –有影响力原则 –随机挑选原则 –高流通度原则 –典型性原则 –易于获得原则 –具有统计样本意义原则 –符合语言规范原则 平衡性:主观性强 语料库的加工 语料库标注(Annotation) 1)词性标记(Part-of-speech tagging) 2)句法层次和范畴标记(Grammatical parsing) 3)词义标记(Word sense tagging) 4)篇章指代标记(Anaphoric annotation) 5)韵律标记(Prosodic annotation) 语料库加工工具 分类工具名称功能描述 A. 文件处理工具 文本过滤器 将不同的文件格式转成为纯文本文件格式 文本分类器 自动判别文本领域 语料库辅助校对工具及一致性检查工具 按照语料库加工规范,对语料质量进行管理 B. 语言处理工具 分词与词性标注工具 对语料进行词语识别,词性标记处理 词义标注工具 对词义进行标注 浅层分析工具 对语块(chunk)进行标注 句法分析工具 对句子进行完全句法分析 双语语料对齐工具 对双语语料进行各个层级(段落、句子、小句、词的对齐加工 双语语料库(Bilingual Corpora)加工 段落对齐 句子对齐 词对齐 短语对齐 双语句子对齐 基于长度(length-based)的对齐方法Gale Church (1993) 纯粹基于句
您可能关注的文档
- 自己的花是让别人看的.ppt
- 自感(新授课).ppt
- 自感和互感.ppt
- 自己的花是让别人看的课件2.ppt
- 自我介绍_PPT.ppt
- 自我决定理论.ppt
- 自我介绍技巧.ppt
- 自我探索 上.ppt
- 自我探索图.ppt
- 自我介绍模板.ppt
- 中国路桥(集团)总公司校园招聘模拟试题附带答案详解参考答案.docx
- 中国路桥(集团)总公司校园招聘85人公开引进高层次人才和急需紧缺人才笔试参考题库答案详解版汇编.docx
- 中国路桥(集团)总公司校园招聘85人公开引进高层次人才和急需紧缺人才笔试参考题库答案详解版新版.docx
- 中国路桥(集团)总公司校园招聘模拟试题附带答案详解一套.docx
- 粉丝加工项目环评报告表.docx
- 中国路桥(集团)总公司校园招聘模拟试题附带答案详解及答案一套.docx
- 竞聘护士长演讲稿实用500字范文8篇.docx
- 中国路桥(集团)总公司校园招聘85人公开引进高层次人才和急需紧缺人才笔试参考题库答案详解版审定版.docx
- 复杂金精矿多元素综合回收项目硫酸罐区新增硫酸储罐项目环评报告表.docx
- 中国路桥(集团)总公司校园招聘85人公开引进高层次人才和急需紧缺人才笔试参考题库答案详解版完美版.docx
文档评论(0)