- 1、本文档共29页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四节 汉语自动分词系统及分词规范
第四节 汉语自动分词系统及分词规范 思考题 教学目标 自动分词的系统——人机互助的汉语语料库多级加工系统(CCMP) CCMP的设计思想 CCMP的整体结构框架 CCMP的资源数据库 CCMP的各基本处理模块的功能 自动分词的规范 一、CCMP的设计思想 在语料库的加工处理过程中,随着人力物力的不断投入,经过校对的正确标注语料的数量也在不断增加。这是一笔巨大的财富,其中包含了丰富的语言学知识,并隐含了人进行排歧处理所用的各种知识。为了最大限度地发挥这个语言知识库的作用,提高语料库处理系统整体性能便设计了这种人机互助的语料加工处理模型。 CCMP系统的语料加工模型 语料加工模型的特点 普遍性知识和特殊性知识相结合。 当正确标注的语料达到一定规模以后,从中统计得到的分布数据近似地反映了语言中的一些普遍规律,将这些数据运用于自动标注处理,就可以期望获得较高的处理正确率。但语言是千变万化的,具有许多特例。因此系统配备了一个错误驱动的规则学习过程,通过将自动处理结果和人工校对结果相比较,发现错误所在,从中总结归纳出若干特殊情况的处理规则。如此,将统计得到的普遍性知识和学习得到的特殊性知识相结合,可以大大提高自动处理的性能。 语料加工模型的特点 人机处理相结合。 语料加工模型的特点 系统的性能总体提高。 随着正确标注语料规模的不断扩大,将使统计数据反映的信息更加全面,错误校正规则的条件约束更为精确,从而提高了自动标注处理的正确率,降低了人工校对的工作量,使系统的整体性能得到增强。 二、CCMP系统的整体结构框架汉语语料库多级加工处理系统CCMP总体结构图.doc 1、CCMP系统的资源数据库 1、CCMP系统的资源数据库 ⑵内容分类级: 在不同的加工深度下,按语料内容和研究重点的不同进行分类组织 ⑶文件组织级: 将同一内容的语料,组织成一定长度的语料文件 。 1、CCMP系统的资源数据库 电子词典 保存了进行语料加工处理所需要的有关词语的各种语言学知识,目前主要使用了句法特征信息,它们来源于北京大学的计算语言学研究所开发的“现代汉语语法信息词典”以及“现代汉语短语属性信息库”。为提高处理效率,把电子词典分成两大部分: 1、CCMP系统的资源数据库 (1)切分和词类标注词典:包含词语和词类信息,收录了约有7万个词条; (2)短语分析词典:在词条中包含了丰富的句法特征信息,可根据语料的不同适当调整词典的规模。随着系统集成度的提高及电子词典信息的不断扩大,可考虑将两者合二为一。 1、CCMP系统的资源数据库 规则库 在分析大规模的真实语言文本过程中,会遇到各种各样的歧义现象。而要消除这些歧义,就必须依靠大量的语言学知识。将这些知识形式化,我们就得到了大量不同类型的消歧规则。它们主要保存在规则库中。 1、CCMP系统的资源数据库 统计信息库 包含了对语料库信息的各种统计结果。如,带词性标记的词频统计表,两个词性的共现频率矩阵,短语结构分布信息等。它们为基于统计的语料库处理技术提供了客观的语言分布数据。 2、CCMP各基本处理模块的功能 语料库管理模块:通过设置不同的文件目录并自动标识不同的结果文件后缀,为各级语料库处理结果提供一个统一的信息存取机制。 查询控制模块:为用户检索语料库信息提供各种方便的查询工具。其中一项重要的信息是文中的关键词索引 KWIC(Key Word In Context)。 取样分析模块:实现从不同处理层次的语料中进行随机取样的功能,为用户进行语言分析提供方便。 2、CCMP各基本处理模块的功能 统计处理模块:根据不同统计模型的数据要求,对不同处理层次的语料库信息进行多方面的统计处理。 短语自动划分和标注模块:实现短语的自动划分和标注。 人工校对模块:监控人工校对过程,提高处理效率。 规则学习模块:通过对自动处理结果和人工校对结果的比较,总结和归纳错误校正规则。 2、CCMP各基本处理模块的功能 切词和词类标注处理模块:实现了切词和词类标注相融合的处理。起先研究者对40万字的语料进行了切分和标注,发现在切词过程中使用词类信息会带来许多好处:(1)利用歧义切分字段中的不同切分词的词类组合关系及上下文词类信息,可以解决绝大部分切分歧义现象。(2)有助于利用汉语构词法构造新词,解决一部分未登录词的处理问题。(3)有助于发现切词错误。 基于这种认识,在对大规模的汉语语料的加工处理过程中,采用了一种切词和标注相结合的方法,其基本处理流程为: Ⅰ )自动切词并标记 Ⅱ)构词法处理 Ⅲ)词类排歧 Ⅳ)确定未登录词 Ⅴ)回溯处理 二、自动分词的规范 1、分词规范的制定 不管是计算机自动切分标注还是人
您可能关注的文档
最近下载
- 主管药师竞聘.pptx VIP
- 压疮的分期及处理.ppt
- 《鹊桥仙》(共19张PPT)统编版高中语文必修上册.pptx VIP
- 图书馆狮子儿童绘本.ppt
- 成都市建设工程围挡设置技术指南.pdf
- 2023年春重庆理工大学《00015大学英语》题库答案.pdf VIP
- 领导干部日常工作生活中应知应会的法律知识:贪污、受贿、职务侵占等犯罪的案例分析和警示教育(下篇)-2024年云南省执业药师公需课答案.docx VIP
- 银行营销个人工作计划5篇.docx VIP
- 2024年春季国开《学前教育科研方法》期末大作业(参考答案).docx
- 2024-2025学年初中音乐七年级下册苏少版(2024)教学设计合集.docx
文档评论(0)