网站大量收购闲置独家精品文档,联系QQ:2885784924

汉语句子的信息处理.PPT

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
汉语句子的信息处理

第四章 汉语句子的信息处理 授课时间:2006年12月18日 授课人:徐艳华 教学目标 汉语树库的建设 汉语自动句法分析的方法 汉语语义结构分析 一、汉语树库的建设 汉语树库的构建分成两个阶段进行: 第一阶段:在经过正确切分和词性标注处理的汉语语料文本上,标注正确的功能语块信息,形成语块库。 第二阶段:在汉语句子的语块标注结果上,分析并标注句子的正确句法结构树,形成完整的树库。 分阶段的汉语树库构建模式 二、汉语自动句法分析 1、汉语自动句法分析的目标 在语法层面,一个句子如果有结构歧义,应给出多个分析树。分析树以句子为根结点,以其他短语标记为中间结点,以词为叶子结点。 在语义层面,应标注出每个结点之间的动态语义关系。例如,“关心的是他母亲”,语法上没有结构歧义,但表述了不同的动态语义关系: 谓词:关心;施事:他母亲;受事:他(?) 谓词:关心;施事:他(?);受事:他母亲 2、自动句法分析的方法 (一)完全句法分析 定义 “完全”包括两个意思,一是语法分析+语义分析,二是分析到每个词。 完全句法分析的困难 形态贫乏,分析时缺少形式标记 词类多功能,组合可能性指数增长 “名+动+名”是什么结构? 缺乏可利用的词语知识和语义知识 “转移到X的轨道上” “X点了Y的穴位” 缺乏可利用的大规模树库 (二)部分分析法 定义:只作语法分析,并且不一定分析到每个词。其目标不那么“宏伟”,但可行性较强。包括: 骨架分析(Skeleton Parsing),只要求分析出句子的主干成分,例如核心谓词,全句的主语、宾语等。 所谓“核心谓词”,是指一个准子句中充当核心谓语的谓词(动词或形容词)。英语只要根据动词形式找到限定动词就可以了,但汉语的句子里出现多个谓词时,难以判断哪一个是核心谓词。 一个谓词在准子句中是否核心谓词,跟以下因素有关: (一)谓词本身的类别,某些谓词比别的谓词更经常充当核心 (二)谓词之前状语的个数、谓词之后的结果补语(语料中标为vc)或动态助词的个数。经简单的统计可以看出,挂在谓词上头的这种“零碎”越多,谓词充当核心的概率越高。不过,介词结构状语可以很长,其内部层次可以很复杂,可能包含别的谓词,这时就很难确定是哪个谓词的状语了。 (三)谓词前后的结构助词“的”,谓词类别相同时,离“的”越近,充当核心的可能性就越低。当然也要看夹在中间的是什么词性标记,例如谓词+结果补语+“的”,其中谓词不可能充当核心,而谓词+名词+“的”,其中谓词有可能充当核心(“咬死了猎人的狗”)。另外,名词后缀会取消紧邻其前的谓词充当核心的可能性(“出勤率”)。 浅层分析: 浅层分析(Shallow Parsing),只要求识别句子中某些相对简单的结构,它包括两种: 一种是专门针对特定结构的短语进行分析,例如动宾组块: 美国/npu 国会/npu [发布/vgn 命令/ng] ,/,禁止/vgs 在/pzai 美/nps [从事/vgn 或/c 学习/vgn 理/ng 工/ng 农/ng 医/ng] 的/usde 中国/nps 人/ng [回/vgn 国/ng] 。/。 另一种是不针对特定结构的分析,例如实词组块: 关于/pg [李正海/npc [感人/a 事迹/ng]NP]NP 的/usd [报告会/ng] ,/w 正/dr 在/pg [广西/nps 各地/s]NP 举行/vg ./w 从组块角度看汉语的短语类型 左边界确定的短语类型:介词结构、动宾结构。 右边界确定的短语类型:“的”字结构、方位结构。 左右边界都确定的短语类型:某些介词结构,如“在…期间”、“从…之中”;补附结构(动词+动态助词,动词+结果补语)、量词结构(数词+量词,指示词+量词)、某些状中结构(副词状语+动词),等等。 左右边界都不确定的短语类型:并列结构、定中结构、主谓结构。 (三)骨架分析与浅层分析的区别 骨架分析是只做上层结构的分析,不再往下深入;浅层分析是只做叶子结点的归并,“浅尝辄止”。 骨架分析的前提是,句子结构分析跟短语结构分析有不同的方法和依据,否则可以用同样的方法和依据来做完全的句法分析了。浅层分析的前提是,句子中有一些短语其内部无嵌套结构,或嵌套不深,这些短语的分析可以不依赖上下文的完全分析。 三、汉语句子语义结构分析 (一)句模、句类、句型 句模:句子的语义结构分类,又叫语义句型或语 义结构关系 句类:句子按照语气进行的分类,包括陈述、疑问、祈使和感叹句。 句型:根据结构关系对句子划分出的类型简称句型。 (二)语义结构成分的确立 国内学者提出了很多“格”系统。其中影响比较大的是林杏光先生、鲁川先生根据现代汉语的特点提出的“格关系”。林杏光等先生从3000多个

文档评论(0)

2105194781 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档