自然语言理解-句法歧义消解详解.ppt

  1. 1、本文档共41页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
句法歧义消解 上海交通大学 陈玉泉 内容提要 基于特征的消歧 PCFG ME Reranking 评测体系 基于特征的消歧 基本框架 基本规则: 校验 传递 组成部分 文法 上下文无关文法 特征操作(合一也可以是其他) 校验,传递 词典 特征的来源 例子 文法及其特征操作 NP ? n T: NP.head = n NP ? NP1 NP2 T: NP.head = NP2.head NP ? MP NP1 V: MP.quan in NP1.head.Qset T: NP. MP ? m q T: MP.quan = q 词典 火车.Qset = {列、种、节…} 票.Qset = {张、种、沓、堆…} 例子(cont) MP(一张) + NP(火车) “V: MP.quan in NP1.head.Qset” will fail, since “张” is not in {列、种、节…} MP(一张) + NP(火车票) is successful. 例子(cont) PCFG Probabilistic Context Free Grammar 一般统计模型的原型 P(x | w, G) = P( w | x, G) * P( x | G) / P(w | G) 这里x是我们的分析树,w是句子,G是文法 Xres = argmaxx P(x|w,G) 由于P(w | x, G) = 1, P(w | G) 对所有输入都一样 所以, Xres = argmaxx P(x | G) PCFG基本概念 每一条产生式都有一个概率P(r) 句法树中每个节点都有一个概率 可以把叶结点的概率定为1 树的概率P(x|G)等于根节点的概率 概率从叶节点开始往上计算,可以用递归表示。 计算方法 For leaf nodes, assign the probability as 1. For non-leaf nodes, For a subtree generated by production: r:A?u1u2…un , the Probability is: Where S(A), S(ui) is the probability of A and ui, P(r) is the probability of production r. 图示 统计 计数 + 正则化 Eg. 1. 每个产生式出现的次数(子树) (20) NP ? NP NP (18) NP ? n (18) VP ? VP NP (14) VP ? v 2. 对左部进行正则化. P(NP ? NP NP) = 20 / (20 + 18) = 0.526 P(NP ? n) = 18 / (20 +18) = 0.474 P(VP ? VP NP) = 18 / (18 + 14) = 0.562 P(VP ? v) = 14 / (18 + 14) = 0.438 Best-first的实现 把概率结合进图算法: 活动弧(规则概率*识别节点的概率), 弧扩展时,两弧概率相称, 弧触发时,规则概率*原弧概率 改变图算法中agenda的排序策略:概率最高的弧最先处理,这样可以保证所有弧的概率递减。 这样保证了最先出来的结果是概率最大的结果 PCFG的特点 PCFG合理的解释了一个句子可以对应多个分析树 但解释地并不理想 健壮性,对于不符合语法规范的句子,仍然可以给出它的分析树,只是概率小 从实验结果来看,PCFG是比较差的语言模型 如果加入上下文信息,词汇信息,父节点子节点信息,效果可以更好 PCFG的概率大小并不代表该分析树在实际情况下出现的次数。(概率和长度有关) 扩展—加入简单上下文信息 共现概率 Co-occurrence Probability (COP) Preceding COP PA(v,C), prob that C is ahead of v. ( C在V后面) Succeeding COP PF(v,C), prob that C follows v. ( C在V前面) 这里v必须是词汇范畴,即叶结点 PA(v, C) = P(Cv | v);PF(v, C) = P(vC | v) COP(C) = PA * PF 图示 统计 计数 + 正则化 1. 计数 (v, C). 如果C出现在句首,应该算到NF(e, C). 如果在句尾,NF(v, e) +1 2. 同理计算(C, v), 即NA(v, C) 3. PF(v, C) = NF(v, C) / N(v); PA(v, C) = NA(v, C) / N(v); 与PCFG结合 For a Parsing Tree S; PCFG

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档