网站大量收购独家精品文档,联系QQ:2885784924

自然语言理解-词性标注.pptVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

因为一些冷僻词不会在训练语料中出现,所以平滑词生成概率比平滑转移概率更为的重要加一(简单平滑)平滑为了计算下面的式子,是不是需要知道长度为n的句子中所有可能的标注序列t1,n呢?这样算法的复杂度就是指数阶的。一个高效的算法就是Viterbialgorithm壹贰高效的标注算法ViterbiAlgorithm动态规划01寻径算法02ViterbiAlgorithmtjt1…?(j)?(j)ViterbiAlgorithmoTo1otot-1ot+1一个状态序列,使得:观察到直到t-1时刻的各观察值,当前状态是状态j以及t时刻的观察值出现的概率最大。x1xt-1j1oT2o13ot5ot+16DP递归的开始8xt-17x14ot-19jViterbiAlgorithmViterbiAlgorithmoTo1otot-1ot+1下一状态概率x1xt-1xtxt+1递归开始下一状态名ViterbiAlgorithmoTo1otot-1ot+1自后向前“读出”最可能的状态序列x1xt-1xtxt+1xT模型μ=(A,B,?)1状态集2输出3初始状态概率4状态转移概率5符号发射概率6Viterbialgorithm(aTrellisalgorithm)1定义:2初始化递推结束Viterbialgorithm在训练时,我们能够观察到Markov模型的状态,但是在标注时我们只能观察到词。所以我们说在MMTagging时我们使用的实际上是一个混合的方法:01在训练时构造VMMs,但是在标注时把它们当作是HMMs。02但为什么不称它为HMMTagger呢?03注意词性标注?关于标注?比较典型的标注算法有:?总体说来,汉语的词性标注和英语的词性标注在方法上没有明显的不同。于规则的方法。国外在70年代初主要采用这种方法,著名的TAGGIT系统,利用3300条上下文规则,对100万词次的Brown语料库标注正确率到77%。??基于统计的方法。80年代初,随着经验主义方法在计算语言学中的重新崛起,统计方法在语料库词性标注中又占据了主导地位。CLAWS标注系统对LOB语料库的标注正确率达到96%左右。01混合策略。国内北京大学计算语言学研究所提出了一种先规则、后统计的规则和统计相结合的标注算法,其准确率达到了96.6%。02?现在也有人用神经网络和遗传算法进行词性标记,这类文献很少。03?关于标注01自然语言处理的最终目的是要分析并理解语言,但是距离这个目标我们仍然相去甚远。02词性标注是一个中间过程。词性标注给句子中的每一个词赋予一个合适的词性。03POStagging:词性标注考虑在当前词上下文中的词的词性。句法结构信息01当前词本身提供了关于标注的大量信息。词汇信息02词性标注中的信息来源HiddenMarkovModelTaggersMarkovModelTaggers词性标注的主要方法Markov过程/链/模型是由AndreiA.Markov最初发展起来的.它们最初的确就是为了处理语言而设计的:针对俄国文学作品中的字母序列建模。但是,Markov模型之后便作为一个通用的概率工具发展了起来。 为了和隐Markov模型相区别,我们有时也把Markov模型成为显Markov模型(HMM)。Markov模型Markov假设一序列(可能按时间排列)的随机变量不是相互独立的,每一个随机变量的值依赖于序列中前一个随机变量。对于许多这样的系统,我们可以合理的假设:我们只需要知道当前的随机变量的值,就可以来预测所有将来的随机变量,我们并不需要知道随机变量序列中所有过去的值。假设X=(X1,……,XT)是随机变量的序列,它从某个有限集S={s1,……,sN}中取值,这个有限集被称作是状态空间。当X满足Markov性质时,X被称作Markov链。什么是Markov性质呢?Markov假设P(Xt+1=sk|X1,……,Xt)=P(Xt+1=sk|Xt)有限历史LimitedHorizon:P(Xt+1=sk|Xt)=P(X2=sk|X1)这样X是一个Markov链时间不变Timeinvariant(stationary):Markov性质随机转移矩阵Aaij=P(Xt+1=sj|Xt=si)初始状态的概率Markov模型中的概率N元文法模型是Markov模型12

文档评论(0)

136****0775 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档