网站大量收购闲置独家精品文档,联系QQ:2885784924

基于隐马尔科夫的词性标注讲稿 By于江德.ppt

基于隐马尔科夫的词性标注讲稿 By于江德.ppt

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于隐马尔科夫的词性标注讲稿By于江德整理ppt

基于隐马尔科夫模型的词性标注 于江德 安阳师范学院自然语言处理小组 2009年4月7日 内容提要 词性标注 后面经常用到的公式 词性标注的任务 自然语言中一词多类的现象 把这篇报道编辑一下 把/q-p-v-n 这/r 篇/q 报道/v-n 编辑/v-n 一/m-c 下/f-q-v Time flies like an arrow Time/n-v flies/v-n like/p-v an/Det arrow/n 所谓词性标注就是用计算机来自动地给文本中的词标注词类(如:名词、动词)。 意义 为更高层次的自然语言文本加工提供素材 为语言学的研究,提供翔实的资料 从加工过的文本中获取词类及频度的词性标注知识 词性标注的实质:寻找最优路径 隐马尔可夫模型简要回顾 隐马尔可夫模型是在马尔可夫链的基础之上发展起来的。由于实际问题比马尔可夫模型所描述的更为复杂,观察到的事件并不是与状态一一对应,而是通过一组概率分布相联系,这样的模型就称为隐马尔可夫模型(HMM)。 HMM是一个双重随机过程,其中之一是马尔可夫链,这是基本随机过程,它描述状态的转移。另一个随机过程描述状态和观察值之间的统计对应关系。这样,站在观察者的角度,只能看到观察值,不像马尔可夫链模型中的观察值和状态一一对应,因此不能直接看到状态,而是通过一个随机过程去感知状态的存在及其特性。因而称之为“隐”马尔可夫模型。 HMM的形式描述 对于一个随机事件,有一个观察值序列:O1,...,OT 该事件隐含着一个状态序列:X1,...,XT 一个隐马尔可夫模型 (HMM) 是一个五元组: (ΩX , ΩO, A, B, π ) 其中: ΩX = {q1,...qN}:状态的有限集合 ΩO = {v1,...,vM}:观察值的有限集合 A = {aij},aij = p(Xt+1 = qj |Xt = qi):转移概率 B = {bik},bik = p(Ot = vk | Xt = qi):输出概率 π = {πi}, πi = p(X1 = qi):初始状态分布(初始概率) HMM的三个基本问题 令 λ = {A,B,π} 为给定HMM的参数, 令 σ = O1,...,OT 为观察值序列, 隐马尔可夫模型(HMM)的三个基本问题: 评估问题:对于给定模型,求某个观察值序列的概率p(σ|λ) ; 解码问题:对于给定模型和观察值序列,求可能性最大的状态序列;(对应词性标注问题) 学习问题:对于给定的一个观察值序列,调整参数λ,使得观察值出现的概率p(σ|λ)最大。 词性标注和HMM 如何建模? 单词序列、词性序列? 三个概率如何得到? 两个随机过程? 问题的实质? 基于HMM进行词性标注(1) 两个随机过程 1、选择罐子:上帝按照一定的转移概率随机地选择罐子 2、选择彩球:上帝按照一定的概率随机地从一个罐子中选择一个彩球输出 人只能看到彩球序列(词序列,记作W=w1w2…wn),需要去猜测罐子序列(隐藏在幕后的词性标注序列,记作T=t1t2…tn) 已知词序列W(观测序列)和模型λ的情况下,求使得条件概率p(T|W,λ)值最大的那个T’,一般记作: T′= arg max P(T|W, λ) 基于HMM进行词性标注(2) 首先,构造如下的统计计算模型: 令W=w1w2…wn为一多词类词串,C=c1c2…cn为可能的词类标注结果串。P(C|W)为给定W条件下C出现的概率。如果不考虑更大的上下文,我们可以认为使得P(C|W)的值取得最大时的C出现的可能性最大。这样就把词类标注问题转化为寻找一组标记串C′,使得: C′= arg max P(C|W) (1) 基于HMM进行词性标注(3) 根据贝叶斯定律,可以得到: (2) 其中P(W)为常量,不需要考虑,关键在于对P(C)和P(W|C)的计算。由于两者的参数估计极为复杂,在实际应用中,往往需进行简化。对于P(C),我们使用了二元语法Bigram近似,得到: (3) 基于HMM进行词性标注(4) 而对P(W|C),只考虑每个词依赖于它本身的词类的情况,可以得到: (4) 综合(1), (2), (3), (4),最终得到:

文档评论(0)

zyzsaa + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档