- 1、本文档共15页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
南大版PPT
隐马尔可夫模型(HMM)在中文词性标注中的应用研究 答辩人: 指导老师: 提 纲 词性标注概述 隐马尔可夫模型概述 实验介绍 实验结果和分析 总结 词性标注概述 词性标注的目标和过程 目标:为句子中的每个词都标上一个合适的词性 过程: 原文: 这件事情在理论界、经济界引起了很大反响。 分词后: 这 件 事情 在 理论界 、 经济界 引起 了 很 大 反响 。 词性标注: 这/r 件/q 事情/n 在/p 理论界/n 、/w 经济界/n 引起/v 了/u 很/d 大/a 反响/n 。/w 词性标注中的信息源 邻接词的词性信息 词本身提供的信息 词性标注概述(cont.) 词性标注的主要方法 基于规则的方法(Rule-based) 基于统计的方法(Statistics-based) 基于转换的方法(Transformation-based) 词性标注准确率 训练数据量 标注集合 语料库差别 未登录词 隐马尔可夫模型(HMM)概述 HMM的两个假设: 有限视野假设 P(Ot+1=Sk|O1,…Ot)=P(Ot+1=Sk| Ot) 时间不变性假设 P(Ot+1=Sk|Ot) = P(O2=Sk|O1) 隐马尔可夫模型概述(cont.) HMM模型: λ=(A,B,π) S是状态集:S=(S1,S2,…SN) V是观察集:V=(V1,V2,…VM) 状态序列:Q = q1q2…qT (隐藏),观察序列:O=o1o2…oT(可见) A是状态转移概率分布:A=[aij], aij=P(qt=sj|qt-1=si) (满足假设1) B是观察值生成概率分布:B=[bj(vk)], bj(vk)=P(ot=vk|qt=si) (满足假设2) 初始观察值概率分布:π= [πi], πi =P(q1=si) 隐马尔可夫模型概述(cont..) 隐马尔可夫模型的基本问题 给定一个模型λ=(A,B,π),怎样有效的计算某个观测序列发生的概率,即P(O|λ)。(模型拟合程度) 给定观测序列O和模型λ,怎样选择一个状态序列q1q2…qT,以便能够最好的解释观测序列,这个过程通常也被称为译码。(标注过程) 给定观测序列O,以及通过改变模型λ=(A,B,π)的参数而得到的模型空间,怎样才能找到一个最好的解释这个观测序列的模型。(模型训练过程) 隐马尔可夫模型概述(cont...) Viterbi算法: 实验介绍 实验语料库简介 人民日报标注语料库 199801~199806 共含有标注42个,单词130274个 实验建模 S:预先定义的词性标注集(42个标注) V:文本中的词汇(130274个词) A:词性之间的转移概率 B:某个词性生成某个词的概率 例,P(我|“代词”) π :初始概率 实验介绍(cont.) 模型训练 最大似然估计法 实验相关问题 数据稀疏问题 稀疏矩阵 未登录词和概率平滑 留出相应的概率空间 实验结果和分析 整体实验 用199801~199805作为训练语料库,标注199806的结果如下: 待标注总数:1,244,415 正确标注数:1,167,314 错误标注数:77,101 标注正确率:0.938042 未登录词数: 17,071 部分标注的结果: 标注 正确数 错误数 标注准确率 b 8568 675 0.92697 c 27530 1783 0.93917 d 51744 3048 0.94437 实验结果和分析(cont.) Ag 246 158 0.60891 an 2222 1142 0.66052 Dg 50 52 0.49020 e 18 8 0.69231 结论:训练库中标注出现次数对结果有很大影响 小样本实验 然而/c ,/w 由于/c 历史/n 的/u 原因/n ,/w 其/r 在/p 机制/n 方面/n 的/u 种种/q 弊端/n 日益/d 显露/v ,/w 已/d 越来越/d 不/d 适应/v 社会主义/n 市场经济/n 的/u 要求/n 。/w 实验结果和分析(cont..) 错误:“由于”的介词词性p错误标成了连词词性c。 分析:跟踪发现“由于”的前一个词“,”只能被标为w。根据Viterbi算法,下面将计算由w到下一词性并发射单词“由于”的概率。“由于”的可能词性有三个,分别是p、c、d,相关概率的对数值如下: w:-11.3986 w-p:-2.5
文档评论(0)