几种概率模型.ppt

  1. 1、本文档共85页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
几种概率模型.ppt

条件随机场 conditional random fields IIS算法: 重新定义: 将每个对观察序列和标记序列对(x,y)起作用的特征值的和近似等于对于观察序列x的最大可能的观察特征的和 使用牛顿一拉夫森方法求解 L-BFGS算法: Jorge Nocedal用Fortran语言实现了L-BFGS工具包来进行条件随机场的参数估计与训练,该数学工具包可从 /~nocedal/下载。 另外,Taku Kudo实现了L-BFGS算法的c语言版本,该工具集成在了其开发的CRF++工具包中,网址为 /~taku/software/CRF++/。 Dong C. Liu and Jorge Nocedal : 【On The Limited Memory BFGS Method For Large Scale Optimization】 2、梯度算法 3.模型推断 第二个问题通过Viterbi算法解决。Viterbi算法是一种动态规划算法,其思想精髓在于将全局最佳解的计算过程分解为阶段最佳解的计算。 二、对于未标记的序列,求其最可能的标记。 常见的两个问题:一、在模型训练中,需要边际分布 和 ; 第一个问题采用前向后向法解决; 最大熵马尔科夫模型举例——基于文本的网络地址信息抽取 任务:完成地址,电话,传真,E-mail 等信息的识别和抽取 流程图 页面预处理 页面文本中加入#用于保留结构信息和页面内容的自然划分,便于对文本页面的进一步处理。 模型建立 确定状态集合Y ,观察值(特征)集合 X 状态集合包含:邮编、电话、电邮、地址、联系人、账号、手机、网址、传真,对于其他可能出现的状态定义了“other”来代表。 特征集合包含:“具有@符号” “最大数字串长度为6” “最大数字串长度为11” “最大数字长度大于15” “最大数字长度小于6,字符串总长度介于8到30” “最大数字长度小于6, 字符串总长度小于6”,…… “最大数字串长度介于6到11” “最大数字长度小于6,字符串总长度大于30” 特征函数 表示数据集X, Y的特性: 如果x只含有6位数字y=邮编 其他 进一步引入一系列的特征函数 参数学习 用上述的状态和特征集对初步抽取样本进行统计,得到每个状态所对应的样本集,通过对于每个这样的样本集合采用 GIS算法进行参数学习,最终得到 MEMM。 说明: GIS算法要求对于每一个x,y,特征之和达到一个常数C,即有 如果不满足,则令 并加入一个修正函数,使得 1.初始 2. (a)计算每个特征的 (b) (c)用当前的 值计算 (d)更新 (e)满足收敛条件,结束;否则转到(b) GIS算法的步骤: 通过GIS算法得到状态转移函数,这些状态转移函数的集合组成了MEMM模型 识别和抽取 (1)输入观察值序列 (2)递归 (3)结束 改进的Viterbi算法 评测指标 召回率(Recall)= 正确识别出的实体个数 标准结果中实体的总数 精确率(Precision)= 正确识别出的实体个数 识别出的实体总数 关键:特征的选择 ╳100% ╳100% 在中文信息处理领域,命名实体识别是各种自然语言处理技术的重要基础。 命名实体:人名、地名、组织名三类 条件随机场模型举例——中文命名实体识别 模型形式 关键:特征函数的确定 适用于人名的特征模板 “上下文”,指的是包括当前词w0及其前后若干个词的一个“观察窗口”(w-n,w-n+1,…w0…,wn)。理论上来说,窗口越大,可利用的上下文信息越多,但窗口开得过大除了会严重降低运行效率,还会产生过拟合现象;而窗口过小,特征利用的就不够充分,会由于过于简单而丢失重要信息。 通过一些模板来筛选特征。模板是对上下文的特定位置和特定信息的考虑。 还建立了若干个资源列表,包括:中国人名姓氏用表、中国人名名字用表、欧美俄人名常用字表、日本人名常用字表。 “人名的指界词”:主要包括称谓词、动词和副词等,句首位置和标点符号也可。 根据指界词与人名同现的概率的大小,将人名的左右指界词各分为两级,生成4个人名指界词列表: 定义了用于人名识别特征的原子模板,每个模板都只考虑了一种因素: 当特征函数取特定值时,特征模板被实例化就可以得到具体的特征。 “当前词的前一个词w-1在人名1级左指界词列表中出现” If PBW1(w-1)=ture and y=person else 类似的,做地名、组织名的特征提取和选择,并将其实例化,得到所有的特征函数。 模型训练流程图 评测指标 正确识别的命名实体首部(尾部)的个数 标准结果中命名实体首部(尾部)的的总数 召回率(Recall)= ╳100% 精确率(Precision)= 正确识别的命名实

文档评论(0)

尐丶丑 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档