网站大量收购独家精品文档,联系QQ:2885784924

CRF_NER文档文档文档.pdf

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

条件随机场

条件随机场(ConditionalRandomFields),是在给定一组输入随机变量条件下另外

一组输出随机变量的条件概率分布模型,它是一种判别式的概率无向图模型,既然是判别式,

拿就是对条件概率分布建模。

综上所述,设有线性链结构的随机变量序列X=(X1,X2,...,Xn),Y=(Y1,Y2,...,YN),在给

定观察序列X的条件下,随机变量序列Y的条件概率分布为P(Y|X),若其满足马尔科夫特

性,即

P(Yi|X,Y1,Y2...Yn)=P(Yi|X,Yi−1,Yi+1),这时P(Y|X)则为线性链条件随机场

条件随机场(ConditionalRandomField,CRF)是经典NER的主流模型。

它的目标函数不仅考虑输入的状态特征函数,而且还包含了标签转移特征函数。

在训练时可以使用SGD学习模型参数。在已知模型时,给输入序列求预测输出序列即

求使目标函数最大化的最优序列,是一个动态规划问题,可以使用Viterbi算法解码来得到

最优标签序列。

CRF的优点在于其为一个位置进行标注的过程中可以利用丰富的内部及上下文特征信

息。

介绍CRF

假设你有许多小明同学一天内不同时段的照片,从小明提裤子起床到脱裤子睡觉各个时

间段都有(小明是照片控!)。现在的任务是对这些照片进行分类。比如有的照片是吃饭,

那就给它打上吃饭的标签;有的照片是跑步时拍的,那就打上跑步的标签;有的照片是开会

时拍的,那就打上开会的标签。问题来了,你准备怎么干?

一个简单直观的办法就是,不管这些照片之间的时间顺序,想办法训练出一个多元分类

器。就是用一些打好标签的照片作为训练数据,训练出一个模型,直接根据照片的特征来分

类。例如,如果照片是早上600拍的,且画面是黑暗的,那就给它打上睡觉的标签;如果照

片上有车,那就给它打上开车的标签。

这样可行吗?

乍一看可以!但实际上,由于我们忽略了这些照片之间的时间顺序这一重要信息,我们

的分类器会有缺陷的。举个例子,假如有一张小明闭着嘴的照片,怎么分类?显然难以直接

判断,需要参考闭嘴之前的照片,如果之前的照片显示小明在吃饭,那这个闭嘴的照片很可

能是小明在咀嚼食物准备下咽,可以给它打上吃饭的标签;如果之前的照片显示小明在唱歌,

那这个闭嘴的照片很可能是小明唱歌瞬间的抓拍,可以给它打上唱歌的标签。

所以,为了让我们的分类器能够有更好的表现,在为一张照片分类时,我们必须将与它

相邻的照片的标签信息考虑进来。这——就是条件随机场(CRF)大显身手的地方!

POS标注问题

非常简单的,就是给一个句子中的每个单词注明词性。比如这句话:“Bobdrank

coffeeatStarbucks”,注明每个单词的词性后是这样的:“Bob(名词)drank(动词)

coffee(名词)at(介词)Starbucks(名词)”。

下面,就用条件随机场来解决这个问题。

以上面的话为例,有5个单词,我们将:**(名词,动词,名词,介词,名词)**作为一

个标注序列,称为l,可选的标注序列有很多种,比如l还可以是这样:**(名词,动词,

动词,介词,名词)**,我们要在这么多的可选标注序列中,挑选出一个**最靠谱**的作为

我们对这句话的标注。

怎么判断一个标注序列靠谱不靠谱呢?

就我们上面展示的两个标注序列来说,第二个显然不如第一个靠谱,因为它把第二、第

三个单词都标注成了动词,动词后面接动词,这在一个句子中通常是说不通的。

假如我们给每一个标注序列打分,打分越高代表这个标注序列越靠谱,我们至少可以说,

凡是标注中出现了**动词后面还是动词**的标注序列,要给它**减分!!**

上面所说的**动词后面还是动词**就是一个特征函数,我们可以定义一个特征函数集

合,用这个特征函数集合来为一个标注序列打分,并据此选出最靠谱的标注序列。也就是说,

每一个特征函数都可以用来为一个标注序列评分,把集合中所有特征函数对同一个标注序列

的评分综合起来,就是这个标注序列最终的评分值。

CRF中的特征函数们

现在,我们正式地定义一下什么是CRF中的特征函数,所谓特征函数,就是这样的函

数,它接受四个参数:

文档评论(0)

会计从业资格证持证人

具备金融(银行,证券,保险,互金),物流,IT(甲方和乙方),贸易,电商,制造业(包括半导体和电子制造),咨询公司等行业工作经验。 多年IT行业项目经理,产品经理,咨询顾问,需求分析,质量保证等岗位工作经验。 调研报告,手册撰写,产品介绍,技术报告,总结报告,作文写作,公文写作,心得体会,品牌故事。 管理体系搭建,财务体系搭建,战略规划定制,建设方案定制,企业转型方案,行业分析报告,数据分析报告,培训计划方案,规章制度撰写,运营方案定制,商业计划书,可行性分析,话术定制。

领域认证该用户于2024年12月25日上传了会计从业资格证

1亿VIP精品文档

相关文档