CRF++工具包使用介绍.ppt

下载文档 降价啦

251
0
约5.93千字
约 31页
2016-05-07 发布于安徽
举报
版权申诉
保障服务

CRF++工具包使用介绍.ppt

1、本文档共31页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

CRF++工具包使用介绍.ppt

CRF++工具包使用介绍工具简介 CRF++ 是一个可用于分词/连续数据标注的简单、可定制并且开源的条件随机场(CRFs)工具。 CRF++是为了通用目的设计定制，并将被用于自然语言信息处理 (NLP)的各个方面，诸如命名实体识别、信息提取和语块分析。工具简介工具包地址：/~taku/software/CRF++/#features 工具包包括Linux环境下的源代码和Windows下的可执行程序。使用C++编写。 CRF++-0.54 2010-05-15 CRF++-0.53(源码) 2009-05-06 工具的使用方法 1)安装编译环境 Microsoft Visual Studio C++ 2010 工具的使用方法 2)使用 (2.1)训练和测试文件的格式工具的使用方法以BaseNP（基本名词短语识别）为例训练例句如下 Confidence in the pound is widely expected to take another sharp dive if trade figures for September , due for release tomorrow , fail to show a substantial improvement from July and August s near-record deficits . 测试例句如下 Rockwell International Corp. s Tulsa unit said it signed a tentative agreement extending its contract with Boeing Co. to provide structural parts for Boeing s 747 jetliners . 工具的使用方法训练和测试文件必须包含多个tokens，每个token包含多个列。token的定义可根据具体的任务，如词、词性等。每个token必须写在一行，且各列之间用空格或制表格间隔。一个token的序列可构成一个sentence，sentence之间用一个空行间隔。最后一列是CRF用于训练的正确的标注形式。工具的使用方法 BaseNP训练文件格式工具的使用方法 BaseNP测试文件格式特别的，sentence间用一空行间隔。例子每个token包含3列，分别为词本身、词性和BaseNP标记（B、I、O）。注意：如果每一个token的列数不一致，系统将不能正确运行。工具的使用方法 (2.2)准备特征模板使用该CRFs工具的用户必须自己确定特征模板。 a.基本模板和宏模板文件中的每一行代表一个template。每一个template中，专门的宏%x[row,col]用于确定输入数据中的一个token。row用于确定与当前的token的相对行数。col用于确定绝对行数。工具的使用方法 BaseNP模板文件格式 b.模板类型 U模板 B模板工具的使用方法工具的使用方法如已知下面的输入数据：Input: DataRockwell NNP B International NNP I Corp. NNP I CURRENT TOKEN s POS B Tulsa NNP I 特征模板形式为：template expanded featureU00:%x[2,0] Tulsa U01:%x[1,0] ’s U02:%x[0,0] Corp. U03:%x[-1,0] International U04:%x[-2,0] Rockwell U05:%x[1,0]/%x[0,0] ’s/Corp. U06:%x[0,0]/%x[-1,0] Corp./International 工具的使用方法第二种类型Bigram template:第一个字符是B 使用这个模板，系统将自动产生当前输出token与前一个输出token的组合(Bigram) 。产生的可区分的特征的总数是L*L*N，其中L是输出类别数，N是这个模板产生的unique features数。 output = B last_output =I and feature=B 区别于Unigram中的 U05:%x[1,0]/%x[0,0] ’s/Corp. 当类别数很大的时候，这种类型会产生许多可区分的特征，这将会导致训练和测试的效率都很低下。只使用Bigram template B。这意味着前一个output token和current token将组合成bigram features。