基于条件随机场_CRFs_的中文词性标注方法.pdfVIP

基于条件随机场_CRFs_的中文词性标注方法.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于条件随机场_CRFs_的中文词性标注方法

计算机科学 2006Vol33 № 10   基于条件随机场( CRFs) 的中文词性标注方法 洪铭材  张  阔 唐  杰  李涓子 (清华大学计算机系知识工程组  北京 100084)   摘  要  本文提出一种基于 CRFs 模型的中文词性标注方法 。该方法利用 CRFs 模型能够添加任意特征的优点 ,在 使用词的上下文信息的同时 ,针对兼类词和未登录词添加了新的统计特征 。在《人民日报》1 月份语料库上进行的封 闭测试和开放测试中 ,该方法的标注准确率分别为 98 . 56 %和 96 . 60 % 。 关键词  词性标注 ,条件随机场 ,维特比解码   A Chinese Partofspeech Tagging Approach Using Conditional Random Fiel ds HON G MingCai  ZHAN G Kuo  TAN G J ie  L I J uanZi ( Knowledge Engineering L ab , DCST , Tsinghua U niv . , Beij ing 100084)   Abstract  Thi s p ap er p resent s a new app roach to p artofsp eech ( PO S) t agging for Chinese t ext s u sing conditional ran dom fields (CRFs) . To t ake advant age of t he abilit y of u sing arbit rary feat ures a s inp ut in CRFs , not only cont ext s of wor ds are exploit ed , but al so are new st ati stical feat ures adop t ed for multip lecat egory and outofvocabulary wor ds. Clo sed and op en t est s conduct ed on Peop le Daily dat a set obt ain PO S t agging accuracies of 98. 56 % and 96 . 60 % , re sp ectively . Keywords  Partofsp eech t agging , Conditional random fields (CRFs) , Vit erbi decoding   本文使用 PFR 《人 民日报》标注语料库作为实验数据 。 1  引言 实验结果表明 ,基于 CR Fs 的中文词性标注方法取得了很好 词性标注是自然语言处理的重要内容之一 ,是其他信息 的标注正确率 ,其封闭测试和开放测试的准确率分别为 98. 处理技术的基础 ,被广泛地应用于机器翻译 、文字识别 、语音 56 %和 96 . 60 % ,兼类词和未登录词的标注也取得了很好的 识别 、信息检索等领域 。目前基于统计的词性标注方法得到 结果 。 了广泛的应用并取得了很好的效果 。 文章的组织结构如下 :第 2 节介绍中文词性标注的相关 在基于统计方法的词性标注中 ,对兼类词和未登录词的 工作 ;第 3 节阐述 CR Fs 理论及其训练方法 ;使用 CRFs 进行 标注是两个需要解决的问题 。对于兼类词 ,可以根据该词的 中文词性标注的方法将在第 4 节

文档评论(0)

xingkongwd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档