中文信息学报汉语句子谓语中心词的自动识别Ξ.PDF

中文信息学报汉语句子谓语中心词的自动识别Ξ.PDF

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文信息学报汉语句子谓语中心词的自动识别Ξ

中 文  信  息  学  报 第 17 卷 第 2 期   JOURNAL OF CHINESE INFORMATION PROCESSING Vol 17 No2 文章编号 :1003 - 0077 (2003) 02 - 0007 - 07 汉语句子谓语中心词的自动识别 龚小谨 ,罗振声 ,骆卫华 (清华大学人文学院计算语言学研究室 ,北京  100084) 摘要 :谓语中心词的识别是句法成分分析中的一个非常重要的部分 。本文提出了一种规则和特征学习相 结合的谓语识别方法 ,将整个谓语识别的过程分为语片捆绑 、谓语粗筛选和谓语精筛选三个阶段 。在谓语粗 筛选中 ,利用规则过滤掉明显不能充当谓语的词 ,得到一个准谓语集 ;在精筛选阶段 ,选择谓语的支持特征 ,根 据统计计算得到每个特征对谓语的支持度 ,然后利用准谓语在句子中的上下文出现的特征对准谓语集中的 词进行再次筛选 ,从而确定出句子的谓语中心词 。经过测试表明 ,该方法是有效可行的。 关键词 :计算机应用 ; 中文信息处理 ;谓语中心词的识别 ;基于规则 ;特征选择 ;粗筛选 ;精筛选 中图分类号 : TP39 14    文献标识码 :A Recognizing the Predicate Head of Chinese Sentences GON G Xiaojin ,L UO Zhensheng ,L UO Weihua ( School of Humanities and Societies Science , Tsinghua Univer sit y ,Beijing  100084 ,China) Abstract :Recognizing t he predicate head is an important p art of t he syntactic analysis of Chinese sentences. This p a p er present s a new approach to recognize t he predicate head automatically ,which combines a rulebased met hod wit h a multifeaturebased met hod . The process of recognizing is broken into t hree subprocess :preprocess ,coarsefilter and finefilter . We use a rulebased met hod to filter t he quasipredicate t hat may be t he predicate of a sentence . In t he finefilter ,we select and compute a great diversity of features by statistic ,t hen use t hese features to recognize t he real predicate of t his sentence . The result of exp eriment s indicates t hat t his approach is feasible and advanced . Key words :computer application ;Chinese information processing ;recognize t he predicate head ;rulebased ;featurese lection 一 、引言 在以谓语为中心的句法成分分析中 ,首先需要确定句子的谓语 ,然后根据谓语把句子分成 两个部分 ,

文档评论(0)

xiaozu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档