主观性意见型语句标注小结陈述陈述(claim)是指针对话题所进行的.doc

主观性意见型语句标注小结陈述陈述(claim)是指针对话题所进行的.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主观性意见型语句标注小结陈述陈述(claim)是指针对话题所进行的.doc

主观性意见型语句标注小结 陈述 陈述(claim)是指针对话题所进行的描述,是能够完整表述观点的一个短语、子句或者整个句子。目前关于陈述定界的研究主要有三种思路:粗分法、细分法和基于模板的方法。我们采用的是粗分法,即将整个待标注的段落(paragraph)作为claim。由于针对不同话题的陈述可能位于不同的子句中,将整个待标注段落作为陈述简化了为每个话题定界陈述范围的问题,能够提高标注的一致性。 在标注claim结点时,我们根据标点符号将整个claim划分为各个子句(sentence),然后再对各个子句从持有者、话题和情感三个方面进行标注。Claim的标注结构如下: claim cnum=” “ sentence stnnum=” “ holder hnum=” “ htype=” “ /holder topic tnum=” “ type=” “ /topic sentiment snum=” “ /sentiment /sentence /claim 究竟陈述的颗粒度怎样选择? 我建议以一个topic和它对应的sentiment范围为一个claim,但也允许topic没有对应的sentiment或一个sentiment没有对应的topic。同时,如果存在多个topic和多个sentiment,也把它们放在一个claim中。也就是说t-s关系不跨越claim。 建议claim增加一个属性ctype,用以指出claim中topic和sentiment的数量。如“t2+s2”。 一个claim一定是对于一个holder的意见。即不同holder的意见应该在不同的claim中。 持有者 持有者(holder)是意见型语句中表达或持有观点的人,有可能一个持有者持有多种观点,也可能多个持有者持有多个 。因此,标注出持有者有助于更好地表明各种意见之间的相互关系。 持有者的标注结构如下: holder hnum=” “ htype=” “ gword wnum=” “ wpos=” “ wfunc=” “ /gword relation type=”h-s” hnum=” “ stmnum=” “ deprel=” “ deppair=” “ /relation relation type=”h-t” hnum=” “ tnum=” “ deprel=” “ deppair=” “ /relation /holder 在这里,我们认为holder的作用域是整个claim。因此如果在一个claim中,某个holder以相同的形式或者以指代的形式出现了多次,则它们的标注编号是一样的,例如句子 “张瑞敏认为海尔现在已经取得了巨大的成功,他同时指出海尔的下个目标是进入世界五百强。”中“张瑞敏”和“他”指代的是同一个holder,编号一样。 holder结点底下的relation结点有两种类型:h-s和h-t,分别指出了在整个claim中holder和sentiment以及holder和topic的关系。由于holder的作用域是整个claim,所以relation结点的考虑范围也是整个claim。在claim中,一个holder可能会对应多个sentiment,此时h-s类型的relation节点中,stmnum的编号为多个对应sentiment编号的组合相加。 标注h-t类型的relation方法类似,需要注意的是,只要标注出holder与主topic的关系即可,因为若holder与某个主topic有关系,则默认holder与这个主topic的子topic都存在关系。 在一个claim中,如果有holder,但是没有sentiment和topic则不需标注relation结点。同时,汉语句子中,常常省略说出持有者,此时不需标注holder结点。 如果claim中具有topic和它对应的sentiment,则一定存在t-s关系。这样,建议只需标注h-t关系,不需要再标注h-s关系。如果不具有topic或sentiment,则需要标注h-s或h-t关系。 holder一般在claim中,如果在claim外,则建议暂时不考虑。 话题 话题(topic)是意见型语句中陈述和情感的描述对象。一个句子中也可能包含多个topic。根据从属关系,topic可以分为主topic和子topic。Topic的标注结构如下: topic tnum= ttype= gword wnum= wpos= wfunc= wsem= /gword relation type=t-s tnum= stmnum= deprel= deppair= /relation /topic 在标注topic时

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档