- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主观性意见型语句标注小结陈述陈述(claim)是指针对话题所进行的.doc
主观性意见型语句标注小结
陈述
陈述(claim)是指针对话题所进行的描述,是能够完整表述观点的一个短语、子句或者整个句子。目前关于陈述定界的研究主要有三种思路:粗分法、细分法和基于模板的方法。我们采用的是粗分法,即将整个待标注的段落(paragraph)作为claim。由于针对不同话题的陈述可能位于不同的子句中,将整个待标注段落作为陈述简化了为每个话题定界陈述范围的问题,能够提高标注的一致性。
在标注claim结点时,我们根据标点符号将整个claim划分为各个子句(sentence),然后再对各个子句从持有者、话题和情感三个方面进行标注。Claim的标注结构如下:
claim cnum=” “
sentence stnnum=” “
holder hnum=” “ htype=” “ /holder
topic tnum=” “ type=” “ /topic
sentiment snum=” “ /sentiment
/sentence
/claim
究竟陈述的颗粒度怎样选择? 我建议以一个topic和它对应的sentiment范围为一个claim,但也允许topic没有对应的sentiment或一个sentiment没有对应的topic。同时,如果存在多个topic和多个sentiment,也把它们放在一个claim中。也就是说t-s关系不跨越claim。
建议claim增加一个属性ctype,用以指出claim中topic和sentiment的数量。如“t2+s2”。
一个claim一定是对于一个holder的意见。即不同holder的意见应该在不同的claim中。
持有者
持有者(holder)是意见型语句中表达或持有观点的人,有可能一个持有者持有多种观点,也可能多个持有者持有多个 。因此,标注出持有者有助于更好地表明各种意见之间的相互关系。
持有者的标注结构如下:
holder hnum=” “ htype=” “
gword wnum=” “ wpos=” “ wfunc=” “
/gword
relation type=”h-s” hnum=” “ stmnum=” “ deprel=” “ deppair=” “
/relation
relation type=”h-t” hnum=” “ tnum=” “ deprel=” “ deppair=” “
/relation
/holder
在这里,我们认为holder的作用域是整个claim。因此如果在一个claim中,某个holder以相同的形式或者以指代的形式出现了多次,则它们的标注编号是一样的,例如句子
“张瑞敏认为海尔现在已经取得了巨大的成功,他同时指出海尔的下个目标是进入世界五百强。”中“张瑞敏”和“他”指代的是同一个holder,编号一样。
holder结点底下的relation结点有两种类型:h-s和h-t,分别指出了在整个claim中holder和sentiment以及holder和topic的关系。由于holder的作用域是整个claim,所以relation结点的考虑范围也是整个claim。在claim中,一个holder可能会对应多个sentiment,此时h-s类型的relation节点中,stmnum的编号为多个对应sentiment编号的组合相加。
标注h-t类型的relation方法类似,需要注意的是,只要标注出holder与主topic的关系即可,因为若holder与某个主topic有关系,则默认holder与这个主topic的子topic都存在关系。
在一个claim中,如果有holder,但是没有sentiment和topic则不需标注relation结点。同时,汉语句子中,常常省略说出持有者,此时不需标注holder结点。
如果claim中具有topic和它对应的sentiment,则一定存在t-s关系。这样,建议只需标注h-t关系,不需要再标注h-s关系。如果不具有topic或sentiment,则需要标注h-s或h-t关系。
holder一般在claim中,如果在claim外,则建议暂时不考虑。
话题
话题(topic)是意见型语句中陈述和情感的描述对象。一个句子中也可能包含多个topic。根据从属关系,topic可以分为主topic和子topic。Topic的标注结构如下:
topic tnum= ttype=
gword wnum= wpos= wfunc= wsem=
/gword
relation type=t-s tnum= stmnum= deprel= deppair=
/relation
/topic
在标注topic时
文档评论(0)