20108从宾州中文树库来观察三个汉语语法问题-中文信息技术专业.PPTVIP

20108从宾州中文树库来观察三个汉语语法问题-中文信息技术专业.PPT

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
20108从宾州中文树库来观察三个汉语语法问题-中文信息技术专业

提纲(第一部分) 宾州树库简介 X-标杠模式 谓词-论元结构的标注实例 国内外中文树库的对比 讨论 X-标杠模式 CTB规范定义的三种语法关系 CTB例2:宾语控制动词“批准” CTB例2:语义角色标注 CTB例3:话题句 CTB例3:语义角色标注 (IP (NP-TPC-2 (DP (DT各) (CLP (M 种))) (NP (NN 收费))) (NP-SBJ (-NONE- *pro*)) (VP (ADVP (AD 已)) (PP-TMP (P 在) (LCP (NP (QP (CD 一) (CLP (M 个))) (NP (NN 月))) (LC 前))) (VP (VV 宣布) (NP-OBJ (-NONE- *T*-2))))) (IP (NP (DP (DT各) (CLP (M 种))) (NP (NN 收费))) (VP (ADVP (AD 已)) (PP (P 在) (LCP (NP (QP (CD 一) (CLP (M 个))) (NP (NN 月))) (LC 前))) (VP (VV 宣布)))) 讨论:用“补足语”取代“补语” 国内语法学界把补语定义为动词后面的副词性附加语,而补语和补足语的英译名都是complement。“前主后宾,前状后补”是结构主义留给我们的遗产吗? 吕叔湘在“现代汉语语法(提纲)”(未发表)中主张完全抛弃“补语”的国内通行含义,重新将“补语” 用于类似于“补足语”的含义。 (《吕叔湘全集》第十三卷:452-475) CTB在大规模树库中完全不用“补语”这个概念,其利弊得失可供我们自由评说。 北京大学中文树库(詹卫东 2008) 北京大学中文树库(PKU) 詹坦言,北京大学和清华大学提出的句法标住体系,“主要是以结构主义语法理论为背景”,由于PKU的加工规范“不假设深层结构,因而也没有深层结构成分的标记”;并且“从资料的易维护性和易扩展性考虑”,“主张分层分级标注”短语的内部结构类型、语义角色等信息,“而不实行宾州树库那样将这些信息都以树节点标签的形式来反映”。 (詹卫东 2008) 生成语法后期已放弃深层结构的假设,而且改变了前期把句法和语义割裂开来的错误做法,这一时期的重要进步是:用空语类和同指索引描写句子中的远距离依存关系。国内树库建设出现某些疏漏的主要原因是:对当代语言学理论存有不同认识。 例4的CTB格式(兼语句) 结束语 国内中文树库对促进汉语句法分析技术的进步作出了巨大的贡献,然而它们在谓词-论元结构描写方面的疏漏也是明显的。 树库建造离不开语言学理论的指导,我们在语言理论上的落后应当引起足够重视。 今后构建的中文树库应在句法、语义两个层面上加强谓词-论元结构描写;现有树库则可通过适当改造来加深句法描写深度。 谢谢! 国内中文树库需加强 谓词-论元结构描写 黄昌宁 清华大学计算机科学与技术系 cnhuang0908@126.com 宾州英文树库(PTB) 1989-1992: 宾州英文树库(PTB-I) ◇支配及约束(GB)理论,X-标杠理论 ◇华尔街日报真实语料: 100万词次 1993-1994: 宾州英文树库(PTB-II) (Marcus et al.1994) ◇增加谓词-论元结构的标注 ◇空语类(empty category)和同指索引(co-indexing) 宾州中文树库(CTB) 1998-2000:宾州中文树库(CTB-I) ◇重要目标:谓词-论元结构的描写 ◇新华通讯社新闻稿: 规模10万词次 2007:宾州中文树库(CTB 6.0) ◇增加人民日报、香港新闻电讯和台湾期刊等语料,规模增加到73万词次 说明语(又称标定语)、附加语和补足语只是出现在短语某一特定位置上的短语名称。 在句法中,通过词项投射和填位过程生成出来的二阶短语必须符合如下X-标杠模式: (1) 中心语-补足语关系(complementation) CTB规范定义的三种语法关系 (2) 中心语-附加语关系(adjunction) (3) 并列关系(coordination) 依据X-标杠模式,CTB使每个短语节点所统辖的括号对或子树只表示一种抽象的语法关系。 CTB严格区分述语动词的补足语和附加语,使谓词-

文档评论(0)

zhuwo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档