LDC中文树库ChineseTreebank.ppt

  1. 1、本文档共106页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
LDC中文树库ChineseTreebank

(NP (DNP (NP-PN (NR 中国) (NN 人民) (NN 银行)) (DEG 的)) (NP (NN贷款 )) CTB中的句法标记 2.6 Appositive constructions Appositive constructions(同位语结构) are always NPs. There are two scenarios(情况) where appositive constructions can occur. The first one is when one NP modifies another NP and the two NPsmean or refer to the same entity. CTB中的句法标记 (NP (NP-APP (CP (WHNP-3 (-NONE- *OP*)) (IP (NP-SBJ (-NONE- *T*-3)) (VP (VV参加 ) (NP-PN-OBJ (ADJP (JJ关贸 )) (ADJP (JJ 总)) (NP (NN 协定)))))) (NP (NN首席 ) (NN 谈判) (NN 代表)))) (NP-PN (NR 沈觉人))) CTB中的句法标记 The second scenario where appositives (同位语)happen is when a clause(从句) other than a relative clause occurs inside an NP. The noun head and the appositive clause can be put in an equative frame like “noun head 是appositive clause. CTB中的句法标记 (NP (CP-APP (IP (NP-PN-SBJ (NR 朱镕基)) (VP (VV访问 ) (NP-PN-OBJ (NR美国 )))) (DEC 的)) (NP (NN消息 ))) CTB中的句法标记 一 、树库简介 二、CTB简介 三、CTB中汉语词性划分规则 四、CTB中的句法标记 五、CTBParser CTBParser ctbparser是一个用C++语言实现的开源的中文处理工具包(GBK编码),用于分词、词性标注、依存句法分析,采用的是中文宾州树库(Chinese Tree Bank, CTB)。 优点 用户可以自行编辑词条以改善分词,词性标注效果。 可以处理繁体中文。 分词、词性标注、句法分析采用条件随机场模型,而非传统的HHMM模型。该模型具有较好的新词识别能力。 CTBParser 评测 操作系统:64位CentOS 5,CPU: Intel(R) Xeon(R) E5405, 2.00GHz 测试语料:CTB6标准测试集 内存占用:270M 速度:30句/秒 分词F-score:95.3% 词性标注精度:94.27% 句法分析精度(LAS):81% CTBParser 参考文献 Mark A. Paskin, Cubic-time Parsing and Learning Algorithms for Grammatical Bigram Models, technique report, 2001 Xian Qian, Qi Zhang, Xuangjing Huang and Lide Wu. 2D Trie for fast parsing, COLING 2010 CTBParser 网址 / /~chinese/ctb.html ldc@ /Catalog/CatalogEntry.jsp?catalogId=LDC2010T07 相关网站 Other: IJ, ON, LB, SB, BA, JJ, FW, PU CTB中汉语词性划分规则 IJ: Interjection(感叹词) EX: 啊 、哎呀、天呀   ON: Onomatopoeia(象声词) EX:哗啦啦 咯咯 砰 CTB中汉语词性划分规则 LB:bei4 in long bei-construction(长被字句) This only includes被 ,叫 , 给(in spoken language), and wei2( 为) when they occur in the long bei-construction. (i.e., NP0 + LB + NP1 + VP). For example, 他[he] 被/LB 我[I] 训[scold]了 /AS 一[one]顿/M。 Note:叫 is tagged as VV when it is

文档评论(0)

zhuwenmeijiale + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7065136142000003

1亿VIP精品文档

相关文档