- 1、本文档共12页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语块语料库的建设
构建大规模的汉语语块库
周 强 詹卫东 任海波
智能技术与系统国家重
点实验室,清华大学计算
机系,北京 100084 北京大学中文系,北京
100871 上海师范大学国际文化
交流学院,上海 200234 摘要:本文介绍了构建 200 万字的汉语语块库的主要工作,包括设计语块标注体系、总结语
块标注规范和协调语块加工流程等,分析了我们的标注体系与英语的 CONLL-2000 语块任
务的主要差异,并提出了对现有标注体系的进一步理论思考和在现有语块库上的一些应用设
想。
1 引言
构建大规模标注语料库是语料库语言学发展的重要基础。在英语方面,百万词次规模的
词性标注语料库——Brown 语料库的建成,直接促使了基于统计的词性标注模型:HMM 模
型和自动标注算法:Viterbi 算法的提出和完善。大规模的句法树标注语料库——Penn 树库
的建立,则为许多基于统计的自动句法分析模型提供了基础的训练素材。同时,作为一个统
一的训练和测试平台,也为不同分析算法处理性能的评估提供了客观的依据。近几年来,随
着部分分析技术的不断发展和应用范围的不断扩大,对处于中间层次的语块(chunk)标注
语料库的开发也越来越受到重视,出现了一些较大规模的语块标注语料库,如 CONLL-2000
的语块库[TB00]等。
在汉语方面,经过近几年的研究,已经建立了几个较大规模的切分和词性标注语料库,
包括清华大学的 200 万字的平衡语料库和北京大学与富士通合作开发的人民日报语料库。在
树库构建方面,也已取得一些成果,包括清华大学的汉语测试树库[ZS99]、美国宾州大学的
UPenn 树库[XP00]和台湾中研院的树库项目[HCC00]。但对语块标注和部分句法分析的研究
还比较少。
本文介绍了我们在汉语语块标注体系设计和大规模语块库构建方面进行的一些初步探
索。下面的第 2 节比较详细地介绍了我们的语块描述体系,并与 CONLL-2000 的标注体系
进行了比较,分析了两者的不同之处。第 3 节介绍了我们的语块库构建工作,包括基础语料
库资源、语块标注规范和语块加工流程等,并给出了一些基本的语块库统计数据。第 4 节进
一步分析了语块与论元结构的关系以及语块与韵律结构的关系等。最后的第 5 节展望了在现
有的语块库上可以进一步进行的一些句法分析和知识获取研究设想。
2 语块描述体系
Abney(1991)最早提出了一个完整的语块描述体系。他把语块定义为句子中一组相邻的
属于同一个 s-投射(s-projection)的词语的集合,建立了语块与管辖约束(GB)理论的 X-bar
系统的内在联系,从而奠定了这个语块描述体系的比较坚实的理论基础。在此前后,一些应
用系统的研究重点则主要集中在名词短语的识别上,其中包括基本名词短语(BaseNP)
([Chu88], [RM95])和最长名词短语(MNP)([LZ95], [ZSH00])。在其他语块或基本短语方面
的研究则比较少。最近比较完整的工作是 Buchholz al.(1999)。他们探索了 NP, VP, PP 和
ADJP 等基本短语的自动识别方法。另外,Veenstra(1999)也识别了 NP, VP 和 PP 块。他们的
研究为 CONLL-2000 提出的语块共享研究计划打下了基础。
去年举行的自然语言学习国际会议(CONLL-2000)提出的语块共享任务(Chunking
Shared Task)旨在开发出一个大规模的英语语块库,为基于统计的不同部分分析方法的探索
提供统一的训练和测试库。他们采用了 Abney 的语块描述框架,并对一些语块进行了分解
和细化,其中的一些差异可以从下面的例子中看出来(其中例句 1 采用了 Abney 的标注体
系):
(1) [He] [reckones] [the current account deficit] [will narrow] [to only $1.8 billion] [in
September].
(2) [NP He ] [VP reckones ] [NP the current account deficit ] [VP will narrow ] [PP to ] [NP only
$1.8 billion ] [PP in ] [NP September ].
语料则取自 Penn 树库的华尔街日报(WSJ)部分。利用自动程序将分析树标注文本直
接映射成不相交、无嵌套的语块标注文本,并保留了原来的大部分句法成分标记。目前抽取
的语料规模约为 30 万词,平均每个语块包含 2 个词。表 2 列出了其中最常见的几个语块的
信息描述,有关的详细资料可参阅[TB00]。
表 2 CONLL-200
文档评论(0)