- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语法开发平台的数据库设计-国家科技图书文献中心
语法提取子系统的系统设计
化柏林 王惠临
(中国科学技术信息研究所 北京 100038)
【摘要】 本文以LFG为基本参考模型,提出了一个具体语法开发平台的系统框架与功能结构。语法开发平台包括三个子系统:语法提取子系统、语法分析子系统、语义分析处理子系统。文章对语法提取子系统进行了全面的系统设计,既为语法分析子系统奠定了基础,又为构造具体的应用系统留有程序接口。
【关键词】 语法开发平台 语法提取 系统设计 【分类号】 TP311, H043
System Designing of Grammar Extraction Subsystem
Hua Bolin, Wang Huilin
(Institute of Scientific and Technical Information of China, Beijing 100038)
【Abstract】concrete system frame and functional architecture of Grammar Development Platform which regards LFG as reference model. This platform is made up of the following three subsystems: grammar extraction subsystem, grammar analysis subsystem and semantic processing subsystem. It presents system designing of grammar extraction subsystem from all aspects, which not only lays the foundation for establishing automatic development grammar subsystem, but also provides Application Program Interface.
【Keywords】
一部完整的计算语法通常有上千条规则,几万甚至十几万个词条。如果这样一部语法完全由人工来开发的话,需要几年、十几年的时间。而且一旦语言模型发生变化,那么相应的语法也需要快速转换,而这个过程如果也用人工实现,其时间跨度与难度几乎不可想象。因此,需要一个语法开发平台来进行语法的开发工作,从手工到半自动,最终实现自动化。
语法开发平台(Grammar Development Platform, 简称GDP)主要是提供语法开发的一个工作平台。首先提供一个手工开发语法的工作平台,在此基础上,对开发的语法进行词典与规则的统计与学习,然后构造自动分析算法,对大规模文本进行分析并验证,得到一部实用的语法。语法主要包括规则与词典。语法工作者可以利用平台进行实用语法的开发工作。信息技术人员可以在此基础上构建自然语言处理相关的应用系统,比如机器翻译系统、知识管理系统等。
语法本身具有经验性,语法开发平台除具有语种无关、范例无关、平台开放、界面友好、程序接口方便等特性外,更重要的是基于逻辑的验证,经过不断地循环修正与扩充,最终实现自动化。
国外许多著名大学和IT行业的巨头都纷纷投入自然语言处理的研发工作。他们纷纷建立语法开发平台并开始生产大规模语法。
按功能分类有:单一模型的语法开发平台,有Xerox公司的XLE[1]、XLFG[2]、宾西法尼亚大学的XTAG[3][4]、斯坦福大学的LinGO[5]和LKB[6];多模型的语法开发平台,有微软研究院的大规模多语种开发平台[7]和德国的GTU[8][9];模型转换项目有辻井实验室的XHPSG[10][11]等。
本语法开发平台由三个子系统构成:语法提取子系统、语法分析子系统、语义分析处理子系统。语法提取子系统是整个语法开发平台的基础,语法分析子系统是语法开发平台的核心,而语义分析处理子系统是语法开发平台的延伸与扩展。语法提取子系统是从句法结构中提取语法,是一个半自动化的过程。其平台体系架构如图1所示。
图1 语法开发平台体系架构图
1 语法提取子系统的功能设计
语法提取子系统主要用来生产最基础的数据,数据来源是语法工作者输入的句法结构。语法工作者对自然语言进行手工分词、词性标注、语法标注(或称语法分析),得出自然语言句子成分结构与功能结构的线性表达,再通过语法编辑模块将线性表达输入系统内,系统自动进行分析提取,提取出相应的语法信息,存储到数据库,对输入的句子语法结构可以生成图形并显示。对于数据库里的信息可以按照各种条件进行查询,查询结果的每一条记录可以显示各种图形:成分结构树图、功能结构集图和带标注的成分结构树图。数据库里的信息还可以进行统计分
文档评论(0)