- 1、本文档共39页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
计算语言学基础
若干重要的自然语言处理的理论
概述
本章将介绍若干重要的自然语言处理的理论,主要内容如下:
-- 语言串分析法
-- 短语结构语法
-- 递归转移网络和扩充转移网络
-- 通用句法生成器和线图分析法
-- 范畴语法
-- 链语法
-- 依存语法和配价语法
-- 管辖和约束理论
-- 词汇功能语法
-- 功能合一语法
-- 中文信息MMT模型
-- 蒙太谷语法
-- 广义短语结构语法
-- 中心语驱动的短语结构语法
-- 定子句语法
-- 格语法
-- 优选语义学
-- 概念依存理论
第二节 语言串分析法
美国结构主义语言学的代表人物海里斯(Zellig Harris)是乔姆斯基(Noam Chomsky)的老师,他在1964 年发表的《句子结构的串分析》(String Analysis of Sentence Structure)中,提出了语言串理论(linguistic string theory),并在这种理论的基础上提出了“语言串分析法”(linguistic string analysis)。这是海里斯为计算机进行英语句法分析而专门研究的分析法。
在海里斯的著作中,在不致引起误解的情况下,“串”(string)这个术语既可以用来表示词串(word sequence),也可以用来表示串式(string formula)。
所谓词串是指任何一个句子或其组成部分中按线性顺序排列的一个或多个词。例如,
客厅 里 坐 着 两 位 客人 (1)
这个句子是由8个词顺序排列而成的一个词串。其中,“客厅”、“里”、“坐”、“着”、“两”、“位”、“客人”分别是句子的组成部分,因而也是词串。
所谓串式是指用词类或其次类替换词串中的具体得出单词而形成的符号串。例如,句子(1)的串式是:
N FN V PART NUM MEA N (2)
其中,N表示名词,FN表示方位词,V表示动词,PART 表示助词,NUM表示数词,MEA表示量词。
而“客厅”、“里”、“坐”、“着”、“两”、“位”、“客人”等词串对应的串式分别是:N、 FN、V、PART、NUM、MEA、N。
词串和串式实际上都是符号按线性排列而成的符号串,它们之间的区别仅在于这些符号在词串中是词,在串式中是词类。在运用语言串分析法来分析句子时,我们将采用词串和串式这样的术语来被分析的句子或它们的某个组成部分。
在语言串分析法中,每一个句子都可以看成是由若干个基本串通过附加、连接和替换等方式组合而成的。在组成句子的这些基本串中至少有一个是中心串(center string),中心串代表着这个句子的基干。例如,句子(1)中的中心串是:
客厅 坐 客人 (3)
N V N (4)
一般地说,中心串代表了一种语言中的基本句式。除了中心串之外,基本串还包括附加串(adjunct string)、连接串(conjunct string)和替换串(replacement string)。每一个句子都由一个中心串加上零个或多个基本附加成分(elementary adjuncts) 组成,这些附加成分是具有特殊结构的词串,它们本身不是句子,它们直接邻接于中心串或附加成分的前后,或者邻接于中心串或附加成分内部的某个组成部分的前后,从而可以生成任意复杂的句子。例如,句子(1)可以看成是在中心串(3)的基础上,通过下列操作而构成的:
中心串内部的名词“客厅”后面邻接上方位词“里”;
中心串内部的动词“坐”后面邻接上助词“着”;
中心串内部的名词“客人”前面邻接上数词和量词“两”和“位”,接受“两”和“位”的修饰。
这样,从中心串出发,通过逐渐扩展的方式,就可以生成语言中无限的句子来。
用语言串分析法可以总结出句法规则,其步骤如下:
用相应的词类符号将词串替换成串式。例如,将(1)中的词串
客厅 里 坐 着 两 位 客人 (1)
替换成串式:
FN V PART NUM MEA N (2)
2. 逐步切除词串中的附加串,以获取中心串。例如,对于句子(1)来说,要做如下的切除:
-- 切除“客厅”后面的附加串“里”;
-- 切除“坐”后面的附加串“着”;
-- 切除“客人”前面的数-量附加串“两”和“位”。
这样,便获得了中心串及其串式:
客厅 坐 客人 (3)
N V
文档评论(0)