人工智能导论课件第11章第4-5节.pptx

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

1语法类型2语义分析和扩展语法3IBM的机器翻译系统第4节

11.4语法类型与语义分析在自然语言处理中,我们可以在一些不同结构层次上对语言进行分析,如句法、词法和语义等,所涉及到的一些关键术语简单介绍如下:词法——对单词的形式和结构的研究,还研究词与词根以及词的衍生形式之间的关系。句法——将单词放在一起形成短语和句子的方式,通常关注句子结构的形成。语义学——语言中对意义进行研究的科学。解析——将句子分解成语言组成部分,并对每个部分的形式、功能和语法关系进行解释。语法规则决定了解析方式。

11.4语法类型与语义分析词汇——与语言的词汇、单词或语素(原子)有关。词汇源自词典。语用学——在语境中运用语言的研究。省略——省略了在句法上所需的句子部分,但是,从上下文而言,句子在语义上是清晰的。

11.4.1语法类型学习语法是学习语言和教授计算机语言的一种好方法。费根鲍姆等人将语言的语法定义为“指定在语言中所允许语句的格式,指出将单词组合成形式完整的短语和子句的句法规则”。

11.4.1语法类型麻省理工学院的语言学家诺姆·乔姆斯基在对语言语法进行数学式的系统研究中做出了开创性的工作,为计算语言学领域的诞生奠定了基础。他将形式语言定义为一组由符号词汇组成的字符串,这些字符串符合语法规则。字符串集对应于所有可能句子的集合,其数量可能无限大。符号的词汇表对应于有限的字母或单词词典,他对4种语法规则的定义如下:(1)定义作为变量或非终端符号的句法类别。句法变量的例子包括VERB、NOUN、ADJECTIVE和PREPOSITION。

11.4.1语法类型(2)词汇表中的自然语言单词被视为终端符号,并根据重写规则连接(串联在一起)形成句子。

11.4.1语法类型(3)终端和非终端符号组成的特定字符串之间的关系,由重写规则或产生式规则指定。在这个讨论的上下文中:SENTENCE→NOUNPHRASEVERBPHRASENOUNPHRASE→theNOUNNOUN→studentNOUN→expertVERB→readsSENTENCE→NOUNPHRASEVERBPHRASENOUNPHRASE→NOUNNOUN→studentNOUN→expertVERB→reads

11.4.1语法类型(4)起始符号S或SENTENCE与产生式不同,并根据在上述(3)中指定的产生式开始生成所有可能的句子。这个句子集合称为由语法生成的语言。以上定义的简单语法生成了下列的句子:Thestudentreads.Theexpertreads.

11.4.1语法类型重写规则通过替换句子中的词语生成这些句子,应用如下:SENTENCE→NOUNPHRASEVERBPHRASETheNOUNPHRASEVERBPHRASEThestudentVERBPHRASEThestudentreads.SENTENCE→NOUNPHRASEVERBPHRASENOUNPHRASEVERBPHRASEThestudentVERBPHRASEThestudentreads.

11.4.1语法类型可见,语法是如何作为“机器”“创造”出重写规则允许的所有可能的句子的。

11.4.2语义分析和扩展语法Chomsky非常了解形式语法的局限性,提出语言必须在两个层面上进行分析:表面结构,进行语法上的分析和解析;基础结构(深层结构),保留句子的语义信息。关于复杂的计算机系统,通过与医学示例的类比,Michie教授总结了表面理解和深层理解之间的区别:“一位患者的臀部有一个脓肿,通过穿刺可以除去这个脓肿。但是,如果他患的是会迅速扩散的癌症(一个深层次的问题),那么任何次数的穿刺都不能解决这个问题。”

11.4.2语义分析和扩展语法研究人员解决这个问题的方法是增加更多的知识,如关于句子的更深层结构的知识、关于句子目的的知识、关于词语的知识,甚至详尽地列举句子或短语的所有可能含义的知识。在过去几十年中,随着计算机速度和内存的成倍增长,这种完全枚举的可能性变得更如现实。

11.4.3IBM的机器翻译Candide系统在早些时候,机器翻译主要是通过非统计学方法进行的。翻译的3种主要方法是:①直接翻译,即对源文本的逐字翻译。②使用结构知识和句法解析的转换法。③中间语言方法,即将源语句翻译成一般

的意义表示,然后将这种表示翻译成目标

语言。这些方法都不是非常成功。图11-6机器翻译

11.4.3IBM的机器翻译Candide系统随着IB

文档评论(0)

智乾 + 关注
实名认证
内容提供者

科技工作者

1亿VIP精品文档

相关文档