第十章自然语言理解.pptVIP

  1. 1、本文档共92页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
人工智能及其应用 (第三版) 研究生用书 蔡自兴 第十章 自然语言理解 第十章 自然语言理解 自然语言理解和处理是人工智能的早期的和活跃的研究领域之一。用自然语言进行高级通信,是人类固有的本领。现在还不知道动物界是否也能用“口语”进行通信,例如鸟类之间是否有这种能力。至于书面语言,那肯定只有人类才具有。 本章将首先讨论自然语言理解的概念、发展简史以及系统组成与模型等;然后,逐一研究语言的自动分析、句子的自动理解、语言的自动生成和机器翻译等重要问题;最后举例介绍自然语言理解系统。 10.1语言及其理解的一般问题 什么是语言和语言理解?自然语言理解与人类的哪些智能是否有关?自然语言理解研究是如何发展的?理解自然语言的计算机系统是如何组成的以及它们的模型为何?等等。这些是研究自然语言理解时感兴趣的问题。 10.1.1语言与语言理解 语言是人类进行通信的自然媒介,它包括口语、书面语以及动作语(如哑语和旗语)等。一种比较正规的提法是:语言是用于传递信息的表示方法、约定和规则的集合,它由语句组成,每个语句又由单词组成;在组成语句和语言时,应遵循一定的语法与语义规则。如果没有各种口语和书面语,如英语、汉语、法语和德语等,人类之间的充分而有效的交流就难以想象。语言是随着人类社会和人类自身的发展而不断进化的。现代语言允许任何一个具有正常语言能力的人与他人交流思想感情和技术等。 要研究自然语言理解,首先必须对自然语言的构成有一个基本认识。 语言是音义结合的词汇和语法体系,是实现思维活动的物质形式。语言是一个符号体系,但与其他符号体系又有所区别。 语言是以词为基本单位的,词汇又受到语法的支配才可构成有意义的、可理解的句子,句子按一定的形式再构成篇章等。词汇又可分为词和熟语。熟语就是一些词的固定组合,如汉语中的成语。词又由词素构成,如“教师”是由“教”和“师”这两个词素构成。同样在英语中“teacher也是由teach和-er这两个词素所构成。词素是构成词的最小的、有意义的单位。“教”这个词素本身有教育和指导的意义,而“师”则包含了“人”的意义。同样,英语中的“-er”也是一个表示“人”的后缀。 语法是语言的组织规律。语法规则制约着如何把词素构成词、词构成词组和句子。语言正是在这种严密的制约关系中构成的。用词素构成词的规则叫做构词规则,如教+师→教师,teach+er→teacher。一个词又有不同的词形、单数、复数、阴性、阳性和中性等。这种构造词形的规则称为构形法,如教师+们→教师们,teacher+s→teachers。这里只是在原来的词后面加上一个复数意义的词素,所构成的并不是一个新的词,而是同一词的复数形式。构形法和构词法称为词法。词法中的另一部分就是句法。句法也可分成两部分:词组构造法和造句法。词组构造法是词搭配成词组的规则,如红+铅笔→红铅笔,red+pencil→red pencil.这里“红”是一个修饰铅笔的形容词,它与名词“铅笔”组合成了一个新的名词。造句法则是用词或词组造句的规则,“我是计算机科学系的学生”,这是按照汉语造句法构造的句子,“I am a student in the department of computer science是英语造句法产生的同等句子。虽然汉语和英语的造句法不同,但它们都是正确和有意义的句子。图10.1就是上述构造的一个完整的图解。 图10.1 语言的构成 另一方面,语言是音义结合的,每个词汇有其语音形式。一个词的发音由一个或多个音节组合而成,音节又由音素构成,音素分为元音音素和辅音音素。自然语言中所涉及的音素并不多,一种语言一般只有几十个音素。由一个发音动作所构成的最小的语音单位就是音素。 迄今为止,对语言理解尚无统一和权威的定义。按照考虑问题角度的不同而有不同的解释。从微观上讲,语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。从宏观上看·,语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括:①回答有关提问;②提取材料摘要;③不同词语叙述;④不同语言翻译。 然而,对自然语言的理解却是一个十分艰难的任务。即使建立一个只能理解片言断语的计算机系统,也是很不容易的。这中间存在着大量的极为复杂的编码和解码问题。一个能够理解自然语言的计算机系统就像一个人那样需要上下文知识以及根据这些知识和信息进行推理的过程。自然语言不仅存在着语义、语法和语音问题,而且还存在模糊性等间题。具体地说,自然语言理解的困难是由下列三个因素引起的:①目标表示的复杂性;②

文档评论(0)

jdy261842 + 关注
实名认证
文档贡献者

分享好文档!

1亿VIP精品文档

相关文档