第七章自然语言理解.ppt

  1. 1、本文档共39页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第七章自然语言理解

第七章 自然语言处理概述 基本概念 什么是计算语言学(Computation Linguistics) 用机器处理人类语言的理论和技术。 构造计算模型,用于自然语言的分析、转换、生成。 其他名称: 自然语言处理(Natural Language Processing,NLP) 自然语言理解(Natural Language Understanding,NLU) 人类语言技术(Human Language Technology) 相关名称: 中文信息处理(Chinese Information Processing) 网络信息处理(Web Information Processing) 基本概念 什么是自然语言 自然语言指人类使用的语言,如汉语、英语等。 语言是思维的载体,是人际交流的工具。 语言的两种属性-文字和声音 人类历史上以语言文字形式记载和流传的知识占知识总量的80%以上。 本学科的基本问题 如何让计算机具有语言信息处理能力? 如何利用计算机处理海量的语言信息? 为什么要研究计算语言学? 信息时代到了!语言是信息的载体。 提高计算机的智能:能理解和处理大量语言信息。 机器能够理解人的语言吗? 很难,但是没有证据表明不行。 什么是理解? 结构主义:机器的理解机制与人相同。 问题在于谁也说不清自己理解语言的步骤。 功能主义:机器的表现与人相同。 图灵测试:如果通过自然语言问答,一个人无法识别和他对话的是人还是机器,那么就应该承认机器具有智能。 一个NLP的例子:英汉翻译 输入英文句子: Miss Smith put two books on this table. 形态分析(Morphological Analysis) 词形还原(Lemmatization):将词还原为词典中的原型。 词汇符号化(Tokenization):相当于中文分词。 分析结果: Miss Smith put (+ed) two book+s on this table. 句法分析(Syntactic Analysis):分析句子的结构。 词汇转换 Miss ? 小姐 Smith ? 史密斯 put (+ed) ? 放 two ? 两 book+s ? 书 on ? 在…上面 this ? 这 dining table. ? 餐桌 短语转换 小姐史密斯放两书在上面这餐桌 史密斯小姐放两书在这餐桌上面 生成 史密斯小姐放两书在这桌子上面。 史密斯小姐(把)两(本)书放在这(张)桌子上面。 最终翻译结果 英文: Miss Smith put two books on the table. 中文:史密斯小姐把两本书放在这张桌子上面。 机器如何理解自然语言? 编译器工作过程 编译器工作过程 机器如何理解自然语言? 机器理解自然语言的步骤 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理 机器理解自然语言的步骤 文本预处理: 文本采集 文本格式转换:PDF、Office、HTML?纯文本 文本编码识别、转换:GB、Big5、Unicode。 句子切分 句子边界识别 例如:Mr. Wang likes swimming, dancing and reading. 形态分析: 研究构词方法,词的有意义的组合。 构词的基本单位:词素(词根、前缀、后缀、词尾) 例如:老虎← 老+ 虎; 图书馆← 图+ 书+ 馆 例如: work + er → worker do + ing →doing 机器理解自然语言的步骤 分词 将句子切分为词序列 例如:钓鱼岛/是/中国/的/领土/。 词性标注 给句子的词标注正确的词性 例如:钓鱼岛n/是v/中国n/的de/领土n / 。  句法分析 分析句子的组成结构, 句子结构成分之间的相互关系。 判定一个句子的合法性 机器理解自然语言的步骤 词义消岐 研究给句子的词标注正确的词义。 例如:这个人真牛。//牛:动物|了不起。 语义分析(这句话说了什么) 研究如何从一个语句中词的意义,以及这些词在该语句的句法结构中的作用来推导出该语句的意义。 语言和世界的映射关系 施事、受事、工具等 语用分析(为什么要说这句话 ) 研究不同语境中的语句的应用,及语境对语句理解的作用 语言交际目的:主题、述体、焦点 机器理解自然语言的步骤 篇章分析 分析篇章的结构、主题、观点、摘要、有用信息。 主题分析 观点分析 自动文摘 信息抽取 信息过滤 海量文档处理 信息检索 有哪些信誉好的足球投注网站引擎、数字图书馆 文本分类、聚类 分类检索、聚类检索 话题探测与追踪 信息自组织 NLP的研究内容(基础研究) NLP的研究内容(应用研究)

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档