全信息自然语言理解方法论.ppt

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
全信息自然语言理解方法论

* 自然语言理解与全信息理论 方法论的探讨及应用 钟义信 北京邮电大学智能研究中心 yxzhong@ieee.org NLP - NLU NLP:对自然语言所进行的任何有意义的操作。 NLU:为了理解自然语言而进行的各种操作。 NLP 是实现NLU的手段,NLU是进行NLP的目的。 为何要特别关注NLU问题? 社会全球化:人-人多语言沟通 先进生产力:人-机自然语言沟通 NLP/NLU:方法论的困惑(1) 理性主义(规则方法) 基本信念:“有限语言规则覆盖无限语言现象”。 然而, (1) 语言现象无限丰富和动态开放,“规则有限性和 封闭性”受到质疑;有限性与可实现性 (2) 随着规则数量增多,可能经常产生规则之间的 矛盾冲突 (3) 人工提取规则费时费事,机器提取规则的质量 还难以保证 NLP-NLU:方法论的困惑(2) 经验主义(统计方法): 基本信念:“多者为真” 然而, (1) 统计特性的假设(符号独立或Markov阶数固定) 在实际语言现象中难以成立,先天不足 (2) 何谓“足够大”?即使语料库的规模很大,往往也 难以保证语料统计结构的遍历性(数据稀疏) (3) 统计方法本身的“统计平均性质”,不保证实际结 果的正确性;“多者为真”信念受到挑战 出路:优势互补 理想的东西都不现实;现实的东西都不理想。 理性主义和经验主义虽然在理想条件下都有无穷的 威力,但都受到实际条件的限制,不可能包打天下 理性主义和经验主义恰具互补特性,于是出路只有 互相结合,实现优势互补。 问题:怎样互补? 语言学规则框架,统计学处理手段; 底层统计,高层理解;多层嵌套,互动互补。 科学方法论的变迁 全信息:主体关于“事物运动状态及其变化方式”的表述, 包括“状态-方式”的形式、内容和价值的表述。 现代科学:信息科学、系统科学、认知科学、智能科学, … 现代科学方法论特点:(1)信号与信息,(2)形式与内容 (3)客观与主观,(4)确定与不定 (4)分解与综合,(6)局部与整体 现代科学方法论意义:二元科学 ? 三元科学; 物质结构能量转换 ? 信息机制 分解分析方法 ? 分合互动方法 系统:相互作用的要素的有机整体;整体大于部分和 自然语言是认识论信息(而不是本体论信息)的载体。 因此,对自然语言的理解应是对它所载荷的认识论信息的理解。 认识论信息是形式-内容-价值三位一体。因此,理解信息需要利用全信息理论。 (Comprehensive Information Theory) Shannon信息论是全信息理论的特例,它主要 适用于通信等场合。 自然语言理解与全信息 Shannon信息的概念 Shannon信息论 (Mathematical Theory of Communication) Y X D 信息论的信息概念:消除随机波形不定型的东西。 是随机型的语法信息 信息论在解决通信问题方面是完美的(Perfect)理论; 但在解决智能问题方面却无能为力(Problematic)。 语法信息、语义信息、语用信息的三位一体。 符号 主体 客体 含义 效用 语义信息 语法信息 语用信息 形式 详见《信息科学原理》,第三版,2002年. 全信息的基本概念 语义信息与语用信息 语义信息涉及事物和公共主体 语用信息才关注效用主体 语义信息不能代替语用信息 语法信息只涉及事物本身 语法信息参量: Certainty (C) 语义信息参量: Logic Truth (T) 语用信息参量: Utility (U) 全信息的表示 X x1 x2 xn xN

文档评论(0)

170****0532 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8015033021000003

1亿VIP精品文档

相关文档