网站大量收购闲置独家精品文档,联系QQ:2885784924

第八讲自然语言的熵.ppt

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第八讲自然语言的熵

第8讲 信源冗余度与自然语言的熵; 由此看出,由于信源输出符号间的依赖关系也就是信源信号的相关性使信源的实际熵减小。信源输出符号间统计约束关系越长,信源的实际熵越小。当信源输出符号间彼此不存在依赖关系且为等概率分布时,信源的实际熵等于最大熵。; 可见对于有记忆信源,最小单个消息熵应为 ,即从理论上看,对有记忆信源只需传送 即可。但是这必需要掌握信源全部概率统计特性和所有的记忆关系。这显然是不现实的。实际上,往往只能掌握有限的N维,这时只需传送 ,那么与理论值相比,就多传送了 。;信源的冗余度来自两个方面: 1、信源符号间的相关性 信源符号间相关程度越大,符号间的依赖关系越长,信源的实际熵越小; 2、另一方面是信源符号分布的不均匀性使信源的实际熵越小。 为了更经济有效的传送信息,需要尽量压缩信源的冗余度,压缩冗余度的方法就是尽量减小符号间的相关性,并且尽可能的使信源符号等概率分布。 ; 从提高信息传输效率的观点出发,人们总是希望尽量去掉冗余度。 但是从提高抗干扰能力角度来看,却希望增加或保留信源的冗余度,因为冗余度大的消息抗干扰能力强。 ;例:一个输出A、B、C、D四个符号的信源,它输出10个符号的序列包含最大可能的信息量为:; 正由于信源存在着冗余度,即存在着不必要传送的信息,因此信源也就存在进一步压缩信息率的可能性。冗余度越大,压缩潜力也就越大。可见它是信源编码,数据压缩的前提与理论基础。;下面,首先求得独立等概率情况,即;最后,利用统计推断方法求出 ,由于采用的逼近的方法和所取的样本的不同,推算值也有不同,这里采用Shannon的推断值。 ;为计算这些熵,要计算字母之间的一维条件概率、二维条件概率;对于其它文字,也有不少人作了大量的统计工作,现简述如下:;汉字的编码;b7;GB2312 编码表的格式和布局 国际汉字编码也用类似于ASCCII码表的形式给出,将汉字和必要的非汉字字符排列在94×94方阵的区域中。方阵中的每一个位置的行和列分别用一个七位二进制编码表示,称为区码和位码,每一个汉字和非汉字字符对应于方阵中的一个位置,因此,可以把汉字和非汉字字符所在位置的区码和位码作为它们的编码。区码和位码的存储各占一个字节,所以在国际汉字编码中,每个汉字和非汉字字符占用俩个字节。表2-6给出了GB2312编码表的局部格式。; 表 GB2312编码局部表; 在“国际基本集”中,从16区到55区是常用的一级汉字,从56区到87区是二级汉字除此之外还收录了一般符号202个(包括间隔、标点、运算符号、单位符号、制表符号),序号60个(1~20共20个,(1)~(20)共20个,①~⑩共10个,(一)~(十)共10个),数字22个(0~9共10个,Ⅰ~Ⅻ共12个),拉丁字母52个,日本假名169个,希腊字母48个,俄文字母66个,汉语拼音符号、注音符号63个。这些符号占1区到10 区。该字符集共收入了汉字和图形符号共7445个。因为全表共94区、94位,所以最多可表示的字符个数为94×94,即8836个。表中的空位作为扩充之用。;GB2312编码表总体布局; GB2312中的6763个汉字是在文化部1965年发布的《印刷通用汉字字形表》(6196字)的基础上,根据需要增加了500多个科技名词、地名和姓名用字,既基本上满足了各方面的需要,又有利于降低汉字信息处理系统的成本,提高汉字编码的效率,有利于汉字信息处理技术的推广和应用。 GB2312广泛应用于我国通用汉字系统的信息交换及硬、软件设计中。例如,目前汉字字模库的设计都以GB2312为准,绝大部分汉字数据库系统、汉字情报检索系统等软件也都以GB2312为基础进行设计。;什么是信息?;获取信息的过程是一个由未知到已知的过程(哲学),或者说由不确定到确定的过程(通信)。因此信息可以看作是消除不确定性。 信息分析与统计的工具是概率论(数学)。 具有实际意义的平均信息量称为熵(物理)。;对信息量的认识理解 衡量信息多少的物理量称为信息量。 信息量的大小与消息所描述事件的出现概率有关。 若概率很小,受信者感觉很突然,该消息所含信息量就很大; 若概率很大,受信者事先已有所估计,则该消息信息量就越小; 若受信者收到完全确定的消息,则没有信息.; 临 床 诊 断 的 信 息 分 析; 在诊断过程中,每进行一项检查获得一个征候信息表现时,它就给医生对疾病的认识带来一定的信息量,医生对患者所患疾病认识的不确定性就会减少。设征候

文档评论(0)

wuyoujun92 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档