生活中的信息论.ppt

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
生活中的信息论

Wuhan University Wuhan University * 生活中的信息论 武汉大学 电子信息学院 吴静 * 熵和汉语字典 每个汉字的信息熵 汉语常用字7000 (13比特) 考虑前 10% 的汉字占文 本的95% 以上 (8~9比特) 考虑上下文相关性 (5比特) 独立等概时最大 * 熵的冗余度和《笑傲江湖》 117.2万字(586万比特) 两字节的国标编码存储 2.34MB 压缩编码 chm 1.05MB txt 1.88MB umd 1.21MB jar 0.332MB 冗余度 * 汉语是最简洁的语言 不同语言的冗余度差别很大,而汉语在所有语言中冗余度是相对小的。 * Google 的中英文自动翻译 统计语言模型 P(S) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1) P(S) = P(w1)P(w2|w1)P(w3|w2)…P(wi|wi-1)… P(wi|wi-1) = P(wi-1,wi)/ P (wi-1) * Google 的中英文自动翻译 语言模型是为了用上下文预测当前的文字,模型越好,预测得越准,那么当前文字的不确定性就越小。 信息熵可以直接用于衡量统计语言模型的好坏。 贾里尼克—— 语言模型复杂度(Perplexity) * 李开复的 Sphinx 语音识别系统 不用任何语言模型 复杂度为997 (句子中每个位置有 997 个可能的单词可以填入 ) 只考虑前后词的搭配不考虑搭配的概率 复杂度为 60 考虑了搭配概率的二元语言模型 复杂度为 20 * 总统or灌木丛 Bush——词的二义性 * 互信息和词的二义性 从大量文本中找出和总统布什一起出现的互信息最大的一些词 总统、美国、国会、华盛顿 找出和灌木丛一起出现的互信息最大的词 土壤、植物、野生 看看上下文中哪类相关的词多 不仅与上下文有关,与出现的环境也有关系,例如克林顿究竟指夫妻中的哪一位 * 衡量新闻价值 为什么人咬狗是新闻, 而狗咬人不是新闻? ——传播学和新闻学上一个古老的命题 前者的信息熵大 转向效用信息研究 * 韦小宝的色子 灌了铅的色子,六点朝 上的概率是三分之一 每个面朝上的概率是多少? 满足已知条件情况下,概率分布最均匀,预测的风险最小。 ——最大熵原理 * 最大熵原理和投资 不要把所有的鸡蛋放在一个篮子里 ——减小投资风险 * 最大熵原理和投资 达拉皮垂兄弟——改进最大熵模型算法 文艺复兴技术公司 , 从该基金 1988 年创立 至今,它的净回报率高 达平均每年 34%,远 远超过股神巴菲特的旗 舰公司伯克夏哈撒韦 。 * 热力学的熵和信息熵 热力学中系统状态总是趋向于等概,热熵总是趋向于增大。 * 条件熵和密码破解 必威体育官网网址系统的密钥量越大,密文中有关明文的信息量越小,信息越难破解。 * * 需要知道一个文字序列是否能构成一个大家能理解的句子,显示给使用者。对这个问题,我们可以用一个简单的统计模型来解决这个问题。 如果 S 表示一连串特定顺序排列的词 w1, w2,…, wn ,换句话说,S 可以表示某一个由一连串特定顺序排练的词而组成的一个有意义的句子。现在,机器对语言的识别从某种角度来说,就是想知道S在文本中出现的可能性(出现可能性高,翻译成该句的概率就高),也就是数学上所说的S 的概率用 P(S) 来表示。利用条件概率的公式,S 这个序列出现的概率等于每一个词出现的概率相乘,于是P(S) 可展开为 : 假定任意一个词wi的出现概率只同它前面的词 wi-1 有关(即马尔可夫假设),于是问题就变得很简单了。 * 不仅与上下文有关,与出现的环境也有关系,例如克林顿究竟指夫妻中的哪一位 Wuhan University Wuhan University * 需要知道一个文字序列是否能构成一个大家能理解的句子,显示给使用者。对这个问题,我们可以用一个简单的统计模型来解决这个问题。 如果 S 表示一连串特定顺序排列的词 w1, w2,…, wn ,换句话说,S 可以表示某一个由一连串特定顺序排练的词而组成的一个有意义的句子。现在,机器对语言的识别从某种角度来说,就是想知道S在文本中出现的可能性(出现可能性高,翻译成该句的概率就高),也就是数学上所说的S 的概率用 P(S) 来表示。利用条件概率的公式,S 这个序列出现的概率等于每一个词出现的概率相乘,于是P(S) 可展开为 : 假定任意一个词wi的出现概率只同它前面的词 wi

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档