- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
《信息论》学习笔记
第一章信息的产生
A.信息的度量
信息量:信息的衡量方法(单位:比特)
11
)比特:消除等可能两种情况的不确定性所需要的信息量
a.1/81/24
是一个计算机字节的,一个像素的
b.1
如果两种情况可能性不同,信息量小于比特
c.2
四选一,最多需要比特信息
2)小信息量的信息也可能具有很高重要性
3)公众都知道的信息没有信息量
4)信息损失:估计和真实情况的偏离
信息熵:信息源中包含的不确定性(用消除不确定性所需的信息量衡量)
1)=−−−⋯−
1122
a.状态数量越多不确定性越大
b.如状态数量不变,可能性相同时不确定性更大,可能性相差悬殊时
很多复杂交易用到了信息的可度量性
1)只要收费高于信息的实际价值,就稳赚不赔:赌场、结构化投资证券
B.信息编码
早期人类:对每种信息都有相应的编码
1)手指与数字:大多文明采用十进制
2)象形文字:一个图画就是一个意思,学习成本高
复杂性与长度的平衡:符号越少,码位越长
1)对数字的不同编码是等价的:总信息量一样
1/6
信息熵
香农第一定律:编码长度≥
每一个编码的信息量
1)只要编码巧妙,等号可以成立
2)编码长度过小,则会出现信息损失
好的编码
1)易于识别和区分:如0~9
2)有效:编码不能过长,争取达到理论最优
a.两只手最多可以表示1024个数字
1
b.664=−=6
只老鼠检测种药物:
64
哈夫曼编码:达到理论上的效率极限
1)一条信息编码长度与出现概率的对数成反比
a.常用字用短编码,生僻字用长编码
b.例:摩尔斯电码
2)优势
a.可以降低平均编码长度
b.类似的思维方式可以用于投资
i.大量资金投少量表现好的公司,少量资金投大量一般公司
矢量化整理信息
1)矢量化:将客观事物映射到低维空间
a.如分数、身高
2)文字的演变:汉字的偏旁与拉丁文的字母、词根,在两三个维度既表音又表意
3)关键是平衡信息的便利性和完整性
C.冗余度
作用
1)带来容错性
2)易于理解
3)消除歧义
度量
编码长度−信息量
1冗余度=
)
编码长度
21/22/3
)中文约,英文约
a.汉语文本一般比英语文本短30%左右,但用哈夫曼编码压缩后大小一样
b.拉丁文名词和动词数量关系、时态包含冗余信息
启示
1)表达时要利用冗余帮助理解
文档评论(0)