- 1、本文档共38页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
汉字编码的概念 从广义角度看 字典/词典编码方法,用于在字典和词典中的快速定位 ,常见的方法:部首、笔画、拼音和四角号码等 从狭义角度看 汉字键盘编码,用计算机键盘上的按键为汉字编码 汉字编码的发展 20世纪70年代 起步阶段,拼音编码、五笔字形、自然码等,效率较低 20世纪80年代中期 轰轰烈烈的“大跃进”式编码活动,但没有什么发展 20世纪90年代 萧条期 进入21世纪后 将是又一个发展期,数字编码方案将占主导 汉字编码中的几个概念(1) 字符集/字汇和词汇 字符集/字汇 多/少 词汇 多/少 特指某个编码方案编码词组的集合 码元 组成输入码的字符集合称为码元。 如拼音码的码元是“a”-“z”中的任意一个字母;纵横码的码元是“0”-“9”中的任意一个数字 。 汉字编码中的几个概念(2) 码长 输入码的长度称为码长。如输入码“123”的码长为3 等长编码,如区位码等 不等长编码,如拼音码、纵横码等 单码和重码 一个编码可能对应多个汉字和词组,那么这些汉字或词组称为重码。一个编码如对应的汉字和词组只有一个时,称这个汉字和词组为单码。 汉字编码中的几个概念(3) 编码空间和编码效率 所有可能的输入码集合,称为编码空间。编码空间的大小依赖于码元集合和码长。如某个编码方案的码元共有K个,编码采用等长码,长度为i,则编码空间大小为:C=Ki,如区位码的编码空间大小为:C=104,即10000个。 编码效率简单而言是指编码的字汇/词汇除以编码空间的大小。如区位码,它的字汇大小为6763,则编码效率为6773/10000=67.73%。 汉字的墒(1)——信息量的概念 熵,在信息论里叫信息量。从控制论的角度来看,应叫不确定性。 最简单的是只有两种可能性,非此即彼,我们以这种事物的信息量为单位,叫1比特(bit)。如果可能性数目有2的n次方(N=2n),那就是n比特,即信息量等于可能性数目N的“以2为底的对数”:H=㏒2N=㏒N/㏒2。 信息量应按符号的可能性(数学上叫概率大小)来计算,它是概率的负对数。平均信息量就是它们的加权平均 H=-∑pi㏒pi(1≤i≤n) 文字信号的信息量H是信号个数n的以2为底的对数: H=㏒n/ ㏒2。英文有 26个字母,每个字母的信息量H=㏒26/ ㏒2=4.700。 各种语言的字母的信息量 法文 3.98比特 意大利文 4.00比特 西班牙文 4.01比特 英文 4.03比特 德文 4.10比特 罗马尼亚文 4.12比特 俄文 4.35比特 中文 9.65比特 汉字的墒(2)——汉字墒的概率分布 假设给定一个汉字字符集HZ,其中汉字数为n,则该字符集的熵为 H=-∑Pi㏒Pi(1≤i≤n) 其中,Pi为单个汉字在汉语文本中出现的概率,-㏒(Pi)是第i个汉字出现时的信息量,-∑㏒(Pi)是所有汉字在不考虑前后相关性时所给出的全部信息量。H是该集合中的每个汉字的平均信息量。 汉字的墒(3)——汉字墒的意义 平均信息量(信息熵)表示存储或表示该汉字字符集所需要的二进制位数(中文约为9.65bit)。根据每个汉字的平均熵,通过采用不等长编码可以提高汉字存储和传输效率。 信息量(信息熵)与字的使用频度成反比。即频度下降一半,其信息量增加1位。 对汉字编码而言,采用多于2个码元时,汉字的平均熵也会下降。如: 当m=2时, Lmin ?(3,4) 当m=47时 Lmin ? (1.73,2.73) 不同领域,字的使用频度不同,因此,对大系统内的汉字信息熵的意义不大。 汉字键盘编码的依据——心理依据 从心理学角度来看,根据汉字音信息的汉字编码,人在大脑中无需进行任何的思考,就可以输入汉字,所以说是最为直接的输入方式。根据汉字形信息的汉字编码,用户在输入时,大脑需要把语言转换为字形,然后才能输入,所以说是一种间接的输入方式。 汉字心理学和模糊心理学的研究表明,人认字时上半部优于下半部,外围优于中间。 从排列心理学角度来看,希望汉字的编码能尽量唯一,并能尽量表达汉字的本身特征。 汉字键盘编码的依据——汉语拼音 汉语拼音的语言形式有三个要素:声母、韵母和声调。三者构成一个音节。其中声母有21个,韵母有35个。声调有五种:阴平、阳平、上声、去声和轻声。声韵结合起来有417个基本音节,如果考虑声调,总共有1330个左右的音节。 所有的计算机用汉字的发音都在这些音节范围内。这就是汉字同音字/词多的根本所在。如在GBK中,拼音“yi”有个460多个对应的汉字。 同样也存在大量的同音词。这就造成重码多和输入不方便。这是以音
您可能关注的文档
- 第四章 一阶逻辑基本概念.ppt
- 第四章 光的干涉(5)习题课.ppt
- 第四章 图形变换的矩阵方法1.ppt
- 第四章 重复博弈.ppt
- 第四章 镁质胶凝材料.ppt
- 第四章-2基底压力.ppt
- 第四章(陇东学院).ppt
- 第四章CAD2007图块.ppt
- 第四章_一元一次方程_小结与复习[1].ppt
- 第四章个性心理.ppt
- 整理重庆化医控股公司招聘762人公开引进急需紧缺人才笔试参考题库答案真题题库含答案(完整版).docx
- 2025年清洁湿纸巾行业分析报告及未来五到十年行业发展趋势报告.docx
- 整理重庆化医控股公司招聘172人公开引进高层次人才笔试参考题库答案题库大全含答案【B卷】.docx
- 整理重庆万达薄板有限公司校园招聘公开引进高层次人才笔试答案(典优).docx
- 整理重庆万达薄板有限公司定向招聘历年高频难、易错点模拟试题附带答案题库大全及答案【考点梳理】.docx
- 整理郑州煤炭工业有限责任公司招聘应届高校毕业生88人高频难、易错点模拟试题附带答案大全答案下载.docx
- 整理重庆万达薄板有限公司总部社会招聘补招7人模拟试题(共100题)附带答案题库及参考答案(黄金题型).docx
- 整理重庆永荣矿业有限公司招聘80人历年高频考题难、易错点模拟试题附带答案完整版含答案【A卷】.docx
- 法律法规教师考试真题.docx
- 整理邯郸海盛威纺织印染有限公司应届高校毕业生招聘高频考题难模拟试题附带答案完整版及答案【名师系列】.docx
文档评论(0)