- 1、本文档共95页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
汉字编码原理
第三章汉字编码原理 第三节 汉字编码原理 一、什么是汉字编码 汉字外码:汉字的字母数字代码 计算机人机界面:键盘 字母 数字 控制符号 功能键位 二、汉字编码的历史发展 广义的汉字编码是从汉字字书的编撰算起的。因为字典的编撰,离不开字的排序和检索。 字典是供人来*查阅,编码输入法是让机器到字库中去查找。都是按照某种规则排列和检索汉字*的。 可以说,早期的汉字排字检字法就是汉字编码的早期形式。比如, 笔画部首法、四角号码法、拼音查字法、笔形查字法等。 最早的汉字代码 1880年清政府创办电报局,由丹麦人设计的汉字电报码。它的方法是将电报用的汉字按照笔画顺序由少到多排列成一个字表。 使用的字数不到一万,就以字的顺序号作该字的代码。第一个字的代码就是0001,第五个字的代码就是0005,第385个字的代码就是0385。 电报码一直使用到今天,经过不断的修订完善成为《标准电码本》。 十个数字如果转换为二进制表示,则只需四位二进制单位。这样,用“嘀——嗒”两种状态就可以传输汉字了。 电报码的特点是“字”-“码”一一对应,没有重码。 缺点是难以记忆,非经过专门训练无法使用。 三、编码原理 1、确定编码对象 汉字的总字数有6万多,现代汉语常用的也有1万左右。《信息交换用汉字编码字符集基本集》根据各种统计数据确定收入汉字6763个。这些汉字就是一个编码对象的数量级。 “大字符集” 包括大陆、台湾、日本、韩国所使用的全部汉字的集合。有20902字。 数量不同,有关参数也不同。 2、确定码元类型和数量 码元是用来作为汉字代码的元素。例如, 电报码的码元就是0-9这十个阿拉伯数字。 码元的种类和数量与编码容量、以及码长、重码数等指标直接相关。 比如电报码,采用十个数目字作码元,四位码长的编码容量至多10000个汉字,从0000到9999。超过1万字就是出现重码,否则就必须增加码长。 一般的编码方案多采用26个英文字母作码元, 也有的在这个基础上再增加10个数目字,使码元数增加到36个的方案, 还有的把字母键盘区的其它功能键也利用上的。 这种需要增加码元数的方案多数是形码方案。 3、确定编码规则 理想的规则是“字码意义对应” 、规则简单,好学易记,没有复杂的条件限制或特例情况。 实际上最难做到。 比如按形排序,同笔画数的字很多,同笔画的字当中,起笔相同的也不少,甚至笔顺相同的也有。究竟谁先谁后,难以给出一个标准。 按音排序也有个同音字的先后问题。同音、同调、同笔画数的汉字再按什么条件排先后,都是难题。 人为地增加许多规定,势必增加用户的学习量。 4、编制码表 所谓码表就是“字”-“码”对照表。 按照确定的编码规则将《基本集》中的全部汉字逐个给出正确的代码,形成一个字码对照表。 5、编制软件、上机实现 这部分是软件人员的工作。软件人员根据编码规则和码表, 设计一个查字管理程序,经过调试,准确无误,就可以投入使用。 至此,一个汉字编码系统就完成了从设计到实现的整个过程。 四、汉字编码的技术参数指标 汉字编码是一个理论与实践性都很强的课题,而最重要的是它的实践性,也即在实际应用中的效果。 因为这是要解决汉字信息处理的第一个“人机界面”,所以,几乎全部技术指标都与“人”密切相关。 在“人服从机器”还是“机器服从人”这个问题上,曾经有过一个认识过程。 开始为了使机器能够处理汉字,主要是从机器出发的,重点考虑机器的特点和条件,较少考虑人的特点和需要。 后来才将立脚点转移到“人”这方面来,将许多困难都留给机器,使机器对人服务得友好、周到,人的操作变得轻松、愉快。 什么是理想的编码 1、规则简单。 一般具有中等文化水平的人不需要经过专门培训就可以通过“自学”完全掌握。 如果能够利用人的常识和知识,如果这种常识和知识中涉及或包括了关于汉字的基本知识, 编码规则应当简化到不需要特殊的规则的地步。 2、码元数量少 一般不超过36个,即26个字母外加10个数字键。最好只使用26个字母键。 这样,对于人来说记忆量减少,对于机器来说,在键盘管理方面较好处理。 3、码长短 每个汉字的代码不超过四码。如果采用简码和不等长码处理的话, 平均码长应当在3码以下。 4、编码容量具有可扩展性 汉字信息处理除了《基本集》的6763个汉字外,随着实际应用的发展,不可避免地出现繁体汉字的问题以及大字符集的问题。 理想的汉字编码应当在不增加或少增加规则的基础上,就能够使编码容量扩展到繁体汉字或更大的范围。 5、采用词语编码 应具有足够的词汇编码容量。词语码最长不超过4码。 应该给用户提供足够的词库扩展空间和扩展手段,使用户能够方便自如地根据自己的需要增加用户词汇。 6、重码率低 一般用户可以实现“盲打”,即不用看键盘(有一定的键盘基础的情况下)和提示行就能够输入汉字。 只有能
您可能关注的文档
- 民众有知的权利.PPT
- 毛竹林生态系统能流迳济阈值模拟研究-林业科学.PDF
- 气体钻井双稳定器钟摆钻具的模拟仿真分析-天然气与石油.DOC
- 气候与环境研究.PDF
- 气候变化对陕西冬小麦种植区的影响-水土保持通报.PDF
- 气体传感器电路设计-找源代码程序员.DOC
- 气候变化背景下中国玉米单产增速减缓的原因分析-IngentaConnect.PDF
- 气候变化对黄淮海地区夏玉米-冬小麦种植模式和产量-中国农业科学.PDF
- 气体体积减小-山东成武第二中学.PPT
- 气候增暖背景下的冬小麦种植北界研究-地理科学进展.PDF
- 银龙股份(603969)国内升级,海外发力-250114-国盛证券-37页.pdf
- 证券行业2025年度投资策略:乘政策之势,察交投之变,谋行业新篇-250116-山西证券-31页.pdf
- 银行业专题:银行择股主线和逻辑,复盘和展望-250115-国信证券-17页.pdf
- 隐债置换下的城投审批全貌-250112-国投证券-12页.pdf
- 中观景气度高频跟踪及运用:中观景气度数据库和定量模型应用-250113-天风证券-17页.pdf
- 债市情绪重回降温-250113-国投证券-10页.pdf
- 政策及基本面观察:央行暂停国债买入,原油价格震荡上行-250116-东北证券-29页.pdf
- 基于新型变异策略的差分进化算法.pdf
- 基于Logistic回归模型的个人小额贷款信用风险评估及应用.pdf
- 大数据在疫情中的应用.pdf
文档评论(0)