网站大量收购闲置独家精品文档,联系QQ:2885784924

《第二章汉字信息在计算机内部的表示.ppt

《第二章汉字信息在计算机内部的表示.ppt

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章 汉字信息在计算机内部表示 主要内容: 英文字符在计算机内部的表示 中文信息在计算机中的表示 汉字代码体系 汉字的排序 汉字编码字符集 2.1 英文字符在计算机内部的表示 1.ASCII码 ASCII码(America Standard Codefor for Information Interchange)美国信息交换标准码,作为数据传输的标准码。早期使用7 个位来表示英文字母、数字0~9及其它符号,现在则使用8个位,最多可以给256个字符(包括字母、数字、标点符号、控制字符及其他符号)分配(或指定)数值。 ASCII码字符标准中用7位二进制数定义了128个字符,其中94个为图形字符,32个为控制字符,1个为空格字符和一个Del键。 ASCII的编码空间如图所示,图中把7位二进制数分为高3位作为列号,低4位作为行号,并用十六进制表示,从而组成了一个ASCII编码空间。 2.扩展ASCII码 由于ASCII码只能表示94个字符,因此若需要使计算机还能够处理其他西文(如德文、法文、西班牙文等),则必须对ASCII码进行扩充。 最简单的方式是采用8位二进制编码来表示一个扩展的ASCII码字符集。 扩展ASCII码的编码空间如图所示。 GL图形区用作ASCII码,GR图形字符区为其他一个西方国家的语言文字编码。 为了尽可能多地使得英文与其他西方语言文字系统兼容,国际化组织在ISO8859的第1~10部分中定义了新增128个码元的字符编码集。 这10个部分分别定义了ASCII码和其扩展字符集。不同的扩展字符集用ISO8859后跟不同的数字表示。 扩展ASCII码采用高4位作列号,低4位作行号。 3.CJK-Roman CJK-Roman是指在中日韩字符编码标准中开发的ASCII码,分别是GB-Roman、CNS-Roman、JIS-Roman 和KS-Roman。CJK-Roman除下列字符与ASCII码不一致之外,其他都与ASCII相同。 2.2 中文信息在计算机中的表示 为了能使汉字能够在计算机中通行,亚洲国家和地区除了制定CJK-Roman标准外。国际化标准组织(ISO)、国际电气电子工程师协会(IEEE)以及各汉字使用国家和地区在计算机技术发展中,也制定了形式多样的汉字编码字符集。其中最具有代表性的是ISO/IEC 2022标准。 该标准定义了7位代码和8位代码的空间及其代码空间扩充技术。迄今为止,绝大多数计算机系统所采用的字符集都是以此标准作为基础。 从ASCII码的扩展中我们可以得出,如果采用多个7位编码,则除去控制字符区之外,可以获得94*94*94……个编码空间。 若采用双字节的7位代码,则为了保持与ASCII系统的兼容,通常采用高位置1的方法来区分汉字代码与ASCII代码。若采用3字节的7位代码,则可以用一个字节作为汉字代码,其余2个7位编码作为汉字代码。 参照ISO/IEC2022标准,中国大陆、中国台湾地区、日本和韩国等在标准的框架下制定了相应的字符编码标准。 2.3 汉字代码体系 1.汉字交换码 汉字交换码是用于信息交换的汉字代码,也称汉字传输码,在GB2312中用双字节表示。它用于汉字信息在计算机之间的传输。与ASCII码不同,汉字的这种代码表示一般不能直接用于信息处理。 2.汉字处理码 汉字处理码是用于信息处理的汉子代码,也称汉字内码或汉字机内码。 汉字的内码在不同的汉字操作系统中的长度可以不同。为了表示汉字的数量,同时考虑到汉字信息的存储和传输效率等,通常中文操作系统用双字节长度表示汉字的内码,并把每个字节的高位置1。这样系统中的ASCII码字符就能够与汉字字符区分。 3.汉字输入码 汉字的输入码通常指汉字的键盘输入编码。根据汉字的属性,汉字的输入键盘码可以分为:音码、形码以及音形组合码。根据汉字编码说用的字符类别,则可以分别采用26个英文字母的大键盘编码和采用10个素质的小键盘编码。汉字的输入码通过键盘转换程序转换成汉字的机内码。 4.汉字字形码 汉字的字形码是表示汉字字形的字模数据,通常用点阵、矢量函数等方式表示。用点阵表示时,汉字字形码就是这个汉字字形点阵代码。 5.汉字地址码 汉字地址码是在一个汉字系统中,某一汉字字型信息存放在汉字库中的逻辑地址的编码。 相对于GB2312中16*16点阵字库,地址码和汉字码之间的关系: 地址码=[(内码第一字节—A1H)×94+(内码第二字节)] ×32 6.汉字区位码 汉字区位码既是一种输入码,也是汉字交换码的另一种表示形式。 在GB2312-8

文档评论(0)

you9391 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档