各种字符编码介绍 Unicode GBK.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
各种字符编码介绍 Unicode GBK

各种字符编码介绍 1. ASCII 我们需要了解的最早编码是ASCII码。它用7个二进制位来表示,由于那个时期生产的大多数 计算机使用8位大小的字节,因此用户不仅可以存放所有可能的 ASCII字符,而且有整整一 位空余下来。如果你技艺高超,可以将该位用做自己离奇的目的:WordStar 中那个发暗的灯泡 实际上设置这个高位,以指示一个单词中的最后一个字母,同时这也宣示了WordStar 只能用 于英语文本。   由于字节有多达8位的空间,因此许多人在想:“呀!我们可以把128~255之间的编码用 做个人的应用目的。”问题在于,同时产生这种想法的人相当多,而且在128~255之间的各个 位置上应该存放什么这一问题上,真是仁者见仁智者见智。事实上,只要人们开始在美国以外的 地方购买计算机,那么各种各样的不同OEM字符集都会进入规划设计行列,并且各人都会根据 自己的需要使用高位的128个字符。如此一来,甚至在同语种的文档之间就不容易实现互换。 ASCII可被扩展,最优秀的扩展方案是ISO8859-1 ,通常称之为Latin-1。Latin-1包括了 足够的附加字符集来写基本的西欧语言。 最后,这个人人参与的OEM终于以ANSI标准的形式形成文件。在ANSI标准中,每个人都认同 如何使用低端的128个编码,这与ASCII 相当一致。不过,根据所在国籍的不同,处理编码 128以上的字符有许多不同的方式。这些不同的系统称为代码页。   同时,甚至更为令人头疼的事情正在逐步上演,亚洲国家的字符表有成千上万个字符,这 样的字符表是用8位二进制无法表示的。该问题的解决通常有赖于称为DBCS (doublebyte character set ,双字节字符集)的繁杂字符系统。   不过,仍然需要指出一点,多数人还是姑且认为一个字节就是一个字符,以及一个字符就 是8个二进制位,并且只要确保不将字符串从一台计算机移植到另一台计算机,或者说一种以 上的语言,那么这几乎总是可以凑合。当然,只要一进入Internet ,从一台计算机向另一台计 算机移植字符串就成为家常便饭了,而各种复杂状况也随之呈现出来。令人欣慰的是 , Unicode随即问世了。 2.iso8859-1 属于单字节编码,最多能表示的字符范围是0-255 ,应用于英文系列。比如,字母a的编码为 0x61=97。 很明显 ,iso8859-1编码表示的字符范围很窄 ,无法表示中文字符。但是,由于是单字节编码 和计算机最基础的表示单位一致,所以很多时候 ,仍旧使用 iso8859-1编码来表示。而且在 很多协议上,默认使用该编码。比如,虽然中文两个字不存在iso8859-1编码,以gb2312 编码为例 ,应该是d6d0cec4两个字符,使用iso8859-1编码的时候则将它拆开为4个字 节来表示:d6d0 cec4 (事实上,在进行存储的时候 ,也是以字节为单位处理的)。而如果 是UTF编码,则是6个字节e4b8 ad e6 96 87。很明显 ,这种表示方法还需要以另一种 编码为基础。 3.GB码 全称是GB2312-80《信息交换用汉字编码字符集基本集》,1980年发布 ,是中文信息处理的国 家标准,在大陆及海外使用简体中文的地区(如新加坡等)是强制使用的唯一中文编码。P- Windows3.2 和苹果OS就是以GB2312为基本汉字编码, Windows95/98 则以GBK为基本 汉字编码、但兼容支持GB2312。 双字节编码 范围 :A1A1~FEFE A1-A9 :符号区 ,包含682个符号 B0-F7 :汉字区,包含6763个汉字 4.GB2312 GB2312(1980年)一共收录了7445个字符,包括6763个汉字和682个其它符号。汉字区的 内码范围高字节从B0-F7 ,低字节从A1- FE ,占用的码位是72*94=6768。其中有5个空位 是D7FA-D7FE。GB2312-80 中共收录了7545个字符,用两个字节编码一个字符。每个字符最 高位为0。GB2312-80编码简称国标码。   GB2312支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号 ,它分为 汉字区和图形符号区。汉字区包括21003个字符。 5.GB12345-90 1990年制定了繁体字的编码标准GB12345-90 《信息交换用汉字编码字符集第一辅助集》,目 的在于规范必须使用繁体字的各种场合,以及古籍整理等。该标准共收录6866个汉字(比 GB2312多103个字,其它厂商的字库大

文档评论(0)

xxj1658888 + 关注
实名认证
内容提供者

教师资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2024年04月12日上传了教师资格证

1亿VIP精品文档

相关文档