常用汉字字符集和其关系.docxVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
常用汉字字符集和其关系

常用汉字字符集及其关系GB2312(GB 2312-1980)GB2312码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集--基本集》,由国家标准总局发布,1981年5月1日实施,通行于大陆。新加坡等地也使用此编码。GB2312收录简化汉字及符号、字母、日文假名等共7445个图形字符,其中汉字占6763个。GB2312规定“对任意一个图形字符都采用两个字节表示,每个字节均采用七位编码表示”,习惯上称第一个字节为“高字节”,第二个字节为“低字节”。GB2312-80包含了大部分常用的一、二级汉字,和9区的符号。该字符集是几乎所有的中文系统和国际化的软件都支持的中文字符集,这也是最基本的中文字符集。GB2312将代码表分为94个区(0x01—0x5e),每个区94个位(0x01-0x5e)。汉字编码高位字节的值为区号值加32(20H),低位字节的值为位号值加32(20H),因此也称为区位码。这样一来,GB2312的编码范围为2121H-777EH,与ASCII有重叠,通行方法是将GB码两个字节的最高位置1以示区别。因此,其实际编码范围是高位0xa1-0xfe,低位也是0xa1-0xfe。例如第一区(01区)第一位(01位)汉字编码为:A1A1(第一个A1为01H+20H+80H,第二个A1为01H+20H+80H)。区号范围位号范围区类别字符类别个数编码范围01-09(A1-A9)01-94(A1-FE)符号、数字符号、数字A1A1—A9FE10-15(AA-AF)01-94(A1-FE)空白区AA A1—AFFE16-55(B0-D7)01-94(A1-FE)汉字一级常用汉字3755B0A1—D7FE56-87(D8-F7)01-94(A1-FE)汉字二级常用汉字3008D8A1—F7FE88-94(F8-FE)01-94(A1-FE)空白区F8A1—FEFEGB2312将收录的汉字分成两级:第一级是常用汉字计3755个,置于16-55区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字计3008个,置于56-87区,按部首/笔画顺序排列。故而GB2312能表示6763个汉字。GB13000(GB13000.1-1993)GB2312的发布,奠定了中文信息处理的基础。随着国际间的交流与合作的扩大,信息处理应用对字符集提出了多文种、大字量、多用途的要求。1993年国际标准化组织发布了ISO/IEC 10646-1《信息技术 通用多八位编码字符集 第一部分 体系结构与基本多文种平面》。我国等同采用此标准制定了GB 13000.1-1993。该标准采用了全新的多文种编码体系,收录了中、日、韩20902个汉字,是编码体系未来发展方向。由于其新的编码体系与现有多数操作系统和外部设备不兼容,所以它的实现仍需要有一个过程,目前还不能完全解决我国当前应用的迫切需要。GB13000等同于国际标准的《通用多八位编码字符集 (UCS)》 ISO10646.1,就是等同于Unicode的标准,代码页等等的都使用UTF的一套标准。GB13000.1和ISO10646为同一体系,与工业标准Unicode3.1是兼容的。GBK(GBK-1995)为了推进Unicode的实施,同时也是为了向下兼容,即:与我国一直沿用的字符集标准GB2312完全兼容,电子部与国家技术监督局联合颁布一个新的汉字内码扩展规范:GBK。GBK在保持GB2312原貌的基础上,将其字汇扩充与ISO 10646中的CJK等量,同时也包容了台湾的工业标准Big5码汉字,此外还为用户留了1894个码位的自定义区,尽管它仍是CodePage(代码页)形式,但还是在原GB2312的基础上迈出了可喜的一步,成为最终向Unicode过渡的一个桥梁。这在WINDOWS 95上就有所体现:WINDOWS 95的内核已经Unicode化,正是由于这一点,WINDOWS 95上所有GBK字库都可以完全不加修改地作为Unicode字库用于WINDOWS NT平台;只要将WINDOWS 95上输入法码表存成Unicode形式,就可以用于WINDOWS NT平台。GBK作为对GB2312的扩展,在现在的windows系统中仍然使用代码页CP936表示,但是同样的936的代码页跟一开始的936的代码页只支持GB2312编码不同,现在的936代码页支持GBK的编码,GBK同时也向下兼容GB2312编码。GBK的编码区间为0X8140到0XFEFE。整个码表分为5个区间,称为GBK1(A1A1-A9FE)、GBK2(B0A1-F7FE)、GBK3(8140-A0FE)、GBK4(AA40-FEA0)、GBK5(A840-A9A0).其中GBK1包括符号717个,GBK2包括GB2312汉字67

文档评论(0)

185****7617 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档