- 1、本文档共3页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
GB2312,BIG5,GBK,Unicode等汉字编码方案及关系
当我们使用Windows 记事本的“另存为”,可以在GBK、Unicode、
Unicode big endian 和UTF-8 这几种编码方式间相互转换。同样是txt 文件,
Windows 是怎样识别编码方式的呢?
同样一份txt 文件,Unicode、Unicode big endian 和UTF-8 编码的txt 文件的大
小都不一样,二进制文件开头会多出几个字节,分别是FF、 FE (Unicode),FE、
FF (Unicode big endian),EF、BB、BF (UTF-8)。但这些标记是基于什么标
准呢?
本文主要介绍一下目前常用的汉字编码方案,从而使读者看完后能对于汉字编
码有基本的认识。
1. GB2312 字符集
GB2312 是 1980 年国家制定的汉字内码规范。GB 是国标的汉语拼音首字母。
该字符集收录了收入汉字6763 个,符号715 个,总计 7478 个字符,通常
所说的一、二级汉字库就全部包含在GB2312 中。楷体-GB2312、仿宋-
GB2312、华文行楷等市面上绝大多数字体支持显示这个字符集,亦是大多
数输入法所采用的字符集。
GB2312 将收录的汉字分成两级:第一级是常用汉字计 3755 个,置于 16-55
区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字计 3008 个,
置于 56-87 区,按部首/笔画顺序排列。故而 GB2312 最多能表示 6763 个
汉字。
虽然 GB2312 包含了绝大部分的常用简体汉字,但是由于中文的复杂性,所
以GB2312 目前已经越来越不能适应需要了,特别是因为人名、地名中包含
的很多字GB2312 中都没有,如朱镕基的‘镕’字,GB2312 中就没有包含,
这样导致很多混乱。
2. Big5 字符集
Big5 中文名“大五码”,是繁体字常用的字符集,共收入13060 个繁体汉
字,808 个符号,总计 13868 个字符,普遍使用于台湾、香港等地区。台
湾教育部标准宋体楷体等港台大多数字体支持这个字符集的显示。
1983 年 10 月,台湾国家科学委员会、教育部国语推行委员会、中央标准局、
行政院共同制定了《通用汉字标准交换码》,后经修订于 1992 年 5 月公布,
更名为《中文标准交换码》,BIG5 是台湾资讯工业策进会根据以上标准制
定的编码方案。虽然 Big5 存在一些瑕疵,但广泛应用于电脑行业,尤其是
互联网中,从而成为一种事实上的行业标准。
BIG5 码是双字节编码方案,其中第一个字节的值在 OXAO-OXFE 之间,第二
个字节在 OX40-OX7E 和 OXA1-OXFE 之间。
BIG5 收录 13461 个汉字和符号,包括:
*符号 408 个,编码位置 A140-A3BE
*常用字 5401 个,编码位置 A440-C67E,包括台湾教育部颁布的《常
用国字标准字体表》的全部汉字 4808 个,台湾教科书常用字 587 个,异体
字 6 个。
*次常用字 7652 个,编码位置 C940-F9D5,包括台湾教育部颁布的《次
常用国字标准字体表》的全部汉字 6341 个,《罕用国字标准字体表》中使
用频率较高的字 1311 个。
3. GBK 字符集
GB2312 -80 仅收汉字6763 个,这大大少于现有汉字,随着时间推移及汉
字文化的不断延伸推广,有些原来很少用的字,现在变成了常用字。因此全
国信息技术化技术委员会于1995 年12 月1 日《汉字内码扩展规范》。
GBK 向下与GB2312 完全兼容,包含Big-5 的繁体字(但是不兼容Big-5 字
符集编码)。
GBK 共收入21886 个汉字和图形符号,包括:
* GB2312 中的全部汉字、非汉字符号。
* BIG5 中的全部汉字。
* 与ISO -10646 相应的国家标准GB13000 中的其它CJK 汉字
(以上合计 20902 个汉字)
* 其它汉字、部首、符号,共计 984 个。
微软公司自Windows95 简体中文版开始支持GBK
您可能关注的文档
- Electron DOM <webview> 标签.pdf
- EM4450A5WT7E中文资料(EM Microelectronic)中文数据手册「EasyDatasheet - 矽搜」.pdf
- EM78P156NP中文资料(ELAN Microelectronics)中文数据手册「EasyDatasheet - 矽搜」.pdf
- EM4550A5WS7中文资料(EM Microelectronic)中文数据手册「EasyDatasheet - 矽搜」.pdf
- EM91450A中文资料(ELAN Microelectronics)中文数据手册「EasyDatasheet - 矽搜」.pdf
- EM91410D中文资料(ELAN Microelectronics)中文数据手册「EasyDatasheet - 矽搜」.pdf
- EN27C51255I中文资料(List Unclassifed)中文数据手册「EasyDatasheet - 矽搜」.pdf
- EM9636硬件说明书_141222.pdf
- ENEC安全认证简介.pdf
- EP1C12F144C7中文资料(Altera)中文数据手册「EasyDatasheet - 矽搜」.pdf
文档评论(0)