- 1、本文档共88页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * 2.4.4.2 其他常用汉字编码 一、BIG-5 (大五码) 通行于我国台湾、香港等地区的繁体字编码方案。 采用双字节编码方案,第1字节的最高位总是1,第2字节的最高位可能是1或0。 二、GBK GBK是对GB2312的扩充,仍然采用双字节编码方案,收录21886个汉字和图形符号。 GB18030是对GBK的扩充,在双字节编码的基础上对罕见汉字使用4字节编码。收录27484个汉字,同时还收录日文、朝鲜语和藏、蒙等文字。 ASCII → GB2312 → GBK → GB18030 向下兼容 2.4.5 Unicode编码 Unicode(通用码)是当前国际上最为通用的字符编码规范,它为全世界所有语言(超过650种)的每个字符分配一个唯一数字,以满足跨语言、跨平台进行文本转换、处理的要求。 Unicode标准已经被计算机业界主流所采用,许多操作系统、所有必威体育精装版的浏览器和许多其他软件产品都支持它。 Unicode 字符集简称UCS 2.4.5.1 Unicode字符集 Unicode字符集采用四维编码空间 每个字位对应一个Unicode代码点。 Unicode代码点书写格式:如 U+41 表示 “A”, A的ASCII码 65=41H 2.4 字符编码技术 UCS-4码和UCS-2码 UCS-4码定义Unicode字符集的所有代码点,对每个代码点使用4个8位(即32位,且最高位总是0)依次表示这个代码点所在的组、平面、行和字位: 共有231=2,147,483,648个代码点。例如,字符“ ”编排在00组01面04行00位,故其UCS-4码是U 基本多文种平面(BMP):是指Unicode字符集的第1个平面,即0组0面。 2.4 字符编码技术 UCS-2码只对BMP中的代码点进行双8位编码,共有216=65,536个代码点。例如 “A” U+0041 “€” U+20AC “汉” U+6C49。 UCS-2码基本上可以容纳所有的欧美字符和绝大部分的亚洲字符,因此,UCS-2字符集被普通支持。 小提示:在Word中,将输入点移至某个字符的右侧,按下Alt+X,该字符就转换为Unicode代码点,再按则转换回原字符 2.4.5.2 UTF编码 UTF是对Unicode字符集编码的实现方案,为每个Unicode字符给出机内表示格式, Unicode 字符的机内码 UTF规范定义了三种编码格式,即UTF-8、UTF-16和UTF-32,它们都能够正确地编码任何Unicode代码点。其中,UTF-8和UTF-16被广泛使用,而UTF-32很少使用。 一、UTF-32 UTF-32码是定长码,使用1个32位(即4字节)编码单元表示每个等值的Unicode代码点。例如,字符“A”的代码点U+41用4个字节表示等值的无符号整数41H。 41H=0100 0001 UTF-32的优点在于编码简单,缺点是每个字符都需4字节表示,太浪费存储空间。 2.4 字符编码技术 二、UTF-16 UTF-16码是变长码,使用1个或2个16位(即2字节)编码单元对Unicode代码点进行编码。 对BMP字符的表示方式等同于UCS-2,使用2个字节。例如用两个字节6CH和49H表示字符“汉”的代码点U+6C49 对于非BMP字符则使用4个字节表示。 UTF-16的优点在于几乎所有常见字符都使用双字节表示,便于统一处理;缺点是每个ASCII字符也要用2个字节表示。 2.4 字符编码技术 UTF-16分类 由于UTF-16使用双字节编码单元,因此UTF-16码有两种形式: 大序UTF-16(UTF-16 big-endian):如“国”的代码点U+56FD表示为2字节序列56 FD 小序UTF-16(UTF-16 little-endian):如“国”表示为2字节序列FD 56。 标记字节序:使用BOM字符U+FEFF,即如果文档起始2个字节是FE FF,则表示文档是大序UTF-16;若这2个字节为FF FE,则文档为小序UTF-16。 * 中山大学计算机科学系 “国”U+56FD =========================== 5 6 F D 二进制 0101 0110 1111 1101 两字节 =========================== 大序 (高位在前,低位在后
文档评论(0)