编码问题，关于gb2312与utf 8.docVIP

下载本文档

3
0
约9.39千字
发布于福建
举报
版权申诉
文档已下架，其它文档更精彩

编码问题，关于gb2312与utf 8.doc

1、本文档被系统程序自动判定探测到侵权嫌疑，本站暂时做下架处理。
2、如果您确认为侵权，可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理，应急电话：400-050-0827。
3、此文档由网友上传，因疑似侵权的原因，本站不提供该文档下载，只提供部分内容试读。如果您是出版社/作者，看到后可认领文档，您也可以联系本站进行批量认领。

编码问题，关于gb2312与utf 8

编码问题，关于gb2312和utf 8 表于：2011-05-24 23：47：27 相信大家很多人跟我一样，对于编码一直感觉云山雾罩，说知道吧?就知道gb2312是中文编码，一看见乱码，就知道是编码出了问题，但是是哪儿出问题，为什么出问题，除了蒙，还是蒙。尤其是弄好了之后，有人问：为什么呢。自己也不知道，就说：反正就是这样的，用什么编码就用什么解码。为什么，鬼知道。其实问题还是理解了之后，才能真正的明白为什么会这样，而且编码这个问题，也不是那么深奥，在网上有哪些信誉好的足球投注网站了一些资料，算是一直以来对编码问题的一个解决吧，最让人明白的资料有两个,第一个：关于字符编码，你所需要知道的字符编码的问题看似很小，经常被技术人员忽视，但是很容易导致一些莫名其妙的问题。这里总结了一下字符编码的一些普及性的知识，希望对大家有所帮助。还是得从ASCII码说起说到字符编码，不得不说ASCII码的简史。计算机一开始发明的时候是用来解决数字计算的问题，后来人们发现，计算机还可以做更多的事，例如文本处理。但由于计算机只识数，因此人们必须告诉计算机哪个数字来代表哪个特定字符，例如65代表字母A，66代表字母B，以此类推。但是计算机之间字符-数字的对应关系必须得一致，否则就会造成同一段数字在不同计算机上显示出来的字符不一样。因此美国国家标准协会ANSI制定了一个标准，规定了常用字符的集合以及每个字符对应的编号，这就是ASCII字符集(Character Set)，也称ASCII码。当时的计算机普遍使用8比特字节作为最小的存储和处理单元，加之当时用到的字符也很少，26个大小写英文字母还有数字再加上其他常用符号，也不到100个，因此使用7个比特位就可以高效的存储和处理ASCII码，剩下最高位1比特被用作一些通讯系统的奇偶校验。注意，字节代表系统能够处理的最小单位，不一定是8比特。只是现代计算机的事实标准就是用8比特来代表一个字节。在很多技术规格文献中，为了避免产生歧义，更倾向于使用8位组(Octet)而不是字节(Byte)这个术语来强调8个比特的二进制流。下文中为了便于理解，我会延用大家熟悉的字节这个概念。 ASCII字符集由95个可打印字符(0x20-0x7E)和33个控制字符(0x00-0x19，0x7F)组成。可打印字符用于显示在输出设备上，例如荧屏或者打印纸上，控制字符用于向计算机发出一些特殊指令，例如0x07会让计算机发出哔的一声，0x00通常用于指示字符串的结束，0x0D和0x0A用于指示打印机的打印针头退到行首(回车)并移到下一行(换行)。那时候的字符编解码系统非常简单，就是简单的查表过程。例如将字符序列编码为二进制流写入存储设备，只需要在ASCII字符集中依次找到字符对应的字节，然后直接将该字节写入存储设备即可。解码二进制流的过程也是类似。 OEM字符集的衍生当计算机开始发展起来的时候，人们逐渐发现，ASCII字符集里那可怜的128个字符已经不能再满足他们的需求了。人们就在想，一个字节能够表示的数字(编号)有256个，而ASCII字符只用到了0x00~0x7F，也就是占用了前128个，后面128个数字不用白不用，因此很多人打起了后面这128个数字的主意。可是问题在于，很多人同时有这样的想法，但是大家对于0x80-0xFF这后面的128个数字分别对应什么样的字符，却有各自的想法。这就导致了当时销往世界各地的机器上出现了大量各式各样的OEM字符集。下面这张表是IBM-PC机推出的其中一个OEM字符集，字符集的前128个字符和ASCII字符集的基本一致(为什么说基本一致呢，是因为前32个控制字符在某些情况下会被IBM-PC机当作可打印字符解释)，后面128个字符空间加入了一些欧洲国家用到的重音字符，以及一些用于画线条画的字符。事实上，大部分OEM字符集是兼容ASCII字符集的，也就是说，大家对于0x00~0x7F这个范围的解释基本是相同的，而对于后半部分0x80~0xFF的解释却不一定相同。甚至有时候同样的字符在不同OEM字符集中对应的字节也是不同的。不同的OEM字符集导致人们无法跨机器交流各种文档。例如职员甲发了一封简历résumés给职员乙，结果职员乙看到的却是rsums，因为é字符在职员甲机器上的OEM字符集中对应的字节是0x82，而在职员乙的机器上，由于使用的OEM字符集不同，对0x82字节解码后得到的字符却是。多字节字符集(MBCS)和中文字符集上面我们提到的字符集都是基于单字节编码，也就是说，一个字节翻译成一个字符。这对于拉丁语系国家来说可能没有什么问题，因为他们通过扩展第8个比特，就可以得到256个字符了，足够用了。但是对于亚洲国家来说，256个字符是远远不够用的。因此这些国家的人为了用上电脑，又要保持和ASCII字符集

您可能关注的文档

知传链电子书

文档评论（0）

3471161553 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

编码问题，关于gb2312与utf 8.docVIP