如何判断一个文本文件内容的编码格式并修改.docx

下载文档

128
0
约 8页
2017-05-23 发布于重庆
举报
版权申诉
保障服务

如何判断一个文本文件内容的编码格式并修改.docx

1、本文档共8页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

如何判断一个文本文件内容的编码格式并修改

如何判断一个文本文件内容的编码格式并修改?UTF-8???ANSI(GBK)?(2012-07-20 18:10:57)转载▼分类：?Cstylewindows下的notepad另存为选项有关于编码的选择，ANSI、Unicode、Unicode big endian、UTF-8四种选择编码方式。其中ANSI是与你使用的windows操作系统的语言有关系的，向windows 7 简体中文版就是GBK（用一个字节表示英文，用两个字节表示一个中文）。第二个选项Unicode其实是指Unicode16?little?endian 。第四个选项UTF-8大家都知道吧。但是有一个要注意的地方是，微软在windows平台下用自带的notepad.exe生成UTF-8编码的文本文件时会在文件开头加入三个字节的BOM（byte order mark）EF BB BF，这样就通过有无BOM区别文本的编码是ANSI（GBK）还是UTF-8。但是了，UTF-8也可以不要这三个字节的BOM，像用php的GD库生成图片时，如果有了BOM就会出错。而且在windows平台上，用notepad打开一个没有BOM的文本文件，也能正常显示，而不会当做ANSI（GBK）来处理。但是有这样的一个趣事，就是在notepad中输入“联通”两个中文，保存到本地，再打开，会发现乱码。这是为什么呢？这个就设计到notepad判断文本编码的原理了。（这个原理是根据实验结果推测的，本人不保证其绝对与微软的思路一致）notepad打开一个文本，有BOM这很容易判断是UTF系列编码，因为UTF-8，UTF-16 big endian, UTF-16 little endian ，UTF-32 big endian, UTF-32 little endian 的BOM都不一样。但是如果文本没有BOM，又不能立刻判定其为ANSI（GBK）编码，因为也有可能是无BOM的UTF-8。所以notepad会根据UTF-8的编码原理推测编码?UCS-4编码????????????????UTF-8字节流U– U+0000007F????0xxxxxxxU– U+000007FF????110xxxxx 10xxxxxxU– U+0000FFFF????1110xxxx 10xxxxxx 10xxxxxxU– U+001FFFFF????11110xxx 10xxxxxx 10xxxxxx 10xxxxxx……比如中文都是用三个字节表示，若无BOM，则从文本第一个字节开始，按照UTF-8的编码规则去验证字符编码，例如：第一个字节的第一个bit为0，说明是个ANSII字符，继续查看第二个比特，若第一个比特是1，则查看第二个比特，若第二个比特为0，说明这不是一个UTF-8编码的文本。依次类推，若一旦有一个bit不满足UTF-8编码要求，就判定文本为ANSI（GBK），若知道文本结束都不能判定，则说明文本是UTF-8编码的。所以现在我们就能明白为什么在notepad中“联通”会乱码了。notepad中文本默认按ANSI（GBK）保存，没有BOM，打开时notepad会判断其编码，巧合的是联通的ANSI（GBK）编码为 C1 AA CD A811000001?这正好也是两个UTF-8编码的文字，当然这不是中文啦。所以notepad会认为这是一个UTF-8编码的文本,会安装UTF-8的格式来解析字符，于是乱码了。知道了原理，我们就可以编写判断文本编码的软件了。这里我就不贴代码了。文件编码,文件或文件名编码格式转换?（7193）??（1）如果你需要在Linux中操作windows下的文件，那么你可能会经常遇到文件编码转换的问题。Windows中默认的文件格式是GBK(gb2312)，而Linux一般都是UTF-8。下面介绍一下，在Linux中如何查看文件的编码及如何进行对文件进行编码转换。一，查看文件编码：在Linux中查看文件编码可以通过以下几种方式：1.在Vim中可以直接查看文件编码:set fileencoding即可显示文件编码格式。如果你只是想查看其它编码格式的文件或者想解决用Vim查看文件乱码的问题，那么你可以在~/.vimrc 文件中添加以下内容：set encoding=utf-8 fileencodings=ucs-bom,utf-8,cp936这样，就可以让vim自动识别文件编码（可以自动识别UTF-8或者GBK编码的文件），其实就是依照fileencodings提供的编码列表尝试，如果没有找到合适的编码，就用latin-1(ASCII)编码打开。2