- 1、本文档共36页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
汉字编码 汉字编码 汉字编码现状及其根源 多种编码方案共存,不利于交流和共享 新旧标准同台使用,需相互转换 统一标准正在形成 中、日、韩、新等多国同时使用汉字 简繁体汉字并存 地区、国家间的文化、政治差异增加了汉字统一编码的难度 主要汉字(文字)编码标准与规范 ASCII(英文) GB2312 GBK GB13000 GB18030 BIG5 Shift_JIS ISO/IEC 10646 Unicode 汉字的几种通行名称 Hanzi,Hantsu,汉字 Ideographic character,表意字符,中文字符 Kanji-日文中的叫法 Hanja-朝鲜文中的叫法 CJK-中日韩通用字符集 Unihan ASCII码 美国信息交换标准编码(“美标”) 用从0到127的128个数字来代表信息的规范编码 包括33个控制码,一个空格码,和94个形象码 形象码中包括了英文大小写字母,阿拉伯数字,标点符号等 国际上大部分电脑的通用编码 文本文件与二进制文件 字符大都是用一个八位二进制数字表示,美标只规定了128个编码,剩下的另外128个数码没有规范,美标中的33个控制码,各厂家用法也不尽一致 文本文件(ASCII Text Files) :美标形象码或空格码组成,通常可在不同电脑系统间直接交换 二进制文件(Binary Files) :含有控制码或非美标码的文件,通常不能在不同电脑系统间直接交换 国标、区位、“准国标” 、机内码 国标:中华人民共和国国家标准信息交换用汉字编码 国标(GB2312-80)表(基本表)把七千余汉字、以及标点符号、外文字母等,排成一个94行、94列的方阵 每一横行叫一个“区”,每个区有九十四个“位” 一个汉字在方阵中的坐标,称为该字的“区位码” 例如“中”字在方阵中处于第54区第48位,它的区位码就是5448 区位码表 区位码来源于信息交换用汉字编码字符集(基本集)国家标准(GB2312-80),该标准收汉字6763个,第一级3755个,位于16至55区,55区的最后5个字符没有定义;第二级3008个,位于56至87区 第一级汉字按照汉语拼音字母顺序排列,同音字以笔形顺序横(一)、直(丨)、撇(丿)、点(丶)、折(乙)为序。起笔相同按第二笔,依次类推。 第二级汉字按部首排序,本标准采用的部首与一般字典用的部首基本相同,略有改变。部首次序及同部首字按笔划数排列,同笔划数的字以笔形顺序横(一)、直(丨)、撇(丿)、点(丶)、折(乙)为序。起笔相同按第二笔,依次类推。 查表时先查区号,再查行、列,例如:“、”是0102,“蔼”是1610。 例 例 例 例 例 例 国标、区位、“准国标”、机内码 94:美标中形象码的总数,33--126 汉字区、位码各加上32,就会与美标形象码的范围重合,称为该字的“国标码”,与其相对应的两个美标符号,为该字的“国标符” 如何区分国标符与美标符:国标码的两个数字各加上128,称“准国标”或“机内码” 机内码=(区位码)H + 8080H +2020H BIG5码 针对繁体汉字的编码,在台湾、香港的电脑系统中得到普遍应用 ISO/IEC 10646 一个国际标准编号,国际标准化组织(ISO)1993年正式颁布 英文全称:Information technology - Universal Multiple - Octet Coded Character Set,简称UCS 中文全称:信息技术--通用多八位编码字符集,亦称大字符集 宗旨:全球所有文种统一编码 Unicode 英文Universal Code的缩略语 统一编码 是对国际标准ISO/IEC 10646编码的一种称谓 是一个企业联盟集团的名称,由美国的HP、Microsoft、IBM、Apple等几家知名的大型计算机企业所组成,成立该集团的宗旨就是要推进多文种的统一编码 就内容而言,Unicode和ISO/IEC 10646是一致的,并行的 CJK-中日韩统一汉字 把中国、日本与韩国的英文称谓的首字母用于ISO/IEC 10646中的中、日、韩统一编码汉字的简称 Unihan CJKV或许更准确,V代表越南 ISO/IEC 10646 的体系结构 四维的编码空间 总体上分为128个三维组(group), group的值范围是从00到7F 每一组包含256个平面(plane),每一个平面包含256行(row),每一行包含256个字位(cell),又称为“列”,plane、row、cell的值范围都是从00到FF全编码 整个编码字符集的每个字符都是由4个八位序列表示,(按照组八位、面八位、行八位、列八位的顺序) 可编码空间为:128X256X256X256=32KX64K ISO/IEC 10646
您可能关注的文档
最近下载
- 小升初基础专题专项突破句子赏析(试题)部编版语文六年级下册.docx
- Unit3 My weekend plan B let's talk and learn课件人教PEP英语六上.pptx
- 美丽汉字上海市小学生二届到十届2023年中文自修杯汉字小达人试卷(含参考答案).pdf
- 2024年无线电装接工(高级)职业技能考试题库大全(附答案).docx
- 九年级第一次模拟考后家长会.ppt VIP
- 河北机关事业单位工人考试图书仓储员试题(卷)与答案解析.doc
- 美丽汉字上海市小学生2023年第十届中文自修杯汉字小达人试卷(含答案).docx
- 医疗器械APQP新产品开发的资料.pdf
- 管径流量与压力关系表新.docx
- SOLIDWORKS中文版基础教程(SOLIDWORKS 2018版)PPT课件(全).pptx VIP
文档评论(0)