网站大量收购闲置独家精品文档,联系QQ:2885784924

第5讲-第1章数据的表示与编码.ppt

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第1章 数据的表示与编码 1.3 非数值信息的编码 主要内容: 字符的编码——ASCII码(掌握) 汉字的编码(理解) Unicode码(了解) 静态图像的编码(了解) 动态数据的编码(了解) 1.3 非数值信息的编码 随着现代计算机运用的深入,计算机不仅仅进行科学计算,实际上更大量的工作是用于处理人们日常工作和生活中最常使用的信息形式,也就是所谓的非数值型数据,包括语言文字、逻辑语言、视频图像等非数值信息。这需要为计算机找到一种合适的方法来表达这些信息。 计算机中使用了不同的编码来表示和存储数字、文字符号、声音、图片和图像(视频)信息。 编码(或代码)通常指的是一种在人和机器之间进行信息转换的系统。编码是人们在实践中逐步创造的一种用较少的符号来表达较复杂信息的表示方法。 1.3 非数值信息的编码 1、 字符的编码 —ASCII码 字符是非数值型数据的基础,字符与字符串数据是计算机中用得最多的非数值型数据。在使用计算机的过程中,人们需要利用字符与字符串编写程序、表示文字及各类信息,以便与计算机进行交流。为了使计算机硬件能够识别和处理字符,必须对字符按一定规则用二进制进行编码,使得系统里的每一个字母有唯一的编码;文本中还存在数字和标点符号,所以也必须有它们的编码。 美国最先制定了符合他们使用需要的美国标准信息交换代码(American Standard Code for Information Interchange),简称ASCII码。 1.3 非数值信息的编码 ASCII码包含7位二进制编码,可表示27=128个不同的字符。 标准ASCII码表可以看成由三部分组成: 第一部分:00H~1FH,共32个编码,一般用来通讯或作为控制来用,有些则不能显示,但能看到其效果(如换行、退格)。 如表1-4所示。 表1-4 标准ASCII码表:00H~1FH 1.3 非数值信息的编码 第二部分:20H~7FH,共96个 其中编码值20H表示空格,其余95个用来表示阿拉伯数字、英文字母大小写和下划线、括号等符号,这些字符都可以在屏幕上显示,见表1-5所示。 表1-5 标准ASCII码表:20H~7FH 1.3 非数值信息的编码 例1-28: 已知字符“A”的ASCII码为41H,由此推算 0100 0011B 所对应的字符是( )。 已知字符“M”的ASCII码为4DH,由此推算字符“F”的ASCII码是( )。 1.3 非数值信息的编码 第三部分:80H~0FFH,共128个字符,一般称为“扩充字符”。这些字符是由IBM制定的,并非标准的ASCII码,用来表示框线、音标和其它欧洲非英语系的字母。见表1-6所示。 表1-6 扩展 ASCII码表: 80H~FFH 1.3 非数值信息的编码 2、汉字编码 计算机只识别由0、1组成的代码,ASCII码是英文信息处理的标准编码,汉字信息处理也必须有一个统一的标准编码。 汉字进入计算机,有许多困难,其原因主要有三点: ①数量庞大:现在汉字总数已超过6万个(包括简化字)。有研究者主张规定3000多或4000字作为当代通用汉字,但仍比处理由二三十个字母组成的拼音文字要困难得多。 ②字形复杂:古体、今体、繁体、简体,而且笔画相差悬殊,少的一笔,多的达36笔,简化后平均为9.8笔。 ③存在大量一音多字和一字多音的现象:以1万个汉字计算,每个不带调的音节平均超过24个汉字,每个带调音节平均超过7.7个汉字。有的同音同调字多达66个。一字多音现象也很普遍。 1.3 非数值信息的编码 国标码:我国国家标准局于1981年5月颁布了《信息交换用汉字编码字符集——基本集》,代号为GB2312-80,共对6763个汉字和682个图形字符进行了编码。 其编码原则为:汉字用两个字节表示,每个字节占用七位码(高位为0),国家标准将汉字和图形符号排列在一个94行94列的二维代码表中,每两个字节分别用两位十进制编码,前字节的编码称为区码,后字节的编码称为位码,此即区位码;如“保”字在二维代码表中处于17区第3位,区位码即为“1703 ”。 1.3 非数值信息的编码 国标码并不等于区位码,它是由区位码稍作转换得到。 转换方法为:先将十进制区码和位码转换为十六进制的区码和位码,这样就得了一个与国标码有一个相对位置差的代码,再将这个代码的第一个字节和第二个字节分别加上20H,就得到国标码。如:“保”字的国标码为3123H,它是经过下面的转换得到的:1703D-1103H- +20H-3123H。 1.3 非数值信息的编码 国标码是汉字信息交换的标准编码,但因其前后字节的最高位为0,所以与ASC

文档评论(0)

junjun37473 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档