- 1、本文档共61页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
4) 汉字代码体系 在一个计算机系统中西文拼音字符的输入、内部处理、存储和输入都可以使用同一代码。而汉字是一种象形文字,它的“意”都寓于其“形”和“音”中。如果直接向计算机输入文字和语音虽然可以实现,但远不理想,况且输入装置要做修改。而在计算机内部直接处理、存储文字的字形和语音就更加困难。故处理字符要进行代码化,西文拼音文字代码化比较容易,而汉字由于种类繁多。其编码比拼音文字难得多。而输入、内部处理,输出对汉字的编码又不相同。用的代码也就不尽相同。汉字信息处理系统在处理汉字和词语时,要进行一系列的汉字代码转换。通过键盘或其它的输入工具输入汉字时。要按一定的编码来进行,这称之为输入码,而在计算机内部存储、处理、传输汉字用的代码称为机内码。而要将汉字输出,用打印机或显示器输出应有一个字形码。 2.1 信息在计算机内的表示 (1) 输入码 目前使用得最多的输入设备就是西文标准键盘, 这种键盘的设计沿用了西文打字机的排列。因而,西文的输入十分方便,想输入什么字符就按什么键。中文输入为了能直接使用西文字符标准键盘,就不可能直接按某键了。中文的字数繁多,字形复杂,字音多变。常用的汉字就有7000多个左右,因此要对汉字设计相应的编码。以便操作人员从键盘上输入代表的汉字的编码。这些编码由拉丁字母(如汉语拼音)、数字(区位码)、或特殊符号(五笔字形)构成,千变万化。各种输入方案就是以不同的符号系统来代表汉字进行输入的。目前使用得比较多有区位码、五笔字形码、拼音码、自然码、和智能ABC。 汉字的编码主要分为三类,数字编码,拼音,字形码。 2.1 信息在计算机内的表示 ① 数字编码:数字就是用数字来代表一个汉字输入,正好使用西文标准键盘上的0~9这十个键。常用的数字编码就是“国标区位码”。国标区位码将国家标准局公布的6732个两级汉字分成94个区,每个区分成94个位。或者说是一个94行94列的大表,在这个表格里相应的位置装上这6763个汉字和其它符号,每一个汉字用它在该位置上的行坐标与列座标表示,这儿的行与列,就是所谓的区与位,区码与位码各两位十进数。因此输入一个汉字需要按4次键。例如“中”字位于第54区48位。则区位码为5448,只要从键盘按5448这四个键,就可将汉字“中”输入到计算机内了。这种数字编码输入的优点就是无重码,而且输入码和内部编码的转换比较方便,但是每个码都是等长的数字串,代码记忆困难。 ② 拼音码:拼音码是以汉语拼音为基础的编码,基本上绝大多数的中国人都是从小学就开始的接触拼音。对汉语拼音较熟悉。所以这种编码易于学习掌握,但由于汉字同音字太多,输入重码率就很高,输入拼音后还要对同音字进行选择,这就影响了输入速度。 2.1 信息在计算机内的表示 ③ 字形编码:汉字是像形文字。因此人们研究了以汉字的形状来确定编码,汉字总数虽然很多,但都是由一笔一划组成,全部汉字的部件与笔划是有限的,因此把汉字的笔划、部件用字母或数字进行编码,按笔划书写顺序依次输入,就能表示一个汉字。这种编码最具代表的就是“五笔字形”编码,其优点重码率低,输入速度快。 (2) 机内码 机内码是计算机设备内部对信息进行处理、内部存储、传输所用的代码。世界各大计算机公司一般均以ASCII码为内部码来设计算机系统,西文计算机中没有交换码与机内码之分。而汉字数量多。用一个字节无法区分,一般用2个字节来存放汉字的编码。两个字节共16位,可以表示216=65536个可区别的码,如果两个字节各用7位,则可表示214=16384个可区别的码。一个码代表一个汉字。一般来说,这已够用了,现在我国的汉字信息系统一般都采用这种与ASCII 码相应的8位码方案,用2个8位构成一个汉字机内码。 2.1 信息在计算机内的表示 (2) 机内码 1981年我国颁布了《通用汉字字符集(基本集)及其交换码标准》(国家标准代号为GB2312-80)。这是汉字交换码的国家标准,所以又称“国标码“。该标准收入了6763个常用汉字(其中一级汉字3735个,二级汉字3008个),以及英、俄、日文字同与其它符号687个,共有7000多个符号。 国标码规定每个字符由一个2字节代码组成。每个字节的最高位恒为“0”,其余7位用于组成各种不同的码值。两个字节的代码,共可表示128×128=16384个符号,而国标码的基本集目前仅有7000多个符号,所以足够使用。 计算机即要处理汉字,也要处理西文。为了实现中,西文兼容,通常利用字节的最高位来区分某个码值是代表汉字或ASCII 码字符。其体的作法是,若最高位为“1”视为汉字符,最高位为“0”视为ASCII码字符。所以汉字的机内码就在上述的国标码的基础上,把2个字节的最高位一律由“0“改为“1”而构
您可能关注的文档
- 大数据技术与应用基础第9、10章流实时处理系统Storm、企业级、大数据流处理Apex.pptx
- 大数据技术与应用基础第13、14章分布式文件有哪些信誉好的足球投注网站Elasticsearch、实例电商数据分析.pptx
- 大数据走向云计算 (1).ppt
- 大数据走向云计算 (2).ppt
- 大数据走向云计算 (3).ppt
- 大数据走向云计算 (4).ppt
- 大数据走向云计算 (5).ppt
- 大数据走向云计算 (6).ppt
- 大数据走向云计算 (7).ppt
- 大数据走向云计算 (8).ppt
- 2024年江西省高考政治试卷真题(含答案逐题解析).pdf
- 2025年四川省新高考八省适应性联考模拟演练(二)物理试卷(含答案详解).pdf
- 2025年四川省新高考八省适应性联考模拟演练(二)地理试卷(含答案详解).pdf
- 2024年内蒙通辽市中考化学试卷(含答案逐题解析).docx
- 2024年四川省攀枝花市中考化学试卷真题(含答案详解).docx
- (一模)长春市2025届高三质量监测(一)化学试卷(含答案).pdf
- 2024年安徽省高考政治试卷(含答案逐题解析).pdf
- (一模)长春市2025届高三质量监测(一)生物试卷(含答案).pdf
- 2024年湖南省高考政治试卷真题(含答案逐题解析).docx
- 2024年安徽省高考政治试卷(含答案逐题解析).docx
文档评论(0)