汉字信息处理与汉字输入法.pptVIP

下载本文档

54
0
约1.78万字
约 80页
2017-02-22 发布于上海
举报
版权申诉

汉字信息处理与汉字输入法.ppt

1、本文档共80页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

汉字信息处理与汉字输入法

第４章汉字信息处理与汉字输入法据统计，全世界使用汉字的人数约占世界总人口的36%。虽然汉字是世界上使用人数最多的文字之一，但早期的计算机是不能处理汉字信息的。拼音文字如英文，其单词可以由为数不多的字母通过不同的排列来构成。因此，用计算机来处理就比较简单。而表意文字如汉字，其构成词的符号是独立的。不但符号数量多，而且结构复杂，计算机处理起来就比较困难。　　自20世纪60年代以来，日本、中国及其他一些国家相继开展了汉字信息处理的研究。1974年,我国将汉字信息处理研究课题“748工程”列为国家重点工程，研制汉字精密照排系统和汉字情报检索系统。20世纪70年代末到80年代初，我国在汉字基本属性、编码和存储、输入与输出设备和汉字应用系统等方面的研究取得了迅速的进展。尤其是激光精密照排系统已达到世界领先水平，微型机汉字信息处理技术进入了实用阶段，使我国计算机应用的深度和广度都向前迈进了一大步。４.１汉字信息处理的基本问题４.２微机汉字信息处理系统的构成和使用 4. 3 拼音码输入法４.１汉字信息处理的基本问题 4.1.1 文字信息的计算机处理过程要用计算机来处理文字，必须解决如何把文字输入计算机并在计算机中存储起来，进行适当处理之后再输出文字等问题。首先要解决用0、1代码串表示文字符号的问题，也就是前面提到的编码问题。以英文信息的计算机处理为例，英文字符的编码标准是ASCII码，即美国信息交换标准代码。这是七位的二进制代码，它是美国国家标准学会（ANSI）为计算机的信息交换提出的标准，后来由国际标准组织（ISO）确定为国际标准字符编码。为了和国际标准兼容，我国根据它制定了英文字符编码国家标准，即GB1988。其中除了将货币符号置换为人民币符号外，其他都与ASCII码相同。计算机的键盘原本就是为英文输入设计的，只要按照字母击键，就可以输入英文。键盘的译码电路按照所击的键产生英文字符的ASCII码，输入到计算机的内存中。为了对输入的文字进行编辑加工，必须使用相关的应用软件，如Word 2000、WPS 2000，或其他文字处理软件。经过编辑的文本仍然以ASCII码表示。输出时，这些代码必须转换成字符字形的点阵，以便显示或打印。因此，计算机必须存储每个英文字符、数码以及标点符号的点阵信息。这些点阵信息构成了所谓“字模库”。字模库的点阵以有点或无点来表示文字和符号。文字、符号的点阵信息由显示器或打印机输出时，必须通过相应的驱动程序，将点阵信息转换为显示器、打印机的电子或机械的操作。文字信息的计算机处理过程如图4.1所示。汉字信息的计算机处理过程与英文信息处理过程是类似的。不过，由于汉字信息的特点，以及要考虑与英文信息处理系统兼容等问题，处理的难度更大。我国经过多年的研究，汉字处理的基本问题已经解决。 4.1.2 汉字编码标准为了用0、1代码串表示汉字，在汉字系统或通信系统之间交换信息，必须给每个汉字规定一个统一的代码。这就是汉字的交换码。1981年5月，我国国家标准总局颁布了《信息交换用汉字编码字符集》(GB 2312-80)，作为汉字交换码编码的国家标准，简称国家标准汉字编码，或国标码。收进该标准的字符共有7 445个。其中一级汉字3 755个，二级汉字3 008个，共计6 763个。一、二级汉字约占近代文献汉字累计使用频度的99.99%。为便于查找，一级汉字按汉语拼音顺序排列；二级汉字一般不易熟记它们的发音，故按部首和笔画排列。另外还包括常用符号、序号、GB 1988图形字符集、日文假名、希腊字母、俄文字母、汉语拼音、注音字符、制表符号等。累计使用频度不足0.001%的汉字数量接近1万个。为了满足计算机实际应用的需要，我国在GB 2312-80的基础上扩大收字的范围，制定了“汉字内码规范”GBK，包含了20 902个汉字，又称为扩展的国标码。在Windows 95/98和其后的Windows 2000中，装入了GBK的全部汉字和符合GBK和GB 2312-80的输入法。　　由于汉字的字符多，一个字节八位二进制代码不足以表示所有的常用的汉字。为了不与西文的ASCII 码混淆，在微型机汉字系统中，国标码的每个符号都用两个字节（十六位）代码来表示，并作为转换为机内码或其他汉字处理代码的依据。　1. 国标码　汉字国标码就是GB 2312-80为汉字规定的代码，也称为交换码。国标码是汉字编码的国家标准。在GB 2312-80代码表中，纵向分为0~93，共94行；横向也是0~93，共94列。行与列分别用七位二进制码表示，第一字节表示行，第二字节表示列。其值都从0100