- 1、本文档共23页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文信息处理技术原理与应用 liba2002@ 清华大学出版社 中文信息处理技术原理与应用 liba2002@ 清华大学出版社 * 中文信息处理技术原理与应用(二) 北京信息科技大学计算机学院 李宝安 * 第二章 汉字编码输入原理 汉字和汉字属性 汉字编码输入方法 汉字键盘码的笛卡尔积集分析 汉字信息的熵值 海曼公式与汉字编码的键盘特性 汉字编码输入方法简易评测方法 汉字编码输入方法专业评测方法 汉字键盘码的译码问题 有关中文输入技术现状与发展的几个问题 * 汉字和汉字属性 汉字发展及其分级 汉字的结构分析 汉字的字音和字义 汉字的排序 汉字的属性 * 汉字发展及其分级 据考古发现的甲骨文实物的考证,中国古代汉字的记载可追溯到公元前1300年,至少已有3000多年的历史。 汉字的形态,可以归纳出它包括象形字、表意字、形声字和假借字。 最早可以考证的甲骨文汉字约有3000个左右。 目前中国日常通用的汉字过6000~7000个。其它五万多个属生僻字,却仍然保留在古籍资料,以及某些人名、地名等中使用。目前,六万字以外新造汉字几乎已无必要,而用某些汉字衍生新词则不断有所发展。 虽然现代汉字已压缩到6000~7000之数,但仍然是一个庞大的数字,作为文字信息处理时有不方便之处。和英文的26个字母相比,是一种“大字符集”。实际应用中,这些数量的汉字并不是频率均等地使用的,应按照使用频度对它们分级。GB2312-80基本集,一级字3755个,二级字3008个,共6763个。 * 汉字的结构分析 位点 按照目前用计算机处理汉字的,构成点阵式汉字字模的最小单位是“位点”,也就是二进制信息中的一位。 笔画 楷书汉字的基本笔画有六种。即 一,丨,丿,乀,,乚 这六种笔形,按其方向来区分,可以分为两类: 1、单向笔画,如 一,丨,丿,乀, ノ 2、复向笔画,如 弯笔(,乛,) 拐笔(乚, 巜, ) 实际上,在按笔形编码的汉字输入方案中,根据需要,可以另行定义其它的复笔结构,以提高汉字的编码效率。 部首 汉字部首的数量也较大,楷体汉字共有部首214个,作为传统的部首一直沿用到现在。实用角度出发,适当地简化部首,把汉字部首简化到100个左右 字根 单字 * 字根 字根是汉字形体的基本结构单元。字根这一概念,通常人们对它比较模糊。同时也无统一的选择标准。在名称上也存在多种叫法,例如,称作字母、形母、部件、组件、字元、构件、符号等。 字根的数目,也无一定标准,少的可选数十个,多至二三百,甚至四五百个。实际上,字根可以从通用的二百多个部首的基础上,根据应用情况需要,做出选择。过少或过多都不相宜。 在按字型分解的汉字编码输入方案设计中,为了获得高的编码效率,要严格选择字根数目。在按字形分解的汉字编码方案设计中,除了采用一些基本部首作的字根外,在部首的基础上,按需要添加某些笔画,作为补充的字根,有助于提高编码效率。 汉字字根可以分为单结构字根和复结构字根。只有一笔画就形成一个独立结构的字根,称作单结构字根,二笔画或多笔画形成一个独立结构的字根,称作复结构字根。 构成字根的笔画间有“单、散、连、交”四种形式。只有单笔关系的字根是:一,丨,丿,乀, ,乚;只有散笔关系的字根如:二,三,八,习,夕,冫,氵;只有连笔关系的字根如:工,厂,匚,歹,卜,止,冂,月,口,足,日,目,四;只有交笔关系的字根如:十,犭,乂,卄,卅;兼有散、连二种关系的字根如:彳,讠,衤,疒;兼有散交二种关系的字根如米,卜;兼有连、交二种关系的字根如:耳,王,大,禾,巾;散、连、交三种关系都有的字根如雨,西,舟,鱼。 * 单字 单字的字根构成种类 :按照单字中所含字根数目的多少,可以分为四类: (1)?????单根单字,如:一,女,十,木,口,日,马,又,力,…,等。 (2)?????二根单字,如:从,劝,权,旦,早,杏,另,…,等。 (3)?????三根单字,如:树,查,曼,驾,萌,盟,…,等。 (4) 四根(或多根)单字,如,楂,碳,疑,爵,壹,恣,…,等。 字的字型分类:字型是单字结构的字根相互间的结构类型,可以分成四种。 (1)独体型。由单式、连式、交式字根组成的单字,结构紧密,独自成为一体,这 样的构型称作独体型。 单式独体型如:三,石,鱼,米,山,…,等,属于单根结构。 连式独体型如:天,下,千,少,尺,…,等,属于复根连笔结构。 交式独体型如:夫,丈,事,秉,半,坐,…,等,属于复根交笔结构。 (2)左右型。单字内分成左根和右根二半,中间有一定间隙的散式构型,称为左右型。例如,相,鸠,邢,炳,锉,…,等 (3)上下型。单字内分成上根和下根二半,中间
文档评论(0)