网站大量收购闲置独家精品文档,联系QQ:2885784924

《倪光南_关于“中华文字统一操作系统平台”》.pdf

《倪光南_关于“中华文字统一操作系统平台”》.pdf

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《倪光南_关于“中华文字统一操作系统平台”》.pdf

关于“中华文字统一操作系统平台” 倪光南 2008年11月29日-30日,北京 一、问题的提起 我国有56个民族,使用着数十种文字和近百种语言,为了 使各民族共同发展、共同繁荣,必须大力发展少数民族语 言文字信息处理技术,推进少数民族地区的信息化,这也 是中国中文信息学会的一个重要使命。 历史上,中文信息处理最早是从汉字编码研究开始的, 1978年12月,第一次全国汉字编码学术交流会召开并成立 了汉字编码研究会。当时,围绕汉字信息处理的各种技术 和产品已经逐渐发展起来。 后来,为了包含民族语言文字信息处理的内容,人们用 “中文信息处理”这个术语代替了“汉字信息处理”。 1981年6月中国中文信息研究会在天津成立,1986年10月 经国家科委批准更名为中国中文信息学会,学会下设民族 语言文字信息专业委员会,专门从事民族语言文字信息处 理研究、标准制定和学术交流等等工作,并接受国家语言 文字工作委员会的指导。 由于民族语言文字信息处理起步较迟,总的说来,落后于 汉字信息处理的水平;而且,各种民族文字的信息处理工 作往往是分别进行的,容易造成低水平重复。 这些年来,我国逐步发展出了各种民族文字的操作系统, 在早期是基于DOS,近年来,基本上都是基于Linux。这些 操作系统平台为推进各民族的信息化作出了贡献,但目前 仍存在一些问题需要解决: 一些人数较少、经济欠发达的少数民族至今仍没有支 持其民族文字的操作系统; 已开发出来的那些民族文字操作系统只能支持一种或 少数几种民族文字,要增加支持一种新的民族文字往 往还需要重新开发; 所有这些系统都是分散开发的,造成了资源浪费和低 水平重复。 2005年7月在青海召开的第十届全国少数民族语言文字信 息处理学术研讨会上,一些参会者提出了开发“中华文字 统一操作系统平台”的建议,得到了包括教育部语言文字 信息管理司领导在内的很多与会者的支持。 如果这一建议能付诸实施,意味着今后对各种民族文字, 可以不必分别开发各自特定文字的操作系统平台,而可以 共用一个高水平的平台,只需专注于开发与特定文字有关 的支持和应用,大大加速少数民族地区的信息化进程。 二、实现“ 中华文字统一操作系统平台”的首要 条件 实现“中华文字统一操作系统平台”的首要条件是字符集 标准已经成熟,国际字符集标准ISO/IEC 10646(即 Unicode)和我国的同类标准GB 13000已能容纳所有民族 文字。 为了支持汉字超大字符集(例如满足二代身份证的需求) 和所有民族文字,只用Unicode的基本多语言平面(BMP) 是不够的,必须用到辅助平面。 Unicode字符集在实际应用中的具体编码方式常用UTF-16 和UTF-8。UTF16是变长编码,用两个字节对BMP内的字符 编码,用4个字节对超出BMP范围的辅助平面内的字符编码。 UTF-8也是不等长编码,用1-4个字节分别对不同范围的 字符编码。 基本多文种平面BMP,编码从U+0000至U+FFFF。 黑 = 拉丁文字及符號 淺藍 = Linguistic scripts 藍 = 其他歐洲文字 橘 = Middle Eastern and SW Asian scripts 淺橘 = 非洲文字 綠 = 南亞文字 紫 = 東南亞文字 紅 = 東亞文字 淺紅 = 中日韓漢字

文档评论(0)

ghfa + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档