漢字简繁转换的复杂性和陷阱.docVIP

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
漢字简繁转换的复杂性和陷阱

The Pitfalls and Complexities of Chinese to Chinese Conversion 汉字简繁转换的复杂性和陷阱 漢字簡繁轉換的複雜性和陷阱 春遍雀来 (Jack Halpern) 日中韓辭典研究所 所长 華留萬陽貳 (Jouni Kerman) 日中韓辭典刊行會软件开发总工程师 目录 0. 摘要 1. 序 2. 转换的四级 3. 讨论和分析 4. 转换的新技术 鸣谢 参考材料 附录 作者介绍 日中韓辭典研究所 (株)日中韓辭典研究所 The CJK Dictionary Institute, Inc. 〒352-0001 日本国埼玉県新座市東北2-34-14 小峰ビル 3?4F 电话:048-473-3508 Fax:048-486-5032 E-mail:jack@ 网址: 汉字简繁转换的复杂性和陷阱 春遍雀来,日中韓辭典研究所 所长 華留萬陽貳,日中韓辭典刊行會软件开发总工程师 0. 摘要 汉语有两种书面形式:中华人民共和国和新加坡使用的简体中文,和台湾、香港、澳门以及大多数海外华人使用的繁体中文。但是存在一种常见的误解,认为这两个体系之间具有直接的对应关系,相互转换只需要从一个字符集对应到另一个字符集就可以了,例如从国标码(GB2312-80)转换到大五码(Big5)。 虽然很多代码转换工具实现了这种转换,但事实却是截然相反的。这两种体系在不同级别上都存在重要的差异,不论是字符集,编码,拼写法(字的选择),词汇(词的选择),还是语义(词义),都有着显著的差别。 随着东亚在世界经济里的地位日益重要,地方化公司和翻译公司都有着对中文简繁体转换的迫切需求,但也必须克服以下障碍:(1)现有的转换工具产生的结果不能令人满意;(2)缺乏发展好的转换工具所需的知识;(3)无法得到高质量数据的字典;(4)手工转换费用太高。 1996年, 日中韓辭典研究所(The CJK Dictionary Institute, Inc.)开始深入调查这些问题,并建立了一个总括了中文简繁互转的数据库(300万条,且仍在发展中),其目的是要使转换软件的准确性接近百分之百. 这篇论文解释了涉及的复杂问题,并展示这项基于Unicode的新技术将如何大大减少中文地方化和翻译项目的时间和费用。 1. 序 历史背景 汉字在它几千年的历史中经历了许多变迁。很多书法风格,异体字,和字体设计都有逐步的演变。有些完整的,复杂的字体被提升为“正字”,而那些令人眼花缭乱、泛滥成灾的变体则往往被降级为“俗字”。 在中华人民共和国于1949年成立后不久,新政权就发起了一场积极的运动,贯彻大规模的书面语改革。在五十年代,毛泽东和周恩来提出了简化汉字是一项应该优先完成的任务。1952年成立的语言改革委员会开始深入研究这一问题,并从事编纂简化字表的任务。 这些行动导致了许多书面语的改革,最重要的有:建立了一套标准化的罗马字系统(拼音),限制日常用字的数量,以及大大地简化了数以千计的字形。一度,这项运动的目的是完全废除汉字,以罗马字母表代之,但后来还是倾向于使用简化字形而放弃了这项政策。 随后几年出版了几种简化字表,其中最著名的是1964年出版的“权威”简化字总表,之后又重新发行了几次并作了次要的修改。必威体育精装版版本是1986年出版的,收录了2244个简体字[简体字总表 1986]。 台湾、香港和多数海外华人没有实行简化。尤其是台湾,还在严格地遵循着繁体的形式。台湾教育部出版了几种字符表,例如有4808个字的“常用國字標準字體表”,作为正确字形的标准。 简体与繁体中文 虽然简体与繁体中文的最大区别在于字形,我们将会看到两者之间还有字符集、编码方式和词汇选择方面的差异。 从实用角度来说,简体中文一词通常指满足以下条件的中文文本: 字形:简体中文必须是用简体的字形书写的(除非不存在简体的形式)。 字符集:简体中文通常使用国标码字符集,或其扩充版本,国家标准扩展码(GBK)。 编码:简体中文通常将国标码编为EUC-CN或用于互联网传送数据的HZ的文本。 词汇用法:词汇的选择采用中国大陆的用法。 与此类似,繁体中文一词一般指满足以下条件的中文文本: 字形:繁体中文必须是用繁体的字形书写的。 字符集:繁体中文通常使用大五码字符集。 编码:繁体中文通常编为大五码。 词汇用法:词汇的选择采用台湾或香港的用法。 以上只有第一条是必要条件。“简体”中文的定义决定它不能用繁体的字形书写,除非一个繁体字形不存在对应的简体形式。同样,“繁体”中文除了某些次要的例外情况(如某些专有名词)之外必须不能以简体字形书写。字符集和编码方式的限制要小一些,下面1.4节会讨论这一点。 词汇的用法上也有一些变化。例如台湾文本可能会包括某些中华人民

文档评论(0)

fglgf11gf21gI + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档