清波杂志校注旧版造字转码.pdf

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
清波杂志校注旧版造字转码

《清波雜志校注》舊版造字轉碼說明 中研院資訊所文獻處理實驗室 中研院史語所漢籍電子文獻工作小組 2008/7/10 陳維君 製作 一、 《清波雜志校注》一書(清波雜志校注.xml)使用舊版造字 207 個,字頻1111次,詳如附件一。這 207 個造字中,166個可轉成 Windows XP 能顯示的字,字頻 920 次;另外 41 個字必須轉成構 字式,字頻 191次。 二、 附件一的造字分析表說明如下: 甲、 編號:Big5 造字空間為 6217 個,編號由 1 到6217。 乙、 造字:舊版造字 丙、 字頻(txt):造字在「.txt」文件的出現次數 丁、 字頻(xml):造字在「.xml」文件的出現次數 戊、 Big5:造字的 Big5 碼 己、 Unicode:造字所對應的 Unicode碼 庚、 WinXP:造字在 Windows XP的對應字形 辛、 構字式:Windows XP 若無對應字形,則改採用構字式 壬、備註凡例: 1、異體字問題:新版漢籍考量到使用者檢索及使用時的便 利性,將用字原則改為除專詞等特殊情形之外,一律改 用標準字呈現。如編號 1497 的「 米凡」係「籸」 字之異體,故以「籸」字取代。又編號 3797 的「凭」 字,係「憑」字之簡體字,亦以標準字的「憑」字取代。 2、 Unicode字型呈現差異:Unicode字型與舊漢籍造字有 些微差異,但只是字體風格差異,實際上仍為同一個 字,因此仍取 Unicode 字型。如編號 2609 的「」字, Unicode字型呈現為「鱏」,實際上仍為同一字。 三、 Unicode 目前收錄的漢字總數為 70194,分屬於三個不同區段, 詳如表一。目前 Windows XP只支援 CJK 認同表意文字區的 20902 個字,內碼為 4E00-9FFF。所以造字編號 1298的 「」字,Unicode 編碼為 231B3,由於 Windows XP並不支援,仍須使用構字式「日 更」。 1 表一、 的字數及編碼區段 Unicode Unicode 字集子集合 新增字數 新增編碼區段 總字數 WinXP 1.1版 CJK認同表意文字區 20902 4E00-9FFF 20902 支援 3.0版 CJK認同表意文字擴充A區 6582 3400-4DFF 27484 不支援 3.1版 CJK認同表意文字擴充B區 42710 20000-2A6D6 70194 不支援 附件一、 《清波雜志校注》造字分析表 字頻 字頻 編號 造字 Big5 Unicode WinXp 構字式 備註 (xml) (txt) 296  16 16 FBEC  297  20 20 FBED 

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档