- 1、本文档共3页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
汉籍数字化规范刍议袁林陕西师范大学古籍整理研究所西安期刊中国典籍与文化20011230
中国典籍与文化
.
第 39 期
籍数字化规范色议
. 袁 林
社会信息化过程的加快
,
使汉籍数
字化成为中国典籍研究发展基本趋势之
一
。
目前
,
这一工作处于相对无序状态
,
制作者往往根据 自己的条件和需要进行
制作
,
缺乏合理的统一规范
,
这就有可能
在将来因前瞻性思考不足而 出现损失
。
笔者试图根据 自己实际从事汉籍数字化
工作的经验教训
,
并借助海 内外其他经
验教训
,
提出初步工作规范
,
以作为讨论
的基础
。
1
.
数字化形式规范
。
汉籍数字化有两种基本形式
。
一是
图形方式
,
即通过扫描
,
将汉籍原本转变
为电脑 图形文件
。
此方式改变汉籍载
体
,
大大降低了存储成本与空间
,
且完整
保留汉籍原貌
。
缺点是不能对汉籍内容
进行全面管理和检索
,
使用不便
,
且文件
休积较大
,
不利存储和传输
。
二是文本
方式
,
即通过人工输入或 (X 二R 自动识
别
,
将汉籍内容转变为文字代码
。
其优
点是可实现全文检索和管理
,
使用便利
,
文件体积小
,
利于存储和传输
。
缺点是
,
在 目前计算机编码字集条件下
,
存在缺
字问题
,
另外由于校对不精等原因
,
容易
出现差错
。
汉籍数字化的目的是充分利用计算
机技术
,
实现对其内容的全面管理和检
索
,
因此
,
应以文本形式作 为规范形式
,
而辅之以汉籍图形
。
条件许可时
,
应实
现两者并存
,
即以文本形式为基本使用
形式
,
当需要察看原书时
,
可随意调用图
形文件
。
2
.
版本选择与校对规范
。
汉籍往往有多种版本
,
不同版本有
时各有优劣
,
鉴于计算机存储能力和检
索速度迅速提高
,
应确定 多版本并存的
版本选择规范
,
即
,
一汉籍有价值的多种
版本
,
应并存于最终完成 的汉籍全文数
据库中
。
在实际制作过程中
,
限于经费
等原因
,
应按版本优劣顺序逐渐输入部
分或全部
,
版本是否有价值
、
优劣顺序如
何应由有关学者确定
。
文本校对是 目前出版业相对薄弱的
一个环节
,
汉籍数字化也不例外
。
对这
婆叙锐伙
中国典籍与文化
.
第 39 期
东沈飞
照儡盼獭
?
黎
甲
三推
1
一?汰从漱仔
、
蕊钾
冷阵娇撒谧一盛簇
补
一问题
,
除开始制作时就 确定严格的校
对程序外
,
应发挥计算机技术的长处
,
确
立汉籍动态全文数据库
,
并建立用户与
制作者的反馈机制
。
发现问题
,
及时反
馈
,
随时维护修改
,
使其 日臻完善
,
差错
率降到最低水平
。
3
.
汉字处理规范
。
由于计算机编码空间的限制
,
汉字
编码字集狭小曾是汉籍数字化的最大障
碍
。
近年来
,
汉字编码有突破性进展
,
全
汉字编码指 日可待
。
19 9 3 年
,
国际标准
15印 I E e l o 6 4 6
.
z [ l〕被正式批准
,
确 定
了高达 21 亿多个码位的编码空间
,
由于
其采用 4 字节编码方案
,
西方国家多不
倾向使 用
。
19 9 6 年又 确定 了 U T F
一
16
转换格式
,
以基本 多文种平面 ( B MP )为
基础
,
以双字节 为基本表达方 式
,
可 有
1 1。多万个码位
,
编码空 间已有充 分保
证〔2 〕
。
此标准在技术上已无任何障碍
,
W in do w s Z0 0 0 及其 配套 软件都 支持 这
一格式
。
与此同时
,
1 9 9 3 年批准 的
“
中 日韩
统一汉 字
”
( CJK ) 编 入 2 0 9 0 2 个 汉 字
,
1 9 9 8 年批准的
“
中 日韩统一汉字扩充字
集 A ,’( CJK
一
A )编入 65 8 2 个 汉字
,
同时
还编入了
“
康熙部首及中日韩部首补充
”
3 3。个
。 “
中 日韩统一汉字扩充字集 B’
’
( CJ K
一
B )的制订已基本完成
,
其 中编入
4 0 7 4 9 个 汉字
,
以上总 计 6 8 5 6 3 字
,
至
此
,
《康熙字典》
、
《汉语大字典》所收汉字
(含偏旁部首 )全部囊括其中
,
已 可基本
满足汉籍数字化实际需求
。 “
中 日韩统
一汉字扩充字集 C
”
(C JK
一
C )现 已开 始
搜集字源
,
等这一字集完成
,
全汉字标准
的今体字部分大概会最终完成 [ 2] 阳〕
。
与此相应的工业标准 U ni co de 也在陆续
颁布
,
软件也必然随之更新
。
鉴于这一
背景
,
应确立如下汉字处理规范
:
( l) 汉籍数字化文本应以全汉字编
码字集为最终标准
,
尽量保留原字形
,
除
规范异写字外不轻作改动
。
当需要标准
简体字本时
,
可通过文本转换来解决
。
( 2 ) 目前 应
文档评论(0)