- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中医古籍数字化生僻字的处理
摘要:中医古籍数字化生僻字的处理是一项基本而又关键的技术,目前普遍存在缺字的现象,给中医古籍的阅读和研究造成障碍。本文分别从字符集、字库、输入法等方面,分析了集内字缺字产生的原因和解决方案,并探讨了集外字的处理方法。
关键词:中医古籍;数字化;生僻字
doi: 10.3969/j.issn.2095-5707.2014.03.009
Investigation of Digitization of Rare Words Processing in Ancient Traditional Chinese Medicine Literature
Gao Jingjing
(Institute of Traditional Chinese Medicine of Zhejiang Province, Hangzhou Zhejiang 310007, China)
Abstract: Digitization of rare words processing in Ancient Traditional Chinese Medicine(TCM) literature is a basic and key technology. The prevailing phenomenon of missing words creates obstacles to reading and research of ancient TCM literature. The article analyzed the cause of missing words, offered solutions, and discussed processing methods of missing words out of the character set from the aspects of character set, font, and input methods.
Key words: ancient TCM literature; digitization; rare words
中医古籍承载着祖国医学数千年文明的绵延,是中医学传承、发展、创新的源头活水。中医古籍数字化,可以通过全文录入与网络共享,解决中医古籍作为一种不可再生资源而存在的借阅困难、容易损伤的问题,对比传统的手工检索,又极大地提升了查询的效率,使中医古籍得到了更广泛和更有效的利用,近年来颇受重视,发展迅速。在数字化进程中,对生僻字的处理直接影响到古籍阅读的质量和检索的效果,目前存在的问题主要是缺字现象。对于传统的纸质版发行与单机版的数字化,缺字可以通过自己造字或图片替代的方案解决。但是对于全文网络版数字化,使用自造字会在通用性上受到限制,而图片替代则导致检索困难,其解决方案需要进一步的研究与探讨。
1字符集与编码
字符集是各种文字和符号的集合,如包含英文字母的ASCⅡ字符集、包含简体中文的GB2312字符集、包含繁体中文的BIG5字符集等。计算机要准确地处理各种字符集文字,需要对字符进行编码,以识别和存储各种文字。随着中文信息处理技术需求的不断发展,国家标准总局发布了一系列的“信息交换用汉字编码字符集”。但由于各国文字都有自己的字符集编
基金项目:浙江省科技计划项目(2011F10019)
作者简介:高晶晶,主治中医师,研究方向:中医古籍数字化整理。E-mail: gaojingjing1012@163.com
码,不同编码体系之间码位重叠,相互引起冲突,在Web等多语言环境中就会造成无法使用或出现乱码。
Unicode作为国际组织制定的可以容纳世界上所有文字和符号的字符编码方案,也称统一码、万国码,实现了跨语言、跨平台的文本转换及处理。Windows、Linux等主要操作系统及.Net、Java等主流编程语言都提供对Unicode编码的支持。目前,Unicode字符集包含了7万余汉字,并且仍在不断地扩充中[1]。所以从理论上讲,只要在字符集中存在的字符,就可以被显示,而集外字符,则形成缺字现象。但事实上,很多中医古籍数字化系统的集内字亦存在大量缺失,一方面是因为采用相对较小的字符集编码存储汉字,另一方面主要还是由于字库与输入的缺失造成的。
2字库与显示
字形是字符呈现的形状,按照一定的编码顺序以矢量或点阵等方式存储在字库中,不同的字库表现出不同的字体。以Windows操作系统为例,当计算机需要显示一个字符时,首先识别该字符被存储的数值代码,然后将此代码转换为Unicode编码,再根据此编码到指定的字库中寻找对应的字形,最后将字形显
您可能关注的文档
- 一笔写尽生活的温暖与美好.doc
- 一纸计生证明阻碍孩子上学路.doc
- 一路陪伴,且行且用心.doc
- 七大举措提升河南科技创新能力.doc
- 三个时代与三个皇帝.doc
- 三坐标测量机的日常维护及常见问题分析.doc
- 三大法系犯罪构成理论之比较.doc
- 三大难题与全民阅读.doc
- 三种翻译模式的不同之处.doc
- 三维CAD技术在机械设计中的应用分析.doc
- 2020版 沪科技版 高中生物学 必修2 遗传与进化《第4章 生物的进化》大单元整体教学设计[2020课标].docx
- 情绪价值系列报告:春节消费抢先看-国证国际证券.docx
- 精品解析:北京市东直门中学2023-2024学年高二下学期3月阶段性考试(选考)物理试题(解析版).docx
- 2020版 沪科技版 高中生物学 必修2 遗传与进化《第4章 生物的进化》大单元整体教学设计[2020课标].pdf
- 2020版 沪科技版 高中生物学 选择性必修1 稳态与调节《第1章 人体的内环境和稳态》大单元整体教学设计[2020课标].pdf
- 2020版 沪科技版 高中生物学 选择性必修1 稳态与调节《第1章 人体的内环境和稳态》大单元整体教学设计[2020课标].docx
- 液冷盲插快接头发展研究报告-全球计算联盟.docx
- 精品解析:北京市东直门中学2023-2024学年高二下学期3月阶段性考试(选考)物理试题(原卷版).docx
- 精品解析:北京市东直门中学2024届高三考前练习数学试卷(解析版).docx
- 2020版 沪科技版 高中生物学 选择性必修1 稳态与调节《第2章 人体的神经调节》大单元整体教学设计[2020课标].docx
最近下载
- 小学三年级 口算天天练 每日20题.pdf
- 私募基金管理人重大事项变更法律意见书撰写要点及实务(三)——重大变更法律意见书撰写要点及实务.pdf VIP
- 海洋工程勘察收费标准.docx
- 电梯困人应急处理PPT方案.pptx VIP
- 市容管理工作讲解.pptx
- 《市场调查与预测》课程课件——第五单元 其他调查法.ppt VIP
- 医疗物资采购腐败问题专项整治工作方案.docx VIP
- (高清版)B-T 41207-2021 信息与文献 文件(档案)管理体系 实施指南.pdf VIP
- 2025年晋城职业技术学院高职单招数学历年(2016-2024)频考点试题含答案解析.docx
- TCSEB 0008-2019 爆破振动监测技术规范.docx
文档评论(0)