古籍文献数字化加工系统硬件解决方案.doc

古籍文献数字化加工系统硬件解决方案.doc

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
古籍文献数字化加工系统硬件解决方案   摘 要:古籍数字化与古籍整理、文献保护、文化传承紧密相关。文章从古籍数字化的概念与意义谈起,详细介绍了古籍数字化的加工流程,并从系统硬件配置入手,完整地设计并实现了一种通用古籍文献数字化系统的构建 关键词:古籍数字化;系统设计 1 古籍文献数字化的概念与意义 古籍在各类文献中独具特色。以国家图书馆为例,其古籍文献资源数量庞大,种类齐全,既包括甲骨、金石、简帛、舆图、善本等珍贵特藏,也包括图书、期刊、报纸、缩微文献等传统普通古籍文献类型。无论线装古籍,还是碑帖拓本、古地图,所有古籍文献资源都蕴含着独特的文献价值、艺术价值,彰显着古老文明的魅力。据文化部统计,全国公共图书馆系统收藏古籍2717.5万册件,其中善本229.5万册件[1]。如此丰富的古籍资源,为古籍数字化建设提供了可供开采的丰富宝藏,成为数字图书馆资源建设不可缺少的重要内容 古籍数字化就是?睦?用和保护古籍的目的出发,采用计算机技术,将常见的语言文字或图形符号转化为能被计算机识别的数字符号,从而制成古籍文献书目数据库和古籍全文数据库,用以揭示古籍文献信息资源的一项系统工作[2] 古籍文献数字化可以降低原件丢失和损失的风险。古老的文献、照片都可以转换成数字化文献,避免读者直接使用原件,以减少或避免原件损失的机率,同时也可以扩大原始文献的利用范围。古籍文献数字化后,可以产生较原件可靠而功能性更强的数字资源,这将有利于开展古籍文献研究,从而扩大研究范围。例如:对手稿字迹的鉴别,对图画、照片的放大浏览等等。古籍数字化是数字图书馆资源建设的重要组成部分,数字图书馆推广工程将在全国范围内依托图书馆馆藏优势,建成内容丰富、类型多样的公共文化资源库群 2 古籍文献数字化加工系统工作流程 古籍文献数字化加工系统的工作流程一般可大致分为六个部分:文献整理、图像扫描、图像处理与质检、文字识别与质检、数据标引与质检、数据整理。其中,“文字识别与质检”根据加工需求为可选流程。图1为古籍文献数字化加工系统工作流程,各类古籍文献依据类型的差异在数字化细节上会有所不同 根据古籍文献数字化加工系统工作流程图可以得出,完成古籍文献加工的单条流水线主要包含以下几个环节: (1)文献整理:待加工的文献存放在专门的资料管理室,由相关人员统一上架登记,保护文献安全;需借出做加工和归还的文献需要登记入册,统计书目信息和文献数量; (2)图像扫描:按照加工要求对古籍文献进行扫描,对扫描图像进行命名、旋转等; (3)图像处理:应用专用图像整理工具,自动检查整理图像的DPI与图像模式,主要包括批量进行倾斜校对,调整倾斜度、统一画布尺寸、调整dpi、去除黑边等操作、纠正文件名命名、建立图像索引等,处理完成后导入数字化加工管理系统进行数据自动分发与流转,系统会在流水线上自动派发任务; (4)OCR识别:应用专业OCR识别软件依照文献数字化加工要求进行全文或特定的文字识别; (5)OCR数据质检:完成字体切分、校对,从而做到一字一框,精确对位,同时进行聚类校对,将一批次中所有同一个字的字形聚集到一起,选出与标准字库不一样的那一个进行标红,为下一步错字修改做准备;完成错字修改,操作员通过管理客户端可以实时读取到上一步的校对结果,并进行错误修改,修改完的字体会有高级人员校对;如遇操作员识别不了的字体,也可留给高级人员纠正 (6)版式还原:包括原有版式编辑还原、XML排版、PDF排版、调整字体、字号、字间距、标题格式等内容; (7)成品全检:根据文献数字化加工项目的特点,应用成品检查工具,对每批完成数据进行成品检查。对出错的部分,按照谁做谁修改的原则,由管理系统返回给操作员进行修改 3 古籍文献数字化加工系统设计 参照古籍文献数字化系统工作的一般流程,可以将加工系统设计为包含软硬件运行平台、数字化专用采集和输出设备、数字化加工管理软件等几大部分。整个古籍文献数字化加工系统硬件架构中将包含服务器、存储设备、加工工作站(终端PC机)、各类型扫描仪及网络集成等 3.1 古籍文献数字化加工系统拓扑结构图 3.2 古籍文献数字化加工系统软件 古籍文献数字化加工系统软件可分为数字化加工管理系统软件和文献数字化生产系统软件两大部分。软件系统部署在服务器端和工位的PC机端。目前市面上成品数字化管理及生产系统软件很多也比较成熟,可以依据古籍文献数字化的具体要求直接采购使用 3.3 古籍文献数字化加工系统服务器设计 古籍文献数字化加工系统服务器可设计为数据库及管理服务器2台,互做双机热备,部署数据库、中间件、文献数字化生产系统和数字化加工管理系统。其中一台兼做数据封装服务器和数据自动处理服务器

文档评论(0)

seunk + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档