汉文古籍标准化元数据转换分析与应用-analysis and application of metadata conversion in chinese ancient books standardization.docx

下载文档 降价啦

6
0
约4.62万字
约 53页
2018-05-28 发布于上海
举报
版权申诉
保障服务

汉文古籍标准化元数据转换分析与应用-analysis and application of metadata conversion in chinese ancient books standardization.docx

1、本文档共53页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

汉文古籍标准化元数据转换分析与应用-analysis and application of metadata conversion in chinese ancient books standardization

独创性声明本人声明所呈交的学位论文是我个人在导师的指导下进行的研究工作及取得的研究成果。尽我所知，除文中已标明引用的内容外，本论文不包含任何其他人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名：日期：年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，即：学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。必威体育官网网址□，在年解密后适用本授权书。本论文属于不必威体育官网网址□√。（请在以上方框内打“√”）学位论文作者签名：指导教师签名：日期：年月日日期：年月日1绪论1.1研究背景国内的古籍数字化工作，已经开展了很多年了。一直以来，古籍数据大多以中国机读目录格式（CNMARC）数据的形式存在，虽然CNMARC[1]是基于国际化标准MARC(Machine-ReadableCataloging)[2]数据制定的国家标准，但在实施工作中，各地方图书馆实际所采用的标准不尽相同。而且CNMARC数据的可读性、可统计性、可检索性以及可输出性，已经不符合数字化信息的基本要求了。此外，还存在大量的古籍数据由Excel、Word等非结构化数据组成，它们同样存在着这些问题。随着网络技术的发展，古籍数字化工作由线下转移到线上，建立古籍元数据模型，将古籍数据由传统非结构化数据向结构化数据转换，以及实现古籍信息的检索和输出，这在国内依然是一个比较新颖的课题，没有很成熟的方案。1.1.1古籍数字化的现状20世纪90年代末，科技发展进入了一个数字化和网络化的时代，古籍数字化的一些相关技术也已相继发展并逐步成熟起来。自1998年中国数字图书馆的启动，古籍的数字化有了很大的发展。[3]目前，古籍有两种录入方式。一种是“全文版”形式，一种是“图像版”形式。“全文版”形式是将古籍逐字输入计算机，并在检索系统的支持下对文本逐字检索。“图像版”形式是利用数字扫描技术将古籍以图像形式存入光盘。[3]从整体上来讲，各图书馆的古籍数字化工作进展缓慢，一个全国统一的古籍数据库没有建立起来。此外，“图像版”形式古籍在互联网上的使用也比较少，古籍数字化工作依然是任重而道远。1.1.2服务平台对古籍数字化现状的影响古籍数字化服务平台的建设，将建立科学的古籍元数据模型，使用统一的数据库设计，并将古籍传统数据转换为古籍元数据，以及提供古籍信息的检索和编目服务。由于服务平台将在全国各大图书馆部署运行，将形成全国统一的古籍数据库。平台是基于Web的，所有信息都通过互联网来流通。服务平台的建设，将能够加速古籍数字化的进程，提高古籍数字化水平。1.2课题来源、难点、研究目的及意义课题的来源本课题来源于国内某图书馆需求而开发的一套基于Web的分布式服务平台——古籍数字化服务平台。该平台致力于利用先进的计算机和网络技术，在保证工作质量的基础上，达到方便、快捷、高效的工作管理目标，并为公众提供优质服务，及时展现古籍普查成果，提高公众的古籍保护意识。课题的难点当前，在古籍普查工作的过程中，我们发现，各图书馆前期古籍信息建设投入大，但数据格式标准不统一。其中，国家图书馆、首都图书馆、湖北图书馆、浙江图书馆、北京大学图书馆等采用CNMARC格式进行存储，见图1.1。天津图书馆、甘肃图书馆、云南图书馆、杭州图书馆、青岛图书馆、苏州博物馆、中山图书馆、中山大学图书馆等采用由十六表Excel组成的古籍普查表进行存储，见图1.2。南京图书馆则采用Access进行古籍数据存储，见图1.3。此外，还有很多图书馆各种格式兼有，甚至同一种载体的标准也不尽相同。图1.1中国机读目录格式数据（CNMARC数据）图1.2十六表古籍普查表图1.3Access数据基于以上问题的考虑，很有必要设计统一的古籍元数据模型，对古籍信息进行数字化处理并存储到数据库中，从而实现存储的统一。由于各馆前期古籍信息建设投入大，存在大量的传统非结构化数据，仅国家图书馆有30万条CNMARC数据。这些传统非结构化数据格式标准不同，以中CNMARC格式、十六表Excel、Word和Access为主。因此，需要将古籍传统数据转换为古籍元数据存储到数据库中。在古籍信息检索方面，当前广泛用于CNMARC数据管理的ILAS系统[4]（IntegratedLibraryAutomationSystem），当古籍数据量达到一万条时效率极其低下，几乎无法使用。古籍数字化后，如果对数据库中的古籍数据采取普通的SQL语句查询，当数据量太大时，检索效率也十分低下。因此，需要设计并实现对海量古籍信息的