《方志物产》素材库集外字特征及整理研究.docx

《方志物产》素材库集外字特征及整理研究.docx

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
? ? 《方志物产》素材库集外字特征及整理研究 ? ? 左 亮 白振田 包 平 (南京农业大学数字人文研究中心,南京 210095) 我们在进行古籍数字化时往往会遇到集外字的问题。集外字作为工程化概念,并没有严格意义上的学术定义[1],主要是指特定字符集以外的不使用特殊手段无法输入、处理和显示的文字[2]。集外字的存在给古籍文本的整理、校正、编辑、检索带来诸多不便。由于时代因素、地方背景以及人为因素的干扰,集外字具有多样性、时代性、复杂性、特殊性、地方性等特点。较为典型的集外字类型有:异体字、讹字、避讳字、人造字和重文符号等。 部分集外字在逐步构建和完善字库过程中得以解决,但仍有一大部分集外字无法在计算机当中得到有效显现。《方志物产》作为研究动植物史、农业史、经济史、环境史的重要史料,在对其进行整理和信息挖掘利用的过程中,发现其数据文本中存在大量集外字的情况且独具特色。目前已经整理完成《方志物产》条目数据共计1,523,239条,其中含特殊符号的条目达到221,510条,占比达到15%。对待这部分字符不能弃若敝履,为了让《方志物产》全文数字化并保持原本原貌,亟需一套科学的解决方案。 1 研究对象概述 地方志文献当中的“物产”章目详细地记载了一地的动物、植物和矿物资源,并且“极为详细,在别的书里面是见不到的”[3],“对于农业科学史实在是非常重要的、无法取代的价值”[4]。从1955到1958年三年间,时任中国农业遗产研究室(为现在中华农业文明研究院前身)主任的万国鼎先生,组织一百多人次,以《全国方志总目》(1)《全国方志总目》:万国鼎先生依据《中国地方志综录》修正稿编印而成。为蓝本,在全国范围内对7,532种地方志中的物产史料展开查抄工作,并分类整理装订成册。 《方志物产》在内容收录上秉持应收尽收原则,查抄了自北宋熙宁九年(1076)至民国三十八年(1949),包括新疆、西藏、台湾在内的26个行政区域(2)行政区域按方志记载时间划分。其中河北含北京、天津,甘肃含宁夏,四川含重庆,江苏含上海,广东含海南。的地方志资料[5]。查抄志书来源除传统总志、通志、府志、州志、县志、乡土志之外,还查抄了一些罕见方志,如里坊志、民国调查资料表、文献志、风土志、岛志、山川志、河流志、采访册、关隘志、疆域志等。半个多世纪后的今天,少数方志已经散佚,《方志物产》则很好地保存了众多方志物产记载,个别疑成海内孤本。 《方志物产》在查抄时尊重摘抄志书原貌,按照原有志书类目、体例、行文,原封不动地抄录下来,保持繁体竖版排列风格(图1)。在编纂过程中,书上刻板错字,一般照抄不改,只用眉批注明“疑作某字”或“应作某字”。查抄完成后按照资料性质、省府州县乡的区域位置、方志编纂年代的先后,分类编排,每册正文第一页均配以悉心撰写的目录,让读者一目了然。手抄本《方志物产》的集成并不是简单的资料罗列,而是对查抄的内容进行精心的编排分类,时空经纬,查找便捷,让零落于地方志不同门类中的物产资料不再秦越相隔,而是荟萃镕铸,专备有识者探微采撷。 图1 手抄本《方志物产》资料(局部) 2 《方志物产》数字化历程及存在问题 为了更好地保护和利用《方志物产》手抄本资料,中华农业文明研究院的专家学者们开始对《方志物产》进行数字化保存与整理工作。 2.1 《方志物产》数字化历程 《方志物产》数字化是指利用现代信息技术,将《方志物产》资料数据中的“语言文字转化为能被计算机识别的数字符号”[6],并通过计算机、网络等介质对《方志物产》文献进行保存、利用、共享,让《方志物产》文献资料“突破时空的限制,成为取之不尽、用之不竭的资源”[7]。《方志物产》数字化工作总共经历了文本数字化、数据格式化、素材库三个阶段: (1)文本数字化阶段:2000年,中华农业文明研究院依托科技部“中国农业典籍的搜集、整理和保存”项目,对《方志物产·江苏卷》进行了全文扫描,以图像方式进行保存,迈出了《方志物产》数字化进程的第一步。2005年,借助科技部“中国科技农业遗产数字化保护与利用项目”的契机,对手抄本《方志物产》开始了全文数字化工作(图2),是《方志物产》数字化进程中的里程碑事件[8]。对《方志物产》文本数字化,实现了对《方志物产》资料的保护、利用与资源共享,为之后的物产史、栽培史、环境史研究提供了数字文本,同时为《方志物产》深度利用奠定了基础。 图2 《方志物产》目录及内容(局部) (2)数据格式化阶段:2018年,中华农业文明研究院承担了“方志物产知识库构建及深度利用研究”国家社会科学基金重大项目,在前期(2014—2017年)中央高校专项业务费重大招标项目工作的基础上,开始构建《方志物产》知识库并开展深度利用。为了更好地实现《方志物产》知识库的构建,就需要对数字化之后的文本进行数据格式化处理。其中李

文档评论(0)

科技之佳文库 + 关注
官方认证
内容提供者

科技赋能未来,创新改变生活!

版权声明书
用户编号:8131073104000017
认证主体重庆有云时代科技有限公司
IP属地云南
统一社会信用代码/组织机构代码
9150010832176858X3

1亿VIP精品文档

相关文档