- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
基于内容的藏文古籍文献学特征检索方法
摘要:针对目前基于关键词的藏文古籍文献学特征检索需要大量著录人力、专业的辨识能力和缺乏定量标准的问题,本文将基于内容的图像检索技术引入到藏文古籍文献学特征检索中,即采用“以图搜图”的方法在藏文古籍图像数据库中检索与模板图像具有相同或相似文献学特征的图像。实验在所构建的5个藏文古籍文献学特征数据集和7种基于内容的图像检索技术特征提取算法上进行,证明了方法的可行性。该方法可为在海量文献图像数据库中的文献学特征检索问题提供有益参考。
关键词:藏文古籍;文献学特征;基于内容的图像检索;深度学习
1引言
在文献学学科中,墨种、字体类型、文献载体、装订形式,甚至污损程度、版面残缺程度等特征,被称为文献学特征。藏文古籍中的文献学特征往往是藏文文献学研究者们重点关注的内容,被广泛用于对文献特点、功能、类型、生产、分布、发展规律和文献发展历史等研究中。藏文古籍文献学特征检索是指通过信息检索手段从文献数据库中检索出满足指定文献学特征的藏文古籍。目前,在现有藏文古籍文献数据库中,藏文古籍文献学特征检索均是基于关键词的,这需要文献学研究者人工地进行辨识,并把文献学特征描述信息录入数据库。但是,在文献信息数字化的背景下,藏文古籍文献数据库的规模不断扩大,基于关键词的文献学特征检索面临巨大挑战:对海量藏文古籍图像标注文献学特征不仅费时费力,还需要专业的辨识能力和缺乏定量标准。
对此,本文将把基于内容的图像检索(Content-basedimageretrieval,CBIR)技术引入到藏文古籍文献学特征检索中,即采用“以图搜图”的方法在藏文古籍图像数据中检索与模板图具有相同或相似文献学特征的图像。这是一种不同于基于关键词的藏文古籍文献学特征检索的方法,可快速、高效地实现海量数据库中的文献学特征检索。
本文其余部分组织如下:第2节介绍藏文古籍文献学特征和基于内容的图像检索的相关工作,第3节介绍基于内容的藏文古籍文献学特征检索方法,第4节是实验,第5节是总结。
2相关工作
20世纪90年代末国外就有学者开始了藏文文献数据库建设的理论研究与实践探索[1],先后建设了藏传佛教资源中心数据库[2]、数字喜马拉雅[3]、雪域数码图书馆[4]、西南民族大学数字文献馆[5]、中国藏文文献资源网和中国藏文学术期刊网[6]等,这些数据库中基本都有藏文古籍文献学特征检索功能,不过都是通过基于关键词的检索方式实现的。
CBIR是由T.Kato[1]于1992年提出,其核心是使用图像的可视特征对图像进行检索。从本质上讲,它是一种近似匹配技术,融合了计算机视觉和数据库等多个领域的技术成果,其中的特征提取和索引的建立可由计算机自动完成,避免了人工描述的主观性[7]。
CBIR的发展分为两个阶段,即特征工程阶段和深度学习阶段[8]。在特征工程阶段,CBIR采用人工设计特征的方式进行特征表示,有全局特征表示算法和局部特征表示算法。其中,全局特征表示算法包括基于颜色特征的颜色直方图(Histogram)、颜色相关图、颜色矩和一致性矢量等,基于纹理特征的共生矩阵、Tamura特征、Gabor变换和多尺度自回归模型等,基于形状特征的傅里叶描述符、Diasy、边缘直方图(Edge)、方向梯度直方图(HistogramofGradient,HOG)等。局部特征表示算法包括SIFT特征、视觉词袋模型、Fisher向量和局部聚合描述符向量等[9]。
2012年,随着AlexNet在图像分类上大获成功,人工设计特征的主导作用已被深层卷积神经网络(DeepConvolutionalNeuralNetwork,DCNN)取代,CBIR进入深度学习阶段。DCNN可以直接从数据中学习具有多个抽象层次的特征表示,因此被应用于CBIR中。并且,基于DCNN的CBIR应用还在不断扩展,如人、车再识别,地标检索,遥感、医学图像有哪些信誉好的足球投注网站,在线产品有哪些信誉好的足球投注网站等[10]。为了方便,下文把特征工程阶段和深度学习阶段的CBIR分别简称为传统CBIR和深度学习CBIR。
据我们调研,虽然CBIR技术取得了较大发展,但尚未见到将CBIR技术用于藏文古籍文献学特征检索的报道。
3基于内容的藏文古籍文献学特征检索方法
为了解决基于关键词的藏文古籍文献学特征检索需要大量著录人力、专业的辨识能力和缺乏定量标准的问题,本文把CBIR技术引入到藏文古籍文献学特征检索中,提出基于内容的藏文古籍文献学特征检索方法:用户输入一张藏文古籍图像作为模板图,在藏文古籍图像库中查找具有相同或相似文献学特征内容的其它图像。技术框架如图1所示,主要有藏文古籍文献学特征提取和特征匹配两个关键步骤。
图1基于内容的藏文古籍文献学特征检索方法
在藏文古籍文献学特征提取中,主要解决如何用向量有效地描述藏文古籍图像文献学特征的问题,
文档评论(0)