基于双层PDF技术数字档案馆全文检索实践.doc

基于双层PDF技术数字档案馆全文检索实践.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于双层PDF技术数字档案馆全文检索实践

基于双层PDF文档的全文检索技术在数字档案馆中的应用 贺志军 向 禹 (湖南长沙 中南大学档案馆 410083) 【摘 要】本文通过基于双层PDF文档的全文检索技术运用于B/S结构的档案管理系统的研究实践,实现了高效、快捷的档案检索,实现了高查全率和高查准率,界面友好,可靠安全,扩展性强。 【关键词】双层PDF 全文检索 数字档案馆 【分类号】G270 随着社会信息化程度的提高,人们对档案信息资源的依赖程序也越来越高,对高效率的档案资源管理、检索利用的需求也越来越迫切,发展数字档案馆是社会发展的必然,数字档案馆是一个提供档案远程服务和信息共享的平台。近年来,数字档案馆的研究和建设也如火如荼的开展起来,数字档案馆的平台呈现多样化,档案数字化加工也存在着不同标准,建设数字档案馆的最终目标都是为了档案永久存储和高效利用,本文以中南大学数字档案馆建设实例,着重讨论数字档案馆建设中的全文检索技术。 1 概述 1.1 全文检索 全文检索是计算机程序通过扫描文中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。当用户查询时根据索引查找,类似于通过字典的检索字表查字的过程。   由于全文检索不是直接访问数据库,而是通过对数据库中的数据进行索引,因此用户有哪些信誉好的足球投注网站对数据库的压力为零,可以达到毫秒级的检索速度和每秒百次的并发访问,大大提升检索将结构化和非结构化数据提取。 为了对文档进行索引, 提供了五个基础的类, Document Field、IndexWriter、Analyzer、Directory。把一个个的 Document 对象加到索引中来。描述文档的某个属性,如标题和内容可以用两个 Field 对象分别描述。用来描述文档,一个 Document 对象由多个 Field 对象组成的。可以把一个 Document 对象数据库中的一个记录,而每个 Field 对象就是记录的一个字段。在一个文档被索引之前,首先需要对文档内容进行分词处理,这部分工作就是由 Analyzer来。Analyzer 类是一个抽象类,它有多个实现针对不同的语言和应用需要选择适合的 Analyzer。Analyzer 把分词后的内容交给 IndexWriter 来建立索引Directory类代表了 Lucene 的索引的存储的位置,是一个抽象类,有两个实现,一个是 FSDirectory,它表示一个存储在文件系统中的索引的位置是 RAMDirectory,它表示一个存储在内存当中的索引的位置。 2.2.2索引管理: 1 查看索引,读取指定路径索引中是否存在;索引中包含的文档,词条情况,是否需经过优化等;最后一次修改的时间,路径信息,含有的文档数目等;读取索引词条相关基本信息。 2 删除索引,删除指定序号的文档之后,自动删除对应的索引文件;恢复被删除的文档及索引。 3 更新索引,更新索引中的某个文档; 另外就是,索引同步处理,用户可根据需要自己定制创建索引时间,可定时更新也可以实时更新。 2.3 全文检索 2.3.1 检索过程 全文检索实际上是一个复杂的过程,主要分为对查询语句进行词法分析语法分析语言处理法分析主要用来识别单词和关键字语法分析主要是根据查询语句的语法规则来形成一棵语法树语言处理同索引过程中的语言处理几乎相同有哪些信誉好的足球投注网站索引,得到符合语法树的文在反向索引表中,分别找出包含的文档链表对包含的链表进行合并操作,得到包含的文档链表将此链表与的文档链表进行差操作,,从而得到包含文档链表链表就是我们要找的文档第四步:根据得到的文档和查询语句的相关性,对结果进行排序一个文档有很多词(Term)组成找出词(Term) 对文档的重要性的过程称为计算词的权重(Term weight) 的过程判断词(Term) 之间的关系从而得到文档相关性的过程应用向量空间模型算法(Vector Space Model)计算(Term weight)。 第五步:将查询结果返回给用户界面。 2.3.2 用户界面设计 直观实用的用户界面,用于接收系统返回的检索结果:1)高亮显示结果条目中的检索条件,可根据需要通过Lucene高亮处理基本设置;2)提取过滤有哪些信誉好的足球投注网站结果,对有哪些信誉好的足球投注网站结果进行排序,初始的结果排序列按相关性计算出的权重值从大到小排列;3)对提取过滤有哪些信誉好的足球投注网站结果可进行二次过滤有哪些信誉好的足球投注网站;4)根据档案管理系统权限,对检索出的结果可进行下载与浏览。 2.3.3 原文获取和定位 通过检索过程,在用户界面得到了查询结果,接下来,在检索利用中,便是要获取PDF原文,并查出检索词在原文中的具体位置。这里,我们运用Acrobat Reader(创建和阅读PDF文档使用最广泛的软件),结合档案管理系统,自动实现检索词在原文中的定位。 在多个PDF文档中查找文本 Reader 软件本身对双层PD

文档评论(0)

cuotian + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档