试论大数据环境下信息检索技术在数字图书馆中的应用.docx

试论大数据环境下信息检索技术在数字图书馆中的应用.docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

试论大数据环境下信息检索技术在数字图书馆中的应用

?

?

刘燕

【摘要】大数据环境下,信息检索技术在图书馆信息检索方面的重要性越来越大。基于内容的信息检索技术相比于传统的信息检索、全文检索而言,具有效率高、精准度高的优点,但是在面对未来信息检索更加精确化的要求时也显得力不从心。大数据技术实现了用户独特化、定期更新性、自我学习性相结合,实现大数据和人工智能的完美结合,是未来信息检索技术发展的方向。

【关键词】大数据环境;信息检索技术;数字图书馆

数字图书馆的信息检索技术,是图书馆发挥信息服务功能的核心部分,数字图书馆的易用性很大程度上取决于信息检索系统设计是否科学、合理。据专家考证,18世纪以前,知识更新速度为80至90年翻一番,20世纪90年代以来,知识更新加速到3至5年翻一番。近50年来人类社会所创造的知识比过去3000年的总和还要多,知识总量呈几何级数增长。这些信息都是以数据的形式分布于飞速发展的因特网,而因特网中的数字图书馆则是信息储存的主要基地,这就使得如何在庞杂浩繁的信息资源中找到用户想要的信息,最大限度地在科学性、合理性的前提下进行信息检索服务,成为必须面对且急待解决的问题,即基于大数据环境下,数字图书馆信息检索技术的研究问题。目前关于数字图书馆的研究和信息检索研究都已经比较完备,但是针对如何在大数据环境下,满足数字图书馆用户的多样需求的信息检索技术的研究并不多,这也是现代数字图书馆发展急需解决的问题之一。

一、信息检索技术的优缺点对比

目前,从对数字图书馆的信息检索技术研究成果来看,主要有三个时间段:传统的信息检索、全文检索、基于内容的信息检索。这三种技术各有优劣。

1、传统的信息检索技术优缺点分析

信息检索技术开始时基于对关键词、概念知识的检索,或者是仅仅针对一个个单字进行的检索,主要按照关键字的方法进行匹配检索。如果是针对单字、单词进行检索的话,能够比较准确地完成检索需求;如果是需要根据内容相关性进行检索的话,检索的结果误差大、耗时长,基本上不能满足用户需求,而且检索的适应度非常差。如果是针对一个只有几百本书的图书馆来说,这种检索技术还勉强可用,但是绝对不能适应现在动辄几百万本以上存储量图书馆的检索需求。

2、全文检索技术优缺点分析

一般来说,按照自由词进行检索的一种检索方式就是所谓的全文检索。全文检索技术检索的侧重点和传统检索技术的侧重点不同,它检索的主要内容不是对象的外在表征,而是对象表达的内在信息。所以說,全文检索技术克服了传统检索技术精度差、适应度差的问题,使得用户每次检索的结果的匹配度都比较高,基本上能满足用户的需求。但是由于全文检索技术内在查询机制的缺陷,导致在查询过程中会出现效率低下,查询的数据量太大,造成资源利用不合理,因而也越来越不能被用户所认可。

3、基于内容的信息检索技术(简称CBR)优缺点分析

CBR技术就是指综合运用计算机模拟视觉技术、图像分析处理技术、图像智能理解技术、模式分析识别等学科中的一些方法作为部分基础技术,从数据中提取特定的信息线索,然后根据这些线索从大量存储在数据库中的信息中进行查找,检索出具有相识特征的内容。从本质来讲,CBR技术只关心对用户检索信息的快速扑捉,并不会在分析用户检索信息的本身上下功夫。

也就是说,作为不以字和具体内容为关注点的检索技术,CBR技术的检索特点就是基于特征的信息检索技术。它能够在用户需求指引下,针对需要检索的数据目标进行分析处理,形成检索目标特征,然后根据这些特征在数据库中进行近似匹配。因而相对于前两种方法来说,检索的效率和精准度更高,更能满足用户的需求。但是,随着人类知识基数的不断增大,专业分工的细化,这种信息检索技术在面对未来信息检索更加精确化的要求时,显得越来越力不从心。

二、大数据技术在数字图书馆信息检索技术中的应用

对于“大数据”(Bigdata),研究机构Gartner给出了这样的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。[1]

麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。[2]

从本质上来讲,大数据技术的目标不是建立占有人类的知识海,而是面向知识海洋的庞大数据信息进行有目的的处理、利用和管理。显然,大数据技术必然是和网络技术、云计算以及人工智能技术密切相连的集成技术。也就是说,它是一种依靠网络技术、人工智能技术和云计算,利用网络上众多硬件进行信息的高效利用、处理和管理。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的

您可能关注的文档

文档评论(0)

189****4123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档