- 1、本文档共37页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第六章 并行与分布式信息检索 本章目录 第一节 引言 在因特网大容量的信息检索中,传统的顺序技术会遇到检索速度下降的困难,而并行信息检索能够突破顺序检索的局限,大大加快检索的处理速度。因此,并行检索技术是提高信息检索系统的响应时间的一种有效途径。 第一节 引言 集中式检索系统有着很多的局限性:其一,网络信息量呈指数增长,集中式的检索方法不能适应信息急剧增长的需要;其二,虽然目前的有哪些信誉好的足球投注网站引擎都在努力的增加对网络信息的覆盖率,但要想覆盖整个网络上的信息在目前几乎是不可能的;最后,检索系统之间通常没有分工协作,各自独立有哪些信誉好的足球投注网站和处理信息,造成了大量的重复工作和严重的带宽浪费,有时甚至能造成网络阻塞。为了适应网络规模的日益扩大,有必要采用分布式处理技术解决网络中大量信息的检索问题。 第二节 并行信息检索 6.2.1 并行信息检索原理 (一)多个查询之间的并行处理 利用MIMD结构对多个查询的处理并行化,即每个处理器处理不同的查询,每个查询的处理之间相互独立,最多只对共享内存内的部分代码或者公有数据实行共享。这种方法也称为任务级的并行检索,它可以同时处理多个查询请求,从而提高检索的吞吐量。 6.2.1 并行信息检索原理 (二)单个查询内部的并行处理 即对单个查询的计算量进行分割,分成多个子任务,并分配到多个处理器上的有哪些信誉好的足球投注网站进程上去执行。这种检索也称为进程级并行检索。 将单个查询分成多个子任务的方法通常有两种:一种称为数据集分割,它是事先将数据集分割成多个子集合,用同一查询式分别查询多个子集合数据,然后将每个子集合上的结果合并成最终结果;另一种称为查询项分割,它是将查询分解成多个子查询,对每个子查询分别查询数据集,得到部分结果,并将部分结果合并成最终结果。 6.2.2 并行检索的体系结构 并行体系结构利用指令流和数据流的多倍性将计算机系统分为四类:SISD(单指令流单数据流)、SIMD(单指令流多数据流)、MISD(多指令流单数据流)和MIMD(多指令流多数据流)。SISD对应于传统的顺序处理体系结构, MISD十分少见。并行机器实际上只有两类:SIMD和MIMD。 SIMD结构是用同一指令并行操作不同的数据,因而是一种并行数据计算。 MIMD结构比SIMD复杂,其中处理器之间是独立的,对不同的数据执行不同的指令。MIMD是目前并行引擎所使用的主要结构。 6.2.3 并行检索技术 (一)并行检索策略 并行技术分为数据并行和功能并行(控制并行)。 数据级并行依赖于并行处理机,特点是重复设置许多个同样的处理单元,按照一定的方式相互连接,在统一的控制部件作用下,各自对分配来的数据并行地完成同一指令所规定的操作。 功能并行主要表现于多个任务或多个程序段之间,执行时可能存在着数据交往或控制依赖,因而解决起来较为复杂。但是随着并行技术的进一步发展,程序的控制并行间题将得到逐步解决。 6.2.3 并行检索技术 (二)并行检索软件技术 软件中的并行性主要是指程序的相关性和网络互连。 程序的相关性分为数据相关、控制相关和资源相关:数据相关说明的是语句之间的有序关系,控制相关指的是语句执行次序在运行前不能确定的情况,资源相关与并行事件利用整数部件、浮点部件、寄存器和存储区等共享资源时发生的冲突有关。 网络互连使用静态或动态拓扑结构网络。静态网络由点—点直接相连而成,这种方式在程序执行过程中不会改变;动态网络可动态地改变结构,使之与用户程序中的通信要求匹配。 6.2.3 并行检索技术 (三)并行检索硬件技术 硬件技术方面主要从处理机、存储器和流水线三个方面来实现并行。 处理机系列包括CISC、RISC、超标量、VLIW、超流水线、向量以及符号处理机。 存储设备按容量和存取时间从低到高可分为寄存器、高速缓存、主存储器、磁盘设备和磁带机五个层次 流水线技术主要有指令流水线技术和运算流水线技术两种。 6.2.4 并行检索中的索引文档处理 (一)倒排表索引结构 检索系统通常采用倒排表(inverted file)索引结构,可直接从关键词映射到所在文档。 6.2.4 并行检索中的索引文档处理 (二)基于倒排表的分割处理 使用倒排表进行数据集分割有两种实现方法:物理倒排表分割方法和逻辑倒排表分割方法。这两者的数据集都在物理上分成多个子集合。 物理倒排表分割和逻辑倒排表分割的不同之处在于,前者不仅将数据集分割,而且将倒排索引表也同时进行分割,每个数据子集拥有自己独立的索引倒排结构。对于逻辑倒排表分割,倒排索引表物理上并不进行分割,而是增加一个处理机分配表,整张倒排索引表则被多个处理器共享使用。 6.2.4 并行检索中的索引文档处理 (三)SIMD机器上的倒排检索 SIMD机器也称阵列处理机,是由大量相同的互连的PE(处理单元)对分
文档评论(0)