分布式WEB信息检索技术研究Research on Distributed WEB ....ppt

下载文档 降价啦

2
0
约7.56千字
约 67页
2017-02-11 发布于北京
举报
版权申诉
保障服务

分布式WEB信息检索技术研究Research on Distributed WEB ....ppt

1、本文档共67页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

分布式WEB信息检索技术研究Research on Distributed WEB Information Retrieval 博士生：张刚导师：李国杰院士 Outline 研究背景学位论文研究情况和已完成的研究内容已取得的阶段性成果下一步的工作计划科研项目的完成情况学术论文发表情况课程完成情况研究背景海量信息检索的挑战 WEB信息的增长：6个月翻一番表层页面（surface WEB）80亿-100亿 Hobbes‘ Internet Timeline统计，截止到2005年8月，互联网上WEB服务主机数已达到70,392,567台矛盾与问题 80亿 VS. Top10问题！是否80亿个页面都需要查询？如何减少查询量？研究背景分布式信息检索是海量信息检索的有效方案团队作战分而治之分布式信息检索的主要过程文档集合划分集合选择单文档集合检索结果合并分布式信息检索的体系结构分布式信息检索的过程学位论文研究情况和已完成的研究内容分布式WEB信息检索的集合划分问题分布式信息检索检索的划分问题建模基于内容的文档划分技术基于链接的文档划分算法分布式信息检索文档集合划分算法评价分布式信息检索的集合选择问题研究 tf.idf系列模型 CORI集合选择算法语言模型检索 OKAP模型分布式信息检索检索的划分问题建模文档集合划分的问题描述文档集合的划分模型模型的解空间分析文档划分问题最优解的快速解法算法复杂度分析文档集合划分的问题描述文档集合划分问题问题1：文档分布问题。即：每个子集合中应包含哪些文档问题2：文档集划分个数问题。即：一个给定的文档集合应该被划分成几个子集合直观的划分原则同一个查询的相关文档，尽可能集中在少数的子集合各个子集合的规模相差尽可能小影响文档划分的三个主要因素文档集D、查询集Q、查询的相关文档集R 文档集合划分的问题描述（Ⅱ）文档集合划分的核心难题文档与查询的相关关系是一种多对多的关系一个查有多个相关文档、一个文档是多个查询的相关文档文档集合的划分模型文档集划分问题1（文档分布问题）建模描述：如果给定一个文档集合D，查询集合Q及其相关文档集R，要将文档集D划分成K个子集合，那么D中的文档如何在各个子集合中分布是最合理的方式什么是最合理的方式？模型优化原则：求解一种文档集合的划分，使得处理Q中的查询，所需要检索的平均文档数最少分布式检索的过程第一步：找出含有相关文档的子集合第二步：对于每个子集合，找出其中的相关文档文档集合的划分模型文档集合划分模型1 举例集合D={1,5,6,7,8,9,12}共7元素，另外知道四个查询的相关文档集合 R1={1，5，9，12} R2={1，5，7，8} R3={5，6，7，9} R4={7，8，9，12} 7个数被划分成三个子集合 S1={1，5，6}，S2={7,8}，S3={9,12} 模型代价为((|S1|+|S3|)+(|S1|+|S2|)+(|S1|+|S2|+|S3|)+(|S2|+|S3|))/4 文档集合的划分模型文档划分问题2（文档集划分个数问题）建模问题描述：如果给定一个文档集合D，查询集合Q及其相关文档集R，在不考虑机器等资源限制条件下，应该划分成多少个子集合是最合理的重温分布式信息检索过程第一步：找出含有相关文档的子集合第二步：对于每个子集合，找出其中的相关文档文档集合的划分模型文档集合划分模型2 考虑文档集合划分个数情况下的，平均查询文档数文档集合的划分模型模型2的两种极端情况传统集中式检索，无文档划分每个文档作为一个文档集合两种情况按照模型是一致的，实际上也没有差别可行解空间分析模型1可行解空间分析有m个小球放入n个盒子中(m=n)，小球有差别，盒子没有差别，不准有空盒，所有的可能性中寻求一个最佳的放法（组合个数为第二类Stirling数）模型2可行解空间分析有m个小球放入n个盒子中（m=n），小球有差别，盒子没有差别，允许有空盒，所有的可能性中寻求一个最佳的放法文档划分问题最优解的快速解法模型1与模型2的关系关键问题：求解模型1的最优解类哈夫曼编码的最优解求解算法文档划分问题最优解的快速解法模型1最优解求解过程随子集合个数减少，模型1的最优解分为两个阶段解法第一阶段：模型1的最优解是一个常数第二阶段：模型1最优解的构造采用类哈夫曼编码算法文档划分问题最优解的快速解法第一阶段模型1的最优解为常数首先考虑每个文档是一个子集合的情况，此时模型1的最优解为如果将子集合个数减少，需要将部分子集合合并，合并原则是：合并后新的子集合