华南木棉信息检索.pptVIP

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
华南木棉信息检索 木棉检索队:张元丰,陈晓志,陈晓锋 目录 木棉有哪些信誉好的足球投注网站引擎现状 数据格式转换 关键技术介绍 结果提交 分析与展望 木棉有哪些信誉好的足球投注网站引擎现状 基于Nutch的实现; 对URL、Title、Anchor、Content进行索引; PageRank算法的应用; 中文分词; 基于集群系统的并行化有哪些信誉好的足球投注网站引擎。 木棉有哪些信誉好的足球投注网站引擎现状 木棉有哪些信誉好的足球投注网站引擎现状 目录 木棉有哪些信誉好的足球投注网站引擎现状 数据格式转换 关键技术介绍 结果提交 分析与展望 数据格式转换 数据格式转换 将3700万网页分成70个part进行处理 对每个part建立Web DB 合并所有的Web DB 用完整的Web DB更新每一个part的数据 对每个part分别建立索引 合并索引 目录 木棉有哪些信誉好的足球投注网站引擎现状 数据格式转换 关键技术介绍 结果提交 分析与展望 关键技术介绍 TD 有哪些信誉好的足球投注网站相关主题的文章,主要查找入口页面。 NPHP 查找首页或者指定页面 。 关键技术介绍 TD 扩展查询 利用Description对查询词进行扩展,比如: top numNumber:TD146 title股票分析/title descDescription:股票分析的网站,专家评论,论坛和软件 /top 扩展后为:股票分析、股票论坛、股票评论、股票软件; 用扩展后的查询词有哪些信誉好的足球投注网站,每个查询词均返回300条结果; 合并扩展查询结果。 关键技术介绍 TD 二次查询优化 截取每个查询结果的前200条结果; 对这200条结果进行站内聚合,并将每个网站内的ROOT、SUBROOT、url深度小于3的PATH的url提前; 对所有被提前的网页按照得分排序,并尽量保证前十条出现不同网站的url,将这些网页放在结果集的前面; 对其他网页按照得分进行排序,顺序排列在得到的结果之后。 关键技术介绍 NPHP 对于所给的查询集,我们根据查询词很容易就可以分辨出该查询的意图:HP or NP。我们手工对查询词进行判断(RANK4 和 RANK5没有这一步骤),添加H(homepage)或N(namepage)标记。这一步骤主要是查询优化时使用; 在索引库中查询,并返回200条有哪些信誉好的足球投注网站结果; 对有哪些信誉好的足球投注网站结果进行二次排序。算法主要是基于华南理工大学胡俊刚等的《基于URL类型优先级入口页面查询算法》。同时判断查询词的H标记或者N标记,把结果中的主页提取到前面(H)或放到后面(N)。 关键技术介绍 Page Rank Google Page Rank 在要求不高的情况下,迭代计算5次即可。 简单 Page Rank 可以反映网页的重要程度。 目录 木棉有哪些信誉好的足球投注网站引擎现状 数据格式转换 关键技术介绍 结果提交 分析与展望 结果提交 CWT200g—TD 结果提交 CWT200g—NPHP 结果提交 CWT20g—TD 结果提交 CWT20g—NPHP 目录 木棉有哪些信誉好的足球投注网站引擎现状 数据格式转换 关键技术介绍 结果提交 分析与展望 分析与展望 对网页各组成部分进行索引并赋予不同的权重可以提高检索精度; NPHP查询结果好;TD查询在一些情况下不能很好的将用户引导到最有价值的页面; 人工标记和二次排序对提高检索准确率有很大的帮助; 查询响应时间相对较长(平均2~3s)。 分析与展望 TD查询时,采用合理的辅助机制,比如扩展查询,分类目录等,将用户引导到较好的结果页面; 自动判断TD,NP,HP查询词,根据不同性质的查询词返回相应的结果; 提高检索速度。 谢谢大家! / 全国有哪些信誉好的足球投注网站引擎与网上信息学术研讨会 SEWM 2006中文Web检索 网 页 预 处 理 中 文 分 词 链 接 分 析 文档库 索引库 网页 噪音模板库 链接库 综合采用多种去噪算法,噪音的去除,可以减少索引量,可以避免噪音对检索结果的影响 对站内站外链接赋予不同的权重,保留锚点文本信息 链入锚点文本 网页url 网页标题 网页主题内容 链出锚点文本 基于词频的中文分词 Google pagerank算法 简单pagerank算法 用户输入查询词 索引库 二次排序 结果 √ √ √ RUN5 √ 简单 RUN4 √ 简单 √ RUN3 √ 简单 √ RUN2 √ 简单 √ √ RUN1 二次排序 PR 扩展查询 中文分词 序号 √ 简单 RUN5 √ 简单 √ RUN4 简单 √ √ RUN3 √ 简单 √ RUN2 √ 简单 √ √ RUN1 二次排序 PR 手动标记 中文分词 序号 √ 简单 √ √ RUN5 √ 简单 √ RUN4 √ 标准 √ RUN3 √ 标准 √ RUN2 √ 标准 √ √ RUN1 二次排序 PR 扩展查询 中文分词 序号 √ 标准 RUN5 √ 标准 √ RUN4 标准 √ √ RUN3 √ 标准 √ RUN2

文档评论(0)

awang118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档