网站大量收购独家精品文档,联系QQ:2885784924

有哪些信誉好的足球投注网站引擎中的信息检索与链接分析技术 - 2006年度全国有哪些信誉好的足球投注网站引擎与网上.ppt

有哪些信誉好的足球投注网站引擎中的信息检索与链接分析技术 - 2006年度全国有哪些信誉好的足球投注网站引擎与网上.ppt

  1. 1、本文档共47页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
有哪些信誉好的足球投注网站引擎中的信息检索与链接分析技术 - 2006年度全国有哪些信誉好的足球投注网站引擎与网上

Google Confidential Enter Title of Presentation Here Google Confidential 有哪些信誉好的足球投注网站引擎中的信息检索和链接分析技术 朱会灿 Overview 简介 排序 网页作弊(Spamming) 信息检索(IR) 在 Google 的成功应用 远景展望 Introduction: History WWW 出现 (1992) Mosaic/Netscape 出现 (1993-95) 网络爬虫(Crawler)出现 (1994): M. Mauldin (founded Lycos) Yahoo 成立: 1994, 网页目录 有哪些信誉好的足球投注网站引擎出现 1994-1996 (InfoSeek, Lycos, Altavista, Excite, Inktomi, …) Google 创立: 1996-98 试图把有哪些信誉好的足球投注网站技术卖出去。 没找到买主。都忙着办门户网站(portals) The Pipeline Crawling: 循着链接下载网页 Indexing: 纪录哪个词在哪儿出现 Ranking: 从几十亿网页中找出跟用户查询最匹配的 Serving: 处理查询,生成结果网页 Ranking: History 早期有哪些信誉好的足球投注网站引擎都是基于信息检索技术 (IR) 领域出现于 1950 年代 主要着眼于文本检索 主要使用统计方法来分析文本 运用heuristics 基于词的位置分配权重(靠开始或者在题目里比较好) 多词查询时,这些词在文章中越近越好 普通词不重要 (e.g. the, 的) Information Retrieval (IR) TF x IDF: TF (Term frequency): 一个词在一篇文章中出现的次数 IDF (Inverse document frequency): 总文章数/(含有这个词的文章数) 乘积越高,则相应的文章对该词匹配越精确:这个词在这篇文章中出现的次数多,而且包含这个字的文章少。 聚类(clustering): 把相关的信息合到一起 分类(classification): 根椐某个标准,把内容归类。 信息提取(extraction): 从文本中提取关键词 Ranking: Drawbacks of IR 对网页有哪些信誉好的足球投注网站:IR 必要但不充分 不能表达内容权威性( authority) 在上的一片文章和在 某个blog 上重贴的版本得分一样 不能表示 web navigation 有哪些信誉好的足球投注网站 ibm 是在找 可能看起来没有一篇IBM季度报告重要 Ranking: Link Analysis 但是好在有链接… 网上导航的工具 表示目标网页重要 对目标网页的推荐 还描述目标网页 (Anchor text) Ranking: Link Analysis 链接分析:利用链接信息来判断网页重要性 Hubs and Authorities (Jon Kleinberg) PageRank (Brin and Page) Hubs and Authorities 权威(Authority)网页: 最经常被指向的网页: , 中心(Hub) 网页: 有很多外向链接的网页。链接多有相关主题: 只有指向最好的中心网页才是最好的权威网页。只有指向最好的权威网页才是最好的中心网页。 HITS (Hyperlink-Induced Topic Search): HITS: Pros and Cons Pros: 自动主体分组: 如果一个检索词有多个意义,多组权威和中心网页自动识别:Apple 对立的观点自动分开: 房地产价格趋势. Cons: 在线计算:长处理时间, 只对小的索引有效. 对极其明确范围的检索不太好: [adobe reader 7.0.8] Pagerank PageRank: 利用 Web 所拥有的庞大链接构造的特性来对网页重要性的排序。 网页A指向网页B的链接被看作是A对B的支持投票 投票数目影响页面的重要性。 Pagerank 不单单只看投票数(即链接数) “重要性”高的页面所投的票的评价会更高 Pagerank 基于整个链接图离线计算,跟有哪些信誉好的足球投注网站词无关。计算非常高效 Pagerank Pagerank 假设一个网上冲浪者随机点击看到的网页链接,他到达某个网页的概率就是这个网页的 PageRank 值。 如果一个网页没有外向链接怎么办? - 依照小概率, 比如说, 15%, 一个用户会停止点击链接,而将URL敲进地址框 (或从个人爱好表里选取) 个性化 pageranks, 具有明确主题的 pageranks Anchor Text 描述目标网页的短句: XXX 的个人主页, Google search engine 有些信息

文档评论(0)

3471161553 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档