第四节_有哪些信誉好的足球投注网站引擎优化.ppt

第四节_有哪些信誉好的足球投注网站引擎优化.ppt

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
web有哪些信誉好的足球投注网站引擎优化技术 宋斐 sf@nxmu.edu.cn 4.1 有哪些信誉好的足球投注网站引擎 有哪些信誉好的足球投注网站引擎为用户提供信息检索服务,作为辅助人们检索信息的工具,是在Web上发现信息的关键技术,是用户访问万维网的最佳入口。 有哪些信誉好的足球投注网站引擎借助于自动有哪些信誉好的足球投注网站网页的软件,在网络上通过各种链接获得大页面文档的信息,并按照一定算法与规则进行归类整理,形成文档索引数据库,以备用户查询。 -主流有哪些信誉好的足球投注网站引擎 4.1.1 有哪些信誉好的足球投注网站引擎的工作原理 有哪些信誉好的足球投注网站引擎有两个重要组成部分,即离线部分和在线部分。离线部分由有哪些信誉好的足球投注网站引擎定期执行,包括下载网站的页面集合,并经处理把这些页面转换成可有哪些信誉好的足球投注网站的索引。在线部分在用户查询时被执行,根据与用户需求的相关性,利用索引去选择候选文档并排序显示。 有哪些信誉好的足球投注网站引擎原理 有哪些信誉好的足球投注网站引擎的原理基于三段式工作流程,即搜集,预处理,提供服务。 有哪些信誉好的足球投注网站引擎的工作原理包括有哪些信誉好的足球投注网站引擎收录页面、建立索引和向用户提供查询服务等。 有哪些信誉好的足球投注网站引擎原理 -三段式工作流程 网页搜集: 预处理: 提供服务: 1网页搜集 网页数据库的基本策略: 1)定期搜集: 2)增量搜集: 网页的抓取策略: 1)“爬取”策略: 2)维护URL: 定期有哪些信誉好的足球投注网站 定期有哪些信誉好的足球投注网站,隔一段时间后对整个网页重新搜集一遍,替换以前的内容。 优点:实现起来较简单 缺点:开销较大,两次搜集的时间间隔不会很短,“时新性(freshness)”不高 增量有哪些信誉好的足球投注网站 开始时搜集一遍,然后: 1.搜集新出现的网页 2.搜集更新了的网页 3.发现有网页已经不存在,则从库中删除 “爬取”策略 将Web看作是一个有向图,搜集过程从给定的起始url集合S开始,沿着网页中的链接,按照一定的策略(先深/先宽/others)遍历。 这个过程象蜘蛛(spider)在蜘蛛网(Web)上爬行(crawl) 维护URL 系统进行第一次全面的网页搜集之后,维护相应的URL集合,以后的有哪些信誉好的足球投注网站基于此集合。 存储网页 搜集到的网页将存储到知识库(repository)中。 知识库包含每个网页的docID,长度,URL以及网页的全部HTML。 由于网页数量会很多,所以,网页在存入知识库时要进行压缩处理。 2预处理 预处理旨在为收集到的Web文档建立逻辑视图。 链接分析 网页重要程度计算 关键词提取 链接分析 链接是分析网页重要的信息 1.链接描述文字准确的反映了网页的内容 2.网页之间的链接关系,反映了网页的重要程度(PageRank Google) 网页重要程度计算 PageRank(Google) 指向一个网页的链接越多,说明这个网页越重要。 把整个web结构看作一个矩阵。N个网页就形成一个n×n的矩阵。 关键词提取 建立倒排索引 英文的分词 中文的分词 中文分词技术 中文分词是中文有哪些信誉好的足球投注网站引擎的核心 中文分词技术 基于字符串匹配的分词方法 基于统计的分词方法 基于字符串匹配的分词算法 正向减字最大匹配法(MM) 逆向减字最大匹配法(RMM) 将上述两种方法结合起来 预处理部分 读取网页 英文按照空格切开 中文按照正/逆向最大匹配的方法切词 将词编入索引文件 3 查询服务 有哪些信誉好的足球投注网站引擎为用户提供查询界面,以便用户通过浏览器提交待查询的词语或短语。 当用户输入关键词后,有哪些信誉好的足球投注网站系统程序从索引数据库中找到符合该关键词的所有相关网页,并根据网页针对该关键词的相关性排序,相关性越高,排名越靠前。 4.1.2 信息检索技术 信息检索过程始于用户输入一个查询字符串,该字符串是信息需求的形式化表示。在信息检索中,一个查询字符串可以识别出数据库中多个文档,这些文档的相关性可能不同。 三种经典信息检索(IR)模型 : 布尔模型 统计模型 适量空间模型 布尔模型:文档被表示成关键词集合,查询被表示关键词的成布尔表达式(And, Or, Not),其输出是文档的相关与否,而没有匹配或排名。 统计模型:把文档表示成关键词集合(无序),被取样的单词相互独立,根据词频对文档进行排序。 矢量空间模型:每个文档被表示成高维空间中的一个矢量,查询也被表示成一个矢量,比较查询和文档集合,找出最接近的文档组。大多数查询系统计算数据库中文档匹配查询字符串的程度,并按排名依次显示。计算方法有统计法、信息论法和概率法等,这些方法大都基于矢量空间模型 4.1.3 有哪些信誉好的足球投注网站引擎排名算法分类 在各种有哪些信誉好的足球投注网站引擎上进行同样有哪些信誉好的足球投注网站时会产生不同的结果。究其原因,首先,检索依赖于网络蜘蛛能找到的信息。其次,并非有哪些信誉好的足球投注网站引擎都使用相同的排名算法。 排名算法趋势: Yahoo!为代表的第一代文本有哪些信誉好的足球投注网站算法;雅虎的人工分类方式,网站目录有哪些信誉好的足球投注网站 第二代以PageRank和HITS为代表的基于链接分析的有哪些信誉好的足球投注网站算法; 第二代半基于网站的访问量。 第三代应该具有智能化、个性化和社区化等特

文档评论(0)

187****5045 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档