- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
湖南seo刘小兵在您的身边!
有哪些信誉好的足球投注网站引擎工作的一个大概过程
一、:
1.爬行和抓取
有哪些信誉好的足球投注网站引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库,抓取
从左往右,从上往下
2.预处理
索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排名
程序调用
3.排名
用户输入关键词后,排名程序调用索引库数据,计算相关性,然后按一定格式生
成有哪些信誉好的足球投注网站结果页面
二、爬行和抓取
1.蜘蛛
概念:有哪些信誉好的足球投注网站引擎用来爬行和访问页面的程序被称为蜘蛛,也称为机器人
2.跟踪链接
最简单的爬行查看方式分为两种:深度优先和广度优先
(1)深度优先
A指的是蜘蛛沿着发现的链接一直向前爬行,直到前面
再也没有其他链接,然后返回到第一个页面,沿着另
B1一个链接再一直往前爬行。
A1图例解说:蜘蛛跟踪链接从A页面爬行到A1、A2、
A3到A3页面后,没有其它链接可以跟踪就返回A
B2页面,顺着页面上的另一链接,爬行到B1、B2、B3
A2
A3B3
(2)广度优先
A
A1B1C1
A2A3A4
指蜘蛛在一个页面上发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有第一
层链接都爬一遍,然后再沿着第二层页面上的发现链接爬向第三层。
图例解说:蜘蛛从A页面爬行到A1、B1、C1页面,直到A页面上的所有链接都爬行完,
然后从A1页面发现的下一层链接,爬行到A1、A2、A3
湖南seo刘小兵在您的身边!
3.吸引蜘蛛
理论上蜘蛛可以爬行和抓取所有页面,但实际上不能、也不会这么做。既然不能
抓取所有页面,它所要做的就是尽量抓取重要页面。影响页面重要性的因素有哪
些呢?
——网站和页面权重。质量高、资格老的网站被认为权重比较高,这种页面被爬
行的深度也越深,内页被收录更多
——页面更新度。经常更新的页面(高质量信息)蜘蛛抓取的也频繁
——导入链接。页面的抓取要有导入链接,不然就会形成一种“孤岛效应”,无
法访问。高质量的导入链接也经常使页面上的导出链接被爬行深度增加
——与首页点击距离。离首页点击距离越近,页面权重越高,被蜘蛛爬行的机会
也越大
4.地址库
为了避免重复爬行和抓取网址,有哪些信誉好的足球投注网站引擎会建立一个地址库,记录已经被发现还
没有抓取的页面,以及已经被抓取的页面
5.爬行时的复制内容检测
检测并删除复制内容通常是在预处理过程中进行的,但现在蜘蛛在爬行和抓取文
件时也会进行一定程度的复制内容检测。遇到权重很低的网站上大量转载或抄袭
内容时,很可能不再继续爬行
三、预处理(简称索引,因为索引是它最主要的步骤)
1.提取文字
现在的有哪些信誉好的足球投注网站引擎还是以文字内容为基础。因此预处理要做的就是从HTML文件
中去除标签、程序,提取出可以用于排名处理的网页文字内容,有时也会提取一
些特殊包含文字信息的代码,比如Meta标签中的文字、图片替代文字、Flash
文件的替代文字。链接锚文字等
2.中文分词
分词是中文有哪些信誉好的足球投注网站引擎特有的步骤。有哪些信誉好的足球投注网站引擎存储和处理页面及用户有哪些信誉好的足球投注网站都是以词
为基础的。中文分词方法基本上有两种:基于词典匹配和基于统计
比如在百度有哪些信誉好的足球投注网站“有哪些信誉好的足球投注网站引擎优化”百度把“有哪些信誉好的足球投注网站引擎优化”当成一个词,而在
Gooogle分切为“有哪些信誉好的足球投注网站、引擎、优化”三个词。所以,百度分切分得更为合理,
Google分词时倾向于更为细碎。
3.去停止词
页面内容中经常都会有一些出现频率很高,却对内容没有任何影响的词,如“的、
地、得”之类的助词,“啊、哈、呀”之类的感叹词,这些词被称为停止词,搜
索引擎在索引页面之前会去掉这些停止词,使索引数据主题便为突出,减少无谓
的计算量。
4.
您可能关注的文档
最近下载
- 人民大2024 刘翔平《积极心理学(第3版)》ppt01开篇 相对富裕的社会呼唤积极心理学.pptx
- (本科)第12章 优抚安置教学电子课件.ppt
- 新湘少版四年级上册英语教学设计 Unit2 It’s a circle.doc VIP
- 施工图消防设计专篇.pdf VIP
- Rhino5.0&KeyShot产品设计实例教程(第2版)课后习题答案.docx
- 《食品营养学》习题集与参考答案.pdf
- (本科)第11章 住房保障教学电子课件.ppt
- 人民大2024 刘翔平《积极心理学(第3版)》ppt第9章 积极的爱.pptx
- (本科)第9章 社会福利教学电子课件.ppt
- 建设教育强国科技兴国人才强国战略PPT学校专题党课PPT课件(带内容).pptx VIP
文档评论(0)