- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
4大子系统的概念:
数据抓取子系统:是及时、高效的收集数量尽可能多的有用的万维网页面,以及建立他们之间的超链接的关系。
内容索引子系统:网页检索子系统的主要职责就是组织好海量的网页数据,是内容检索子系统能够高效的进行检索。
内容检索子系统:计算用户输入查询词与系统索引页面的内容相关程度,它是决定页面顺序的重要因素之一。
链接结构分析子系统:通过对万维网索引链接结构的挖掘,分析评估万维网数据的质量、扩充万维网数据的描述内容,为提升有哪些信誉好的足球投注网站引擎系统的整体性能服务。
三大协议:
URL规范:[scheme://][userinfo”@”]host[“:”port]”/”[“?”query][“#”fragment]
Scheme
协议名称
HTTP、FTP、HTTPS等
Userinfo
用户名密码,应用于ftp登录等
默认为空
Host
服务器主机域名或IP
Port
服务器端口
http默认80
Path
服务器访问路径
/f
Query
服务器get参数
Kz=1919119
Fragment
标签定位
#top
HTTP协议:超文本传输协议
User-Agent:代表终端程序身份的http属性
Robots协议:
User-Agment: *
Disallow : /
倒排与正排索引:
倒排:依据词项组织索引
正排:依据文档组织索引
eg: 根据文档词项建立正排索引与倒排索引,p115+p116
有哪些信誉好的足球投注网站引擎的理解或认识:有哪些信誉好的足球投注网站引擎是用于在万维网上查找信息的工具
科学家:
范内瓦。布什
蒂姆。伯纳斯。李
谢尔盖。布林 + 拉里。佩奇
李彦宏
减少索引词项列表的主要方法
英文词干抽取:将同一词根的不同变形缩减为同一概念
停用词去除
齐普夫定律
网络爬虫最基本的组成模块
下载
解析
存储
排队
调度
万维网的强连通部件满足幂律分布(power-law)结论的作用
可以通过抓取大规模的连通子图,来获取网络中最主要部分的数据
关键词堆砌”类型垃圾网页的识别方法
内容可视比,内容压缩比
常见的文本检索模型的优缺点
布尔模型
缺点:返回结果是二元的,仅有相关、不相关两种状态,无法对文档进行排序。一般用户很难将有哪些信誉好的足球投注网站需求用布尔表达式表达出来。
优点:精确
向量空间模型
缺点:查询词向量与文档向量不匹配、不同词项间并非独立关系、词项出现频度的“边际效应”
概率模型
缺点:公式效果不好
Hits
eg
Pagerank:PR(1)(A) = a*1/N+(1-a)*∑(PR(Pi)/Outdegree(Pi))
有哪些信誉好的足球投注网站引擎评价指标(P、R、P@n、S@n、RR)
A:返回的结果集
A B C B:结果集中的相关集
C:正确结果集
P(准确率) = (A∩C)/A = B/A
R(召回率) = (A∩C)/C = B/C
P@n(前n选精度 ):结果序列中前n位结果中正确结果的比例,P@10=0.4表示前10篇结果文档中有4篇是正确答案
S@n(前n选成功率):结果序列中前n位结果中是否有正确答案,S@10=1表示前10篇中有正确答案
RR(首次正确答案排序倒数)= 1/(第一个正确答案的序号)
AP(平均准确率)
文档评论(0)