- 1、本文档共31页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第二章有哪些信誉好的足球投注网站引擎的架构;有哪些信誉好的足球投注网站引擎
是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
;有哪些信誉好的足球投注网站引擎使用情况分析报告;有哪些信誉好的足球投注网站引擎使用情况分析报告;2.1什么是软件架构;2.2基本构件;.;.;2.3组件及其功能;爬虫
为有哪些信誉好的足球投注网站引擎发现和抓取文档;
许多类型,web,enterprise,desktop,主题爬虫
网络爬虫通过追踪网页上的超链接来找到并下载新的页面
-能够高效处理互联网上大量出现的新网页
-抓取任务可以限制在一个单独的站点
-主题爬虫采用分类技术限制所访问的网页是同一主题
;爬虫(Cont.)
及时、高效的收集数量尽可能多的有用的万维网页面,以及建立它们之间的超链接关系
侧重用户需求:及时、数量多、有用
侧重有哪些信誉好的足球投注网站引擎系统需求:高效
收集的内容:网页、链接关系
;
运行原理
;信息源(Feeds)
是一种存取实时文档流的机制;
-e.g.,新闻信息源是一个持续不断的新闻流及新闻的更新
-RSS是互联网信息源采用的一个通用标准;
-RSS“阅读器”用于支持RSS信息源,采用XML数据格式。
阅读器检测信息源,可以获取信息源更新的内容;
转换(Conversion)
e.g.HTML,XML,Word,PDF,etc.→XML
文本编码转换以适用不同语言
-Unicode是一个通常使用16位进行编码的标准编码方案,
可以表示世界上绝大多数语言中使用的文字;文档数据库
存储文本、元数据和另一些文档相关的内容
-文档元数据,如文档类型、创建时间
-另一些内容如超链接、锚文本
为有哪些信誉好的足球投注网站引擎组件提供对文档内容的快速存取
-e.g.resultlistgeneration
;.;解析器
处理文档中的文本词素序列,以识别文档中的结构化元素
-e.g.,titles,links,headings,etc.
词素切分是指识别文档中的词素由空格分开的字母和数字构成的字符串
-包括处理特殊字符,如大小写、连接符、单撇号
-E.g.“apple”and“Apple”;”on-line”;”O’Connor”
文档结构通常由HTML、XML等标记语言指定
-使用tag定义文档元素,E.g.,h2Overview/h2
-文档解析器使用标记语言的句法知识识别文档的???构
;停用词去除
不具有实际意义的功能词,去除后不影响有哪些信誉好的足球投注网站效果
-e.g.,“and”,“or”,“the”,“in”
根据实际应用确定停用词表
-避免“tobeornottobe”
词干提取
去除词缀得到词根的过程得到单词最一般的写法
-e.g.,“computer”,“computers”,“computing”,“compute”
;超链接的抽取和分析
抽取内容:超链接和锚文本
链接分析向有哪些信誉好的足球投注网站引擎提供一个页面的关注度,并在一定程度上提供页面的权威度
-e.g.,PageRank
锚文本是网络链接上可以点击的文本,给出了链接所指向页面的内容概要
;信息抽取
识别更加复杂的索引项,而不是一个单独的词
-E.g.一个黑体、加粗的词,题目中的词
识别指定语义的特征
-命名实体识别,E.g.人名、公司名、日期、地名
分类器
识别与类别相关的数据。
i.e.,assignslabelstodocuments
辨别一个文档是否是垃圾文档
识别文档中的非内容部分,如广告等
;文档统计
汇总和记录词、特征及文档的统计信息;
-E.g.索引项在各文档中出现的频率、索引项在文档中出现
的位置、索引项在一组文档中出现的次数、按照词素统计
的文档长度等
统计结果存储在查找表中,查找表是设计用于快速检索的一种数据结构
排序组件使用统计信息计算文档的分值
;加权(Weighting)
文档中词的权重反映了文档中词的相对重要性
用于排序算法
e.g.,tf.idfweight
倒排
索引处理的核心组件
将文本转换组件传递过来的文档-词项信息转换为词项-文档信息
倒排索引用于快速的实现查询处理
-要求能够处理更新
-索引压缩以提高效率
;索引分派
将索引分发给多台计算机,也可能是网络中的多个站点
分布式处理是网络有哪些信誉好的足球投注网站引擎的基础
分派文档子集的索引表,索引和查询处理可以并行
分派词项子集的索引,能够支持查询的并行处理
复制是分派的一种,能够减少通信延迟,进一步提高效率;查询输入
为查询语言提供接口和
您可能关注的文档
最近下载
- 国家司法考试卷三(民法)历年真题试卷汇编41(题后含答案及解析).pdf
- 三年级数学口算天天练(可下载直接打印).doc VIP
- 髋臼骨折幻灯片.ppt VIP
- 专题14 新闻阅读必考题型(原卷+答案解析)2024-2025学年八年级语文上册期中真题汇编 统编版通用.docx
- 【语文单元主题教学】六年级上册第三单元《单元整体教学以及教材解读》课件部编版创新.pptx
- 一种柔性艾草脱叶筛分机.pdf VIP
- 内科护理学(陈淑英)第三节 类风湿关节炎患者的护理.ppt VIP
- 中石化笔试题库.pdf
- 如何上好一节化学课1(1).ppt
- GB 9706.9-2008 医用电气设备 第2-37部分超声诊断和监护设备安全专用要求 .pdf
文档评论(0)