- 1、本文档共15页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Project1上交时间:10月21号ppt课件
Project 1(上交时间:10月21号)
建立一个有哪些信誉好的足球投注网站引擎
实现目标
实现一个bbs站内全文有哪些信誉好的足球投注网站引擎,使能够通过web界面能够对站内的帖子内容进行有哪些信誉好的足球投注网站
实现要求
Crawler 负责搜集与提取网页信息。
MapReduce Flow 负责对搜集的信息进行预处理,为查询做准备
Retrieval Interface 查询接口负责接收查询请求并返回结果
系统结构
网页1
网页2
网页3
爬取网页
生成源文件
过滤源文件;
建立倒排索引;
建立二级索引;
索引
结果列表
合并结果;
排序结果;
Jsp页面
信息表示
查询字符
网页搜集与信息提取
在搜集网页数据时,最常用的手段就是网络爬虫,建议在开源社区中找一个相关的产品来进行网页搜集。
信息的提取与存储
信息的提取与存储就是从爬取过程中获得的一条条帖子的原始网页中抽取需要的信息,并保存到分布式文件系统(HDFS)。
提取信息主要包括:帖子地址(URL), 帖子人气(HOT), 帖子作者(AUTHOR),帖子标题(TITLE), 帖子正文(CONTENT).
每条信息记录存储以上5个信息。
基于MapReduce的预处理
由于爬取过程中可能会提取出错误的信息,例如可能会生成出null的记录等,所以首先对源数据进行一次过滤。
生成倒排文件
倒排文件是用文档中所含的关键词作为索引,把文档作为索引目标的一种结构。(这部分工作是重点工作,大致分为三个过程)
(1) 对已过滤的源文件中的每条记录进行切分, 并将每条记录中的TITLE和CONTENT转化为一组词的集合及进行分词(可以采用开源分词软件IKAnalyzer对帖子内容进行分词)。
生成倒排文件
(2) 为了能够在后期对用户查询结果进行排序并显示摘要,对帖子进行分词的过程中,还需计算每个索引词对该帖子的相关度(Rank), 以及出现的位置(Position)。
Rank 可以简单的根据索引词在帖子中的词频来计算,词频越高,Rank就越高。
Position IKAnalyzer分词时会返回这个词在帖子中的位置偏移量
生成倒排文件
(3) 设计MapReduce算法,生成倒排表。
倒排表文件由若干个记录组成,每个记
录的形式为:
TERM+空格+MULTI_INFO
TERM 是用分词软件切分出来的一个词
MULTI_INFO 由多个单条帖子信息组成。
MULTI_INFO= SINGLE_INFO;………
SINGLE_INFO=DID;RANK;POSITIONS
生成倒排文件
DID: 唯一指定一个帖子的id
RANK: 本记录中, TERM在该帖子里的rank
POSITIONS: TERM在该帖子里的位置
建立倒排表算法流程图如下:
emit TERM, SINGLE_INFO
emit TERM, MULTI_INFO
Key:offset
Value:line(title,content)
Map:从title,content中切分出每个term,计算其rank, positions,将其封装成SINGLE_INFO
Reduce: 统计收到的value含有的SIGNLE_INFO的个数,更新rank值, 将其封装成MULTI_INFO
Output file(倒排表)
建立二级索引
若生成的倒排表非常大,可以考虑把倒排表分成一些较小的表,然后建立二级索引。
拆分倒排表的方法可以利用系统提供的Partitioner函数,将一张表平均拆分成几个小表
二级索引文件由若干词及其索引信息组成。
建立二级索引
例如:
TERM+空格+INDEX_INFO
INDEX_INFO由子表编号,以及这个TERM在子表中的偏移量组成
建立Web信息查询服务
经过上述步骤,系统核心功能已经完成,最后一步就是建立查询接口,使系统能实时接收查询请求,并及时返回查询结果。
Web查询界面主要完成的工作包括以下几个
(1) 提供查询输入的接口
(2) 对用户输入进行合法检查
(3) 向Web服务器发送查询请求
您可能关注的文档
- IPO财务审核 审计职业关注要点与案例分析1.ppt
- IE初级课程.ppt
- IP网络抓包工具简明用户手册.ppt
- ISO90001:2008质量管理体系教程.ppt
- ISO9001国家注册内审员培训1标准基础.ppt
- IQC来料检验基础知识.ppt
- ISO基础知识培训教材.ppt
- IP安全性与IPSec简版.ppt
- ITIL内部培训资料.ppt
- Infineon产品介绍资料.ppt
- 2016-2017学年高中生物第二单元生态工程与生物安全第1章第2节我国的生态工程教案中图版选修3.doc
- 2022-2023学年小升初英语易错点专练06完形填空15篇(广州教科版专版含答案)2.docx
- 期中专项四年级英语下册(含答案)3.docx
- 期末卷(二)(含答案解析)-2022-2023学年高二历史期中期末复习备考必刷题(选择性必修一国家制度与社会治理).docx
- 第4课欧姆定律的应用第一讲欧姆定律实验探究(原卷版).docx
- Unit1限制性定语从句语法讲义人教版高一英语学生版213.docx
- 2023年宁波市初中毕业升学文化考试科学模拟卷(八).docx
- 5.3细胞呼吸的原理和应用课件高一上学期生物人教版必修12.pptx
- 高中政治更好发挥政府作用教学设计.docx
- 体悟民间故事中的幸福--五上《中国民间故事》导读课.docx
文档评论(0)