Project1上交时间:10月21号.pptx

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Project1上交时间:10月21号ppt课件

Project 1(上交时间:10月21号) 建立一个有哪些信誉好的足球投注网站引擎 实现目标 实现一个bbs站内全文有哪些信誉好的足球投注网站引擎,使能够通过web界面能够对站内的帖子内容进行有哪些信誉好的足球投注网站 实现要求 Crawler 负责搜集与提取网页信息。 MapReduce Flow 负责对搜集的信息进行预处理,为查询做准备 Retrieval Interface 查询接口负责接收查询请求并返回结果 系统结构 网页1 网页2 网页3 爬取网页 生成源文件 过滤源文件; 建立倒排索引; 建立二级索引; 索引 结果列表 合并结果; 排序结果; Jsp页面 信息表示 查询字符 网页搜集与信息提取 在搜集网页数据时,最常用的手段就是网络爬虫,建议在开源社区中找一个相关的产品来进行网页搜集。 信息的提取与存储 信息的提取与存储就是从爬取过程中获得的一条条帖子的原始网页中抽取需要的信息,并保存到分布式文件系统(HDFS)。 提取信息主要包括:帖子地址(URL), 帖子人气(HOT), 帖子作者(AUTHOR),帖子标题(TITLE), 帖子正文(CONTENT). 每条信息记录存储以上5个信息。 基于MapReduce的预处理 由于爬取过程中可能会提取出错误的信息,例如可能会生成出null的记录等,所以首先对源数据进行一次过滤。 生成倒排文件 倒排文件是用文档中所含的关键词作为索引,把文档作为索引目标的一种结构。(这部分工作是重点工作,大致分为三个过程) (1) 对已过滤的源文件中的每条记录进行切分, 并将每条记录中的TITLE和CONTENT转化为一组词的集合及进行分词(可以采用开源分词软件IKAnalyzer对帖子内容进行分词)。 生成倒排文件 (2) 为了能够在后期对用户查询结果进行排序并显示摘要,对帖子进行分词的过程中,还需计算每个索引词对该帖子的相关度(Rank), 以及出现的位置(Position)。 Rank 可以简单的根据索引词在帖子中的词频来计算,词频越高,Rank就越高。 Position IKAnalyzer分词时会返回这个词在帖子中的位置偏移量 生成倒排文件 (3) 设计MapReduce算法,生成倒排表。 倒排表文件由若干个记录组成,每个记 录的形式为: TERM+空格+MULTI_INFO TERM 是用分词软件切分出来的一个词 MULTI_INFO 由多个单条帖子信息组成。 MULTI_INFO= SINGLE_INFO;……… SINGLE_INFO=DID;RANK;POSITIONS 生成倒排文件 DID: 唯一指定一个帖子的id RANK: 本记录中, TERM在该帖子里的rank POSITIONS: TERM在该帖子里的位置 建立倒排表算法流程图如下: emit TERM, SINGLE_INFO emit TERM, MULTI_INFO Key:offset Value:line(title,content) Map:从title,content中切分出每个term,计算其rank, positions,将其封装成SINGLE_INFO Reduce: 统计收到的value含有的SIGNLE_INFO的个数,更新rank值, 将其封装成MULTI_INFO Output file(倒排表) 建立二级索引 若生成的倒排表非常大,可以考虑把倒排表分成一些较小的表,然后建立二级索引。 拆分倒排表的方法可以利用系统提供的Partitioner函数,将一张表平均拆分成几个小表 二级索引文件由若干词及其索引信息组成。 建立二级索引 例如: TERM+空格+INDEX_INFO INDEX_INFO由子表编号,以及这个TERM在子表中的偏移量组成 建立Web信息查询服务 经过上述步骤,系统核心功能已经完成,最后一步就是建立查询接口,使系统能实时接收查询请求,并及时返回查询结果。 Web查询界面主要完成的工作包括以下几个 (1) 提供查询输入的接口 (2) 对用户输入进行合法检查 (3) 向Web服务器发送查询请求

文档评论(0)

xyz118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档