有哪些信誉好的足球投注网站引擎基本原理及实现技术——索引剖析.ppt

有哪些信誉好的足球投注网站引擎基本原理及实现技术——索引剖析.ppt

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
有哪些信誉好的足球投注网站引擎基本原理及实现技术 ——索引技术 网络爬虫辛辛苦苦的把网页爬回来之后…… 预处理系统 主要工作 信息抽取 分词 分类等处理工作 生成正排发送 到索引系统生成倒排索引。 信息抽取 去标签和去噪 去标签 构造 DOM 树。,Jsoup;tinyHTML,htmlParser 去噪 去掉与正文不相关的广告或者其他信息。如广告,评论,导航条,版权信息,友情链接等等。 分词 分词的目的是为了提取文件特征,文件特征即网页内容的结构化表现形式。 分词方法 基于字符串匹配的分词方法 基于理解的分词方法 基于统计的分词方法 基于字符串匹配的分词方法 也叫做基于字典的分词方法,它是以字典为依据的。按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词典中找到某个字符串,则匹配成功,即识别出一个词。 又分为三种: 正向最大匹配法(由左到右的方向); 逆向最大匹配法(由右到左的方向); 最少切分法(使每一句中切出的词数最小)。 基于理解的分词方法 该方法又称基于人工智能的分词方法。 它是利用汉语的语法知识和语义知识以及心理学知识进行分词,需要建立分词数据库、知识库和推理机。这种分词方法需要使用大量的语言知识和信息。 目前还处在试验阶段。 基于统计的分词方法 又称为无字典分词,它的主要思想是:词是稳定的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻出现的概率或频率能较好地反映成词的可信度。可以对训练文本中相邻出现的各个字的组合的频度进行统计,计算它们之间的互现信息。 分词工具 IkAnalyzer2012,国外有名的分析系统,也可以处理中文。使用简单。 NLPIR2014, NLPIR2015 ICTCLAS5.0 中科院开发的专门针对中文的分词系统,中文分词较准确,稍微麻烦点 教育学院/n_new/3.34/2#学院/n/2.58/19#教育/vn/1.74/3#信息/n/1.74/3#工程/n/1.34/5#教学/vn/1.27/3# 网页特征提取 所有分出来的词都要保留吗?我该如何取舍呢? 只保留一定数量的能代表网页内容特征的关键词。 最简单的就是统计词频,将出现频率最高的n个词保留。 索引 索引是对数据库表中一列或多列的值进行排序的一种结构。 此处指的是将爬取的网页进行预处理之后的,将关于这个URL的信息存入数据库,被称为索引库。 索引库中关于URL的信息不仅是组成页面内容的关键词及其特征(位置、格式等),还有链接、更新情况等信息。 建立倒排索引的基本过程 (1)页面分析将原始页面的不同部分进行识别并标记,例如:title、keywords、content、link、anchor、评论、其他非重要区域等等; (2)对网页内容分词。分词的过程实际上包括了切词分词同义词转换同义词替换等等。以对某页面title分词为例,得到的将是这样的数据:term文本、termid、词类、词性等等; (3)之前的准备工作完成后,接下来即是建立倒排索引,形成{termdoc}, 倒排索引(Inverted Index) 可以根据单词快速获取包含这个单词的文档列表。 是实现“单词-文档矩阵”的一种具体存储形式。 倒排索引的建立 实际上在建立倒排索引的最后还需要有一个入库写库的过程,而为了提高效率这个过程还需要将全部term保存在文件头部,并且对数据进行压缩,这些涉及到的技术自行学习。 建立索引 两遍文档遍历法(2-Pass In-Memory Inversion) 在第一遍扫描文档集合时,该方法并没有立即开始建立索引,而是收集一些全局的统计信息。比如文档集合包含的文档个数N,文档集合内所包含的不同单词个数M,每个单词在多少个文档中出现过的信息DF。每一项记载某个文档的文档ID和单词在该文档对应的出现次数TF。 第一遍扫描的主要目的是获得一些统计信息,并根据统计信息分配内存等资源,同时建立好了单词相对应倒排列表在内存中的位置信息,即主要做些资源准备工作。 在第二遍扫描的时候,开始真正建立每个单词的倒排列表信息,即对于某个单词来说,获得包含这个单词的每个文档的文档ID,以及这个单词在文档中的出现次数TF,这样就可以不断填充第一遍扫描所分配的内存空间。 排序法(Sort-basedInversion) 在建立索引的过程中,始终在内存中分配固定大小的内存,用来存放词典信息和索引的中间结果,当分配的内存被消耗光的时候,把中间结果写入磁盘,清空内存里中间结果所占内存,以用作下一轮存放索引中间结果的存储区。 ?中间结果如何存储,中间结果如何排序自行学习。 归并法(Merge-basedInversion) 。“归并法”对此做出了改进,即每次将内存中数据写入磁盘时,包括词

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档