有哪些信誉好的足球投注网站引擎基本原理及实现技术——索引剖析.ppt

下载文档 降价啦

4
0
约3.05千字
约 25页
2017-03-18 发布于湖北
举报
版权申诉
保障服务

有哪些信誉好的足球投注网站引擎基本原理及实现技术——索引剖析.ppt

1、本文档共25页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

有哪些信誉好的足球投注网站引擎基本原理及实现技术 ——索引技术网络爬虫辛辛苦苦的把网页爬回来之后…… 预处理系统主要工作信息抽取分词分类等处理工作生成正排发送到索引系统生成倒排索引。信息抽取去标签和去噪去标签构造 DOM 树。，Jsoup；tinyHTML，htmlParser 去噪去掉与正文不相关的广告或者其他信息。如广告，评论，导航条，版权信息，友情链接等等。分词分词的目的是为了提取文件特征，文件特征即网页内容的结构化表现形式。分词方法基于字符串匹配的分词方法基于理解的分词方法基于统计的分词方法基于字符串匹配的分词方法也叫做基于字典的分词方法，它是以字典为依据的。按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词典中找到某个字符串，则匹配成功，即识别出一个词。又分为三种：正向最大匹配法（由左到右的方向）；逆向最大匹配法（由右到左的方向）；最少切分法（使每一句中切出的词数最小）。基于理解的分词方法该方法又称基于人工智能的分词方法。它是利用汉语的语法知识和语义知识以及心理学知识进行分词，需要建立分词数据库、知识库和推理机。这种分词方法需要使用大量的语言知识和信息。目前还处在试验阶段。基于统计的分词方法又称为无字典分词，它的主要思想是：词是稳定的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻出现的概率或频率能较好地反映成词的可信度。可以对训练文本中相邻出现的各个字的组合的频度进行统计，计算它们之间的互现信息。分词工具 IkAnalyzer2012，国外有名的分析系统，也可以处理中文。使用简单。 NLPIR2014, NLPIR2015 ICTCLAS5.0 中科院开发的专门针对中文的分词系统，中文分词较准确，稍微麻烦点教育学院/n_new/3.34/2#学院/n/2.58/19#教育/vn/1.74/3#信息/n/1.74/3#工程/n/1.34/5#教学/vn/1.27/3# 网页特征提取所有分出来的词都要保留吗？我该如何取舍呢？只保留一定数量的能代表网页内容特征的关键词。最简单的就是统计词频，将出现频率最高的n个词保留。索引索引是对数据库表中一列或多列的值进行排序的一种结构。此处指的是将爬取的网页进行预处理之后的，将关于这个URL的信息存入数据库，被称为索引库。索引库中关于URL的信息不仅是组成页面内容的关键词及其特征(位置、格式等)，还有链接、更新情况等信息。建立倒排索引的基本过程（1）页面分析将原始页面的不同部分进行识别并标记，例如：title、keywords、content、link、anchor、评论、其他非重要区域等等；（2）对网页内容分词。分词的过程实际上包括了切词分词同义词转换同义词替换等等。以对某页面title分词为例，得到的将是这样的数据：term文本、termid、词类、词性等等；（3）之前的准备工作完成后，接下来即是建立倒排索引，形成{termdoc}，倒排索引(Inverted Index) 可以根据单词快速获取包含这个单词的文档列表。是实现“单词-文档矩阵”的一种具体存储形式。倒排索引的建立实际上在建立倒排索引的最后还需要有一个入库写库的过程，而为了提高效率这个过程还需要将全部term保存在文件头部，并且对数据进行压缩，这些涉及到的技术自行学习。建立索引两遍文档遍历法（2-Pass In-Memory Inversion）在第一遍扫描文档集合时，该方法并没有立即开始建立索引，而是收集一些全局的统计信息。比如文档集合包含的文档个数N，文档集合内所包含的不同单词个数M，每个单词在多少个文档中出现过的信息DF。每一项记载某个文档的文档ID和单词在该文档对应的出现次数TF。第一遍扫描的主要目的是获得一些统计信息，并根据统计信息分配内存等资源，同时建立好了单词相对应倒排列表在内存中的位置信息，即主要做些资源准备工作。在第二遍扫描的时候，开始真正建立每个单词的倒排列表信息，即对于某个单词来说，获得包含这个单词的每个文档的文档ID，以及这个单词在文档中的出现次数TF，这样就可以不断填充第一遍扫描所分配的内存空间。排序法（Sort-basedInversion）在建立索引的过程中，始终在内存中分配固定大小的内存，用来存放词典信息和索引的中间结果，当分配的内存被消耗光的时候，把中间结果写入磁盘，清空内存里中间结果所占内存，以用作下一轮存放索引中间结果的存储区。 ?中间结果如何存储，中间结果如何排序自行学习。归并法（Merge-basedInversion）。“归并法”对此做出了改进，即每次将内存中数据写入磁盘时，包括词