网络数据挖掘考试重点.doc

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络数据挖掘考试重点网络数据挖掘考试重点

《Web Data mining》复习与总结 课程主要内容 数据挖掘概述 + WEB数据挖掘 数据挖掘(ch1 概述):又被称为数据库中的知识发现(KDD)。是指从数据源(如DB、文本、图片、万维网等)探寻有用的模式或知识的过程。这些模式必须是有用的、有潜在价值的、并且是可以被理解的。数据挖掘是一门多学科交叉的学科,包括机器学习、统计、数据库、人工智能、信息检索和可视化。 WEB数据挖掘(ch6-12)的目标是从web超链接、网页内容和使用日志中探寻有用的信息。依据挖掘过程中使用的数据类别,web挖掘的任务划分为三种主要的类型:web结构挖掘、web内容挖掘和web使用挖掘。 web结构挖掘:从表征web结构的超链接中寻找知识。Ch6-ch8:信息检索与web有哪些信誉好的足球投注网站;链接分析;web爬取。 web内容挖掘:从网页内容中抽取有用的信息和知识。Ch9-ch11:结构化数据抽取:包装器生成;信息集成;观点挖掘。 web使用挖掘:从记录每位用户点击情况的使用日志中挖掘用户的访问模式。Ch12:web使用挖掘 各章主要知识点 (ch1)概述——主要知识点 万维网、超文本、超链接、超媒体的概念; HTTP,HTML,URL, WEB,TCP/IP的含义; Web数据的特点:P5-6; 数据挖掘的定义、数据挖掘任务、KDD过程、KDD的数据类型等; Web数据挖掘的定义、分类、web数据挖掘过程等。 关联规则、列模式挖掘、分类与预测、聚类挖掘的基本概念及挖掘思想。 WEB结构挖掘:包括——信息检索与WEB有哪些信誉好的足球投注网站、链接分析、WEB爬取 (ch6)信息检索与web有哪些信誉好的足球投注网站 基本概念: (1)信息检索IR:即帮助使用者从大号的数据集信息中发现需要的资料。了信息的采集、组织、存储、检索及分发。根据用户的查询信息得到相应的一组文档,得到的结果根据其与用户查询信息的相关程序排序,最常用的用户查询信息是一组关键字(又称词)。其基本信息是单个文档,大量的文档形成文本数据库。 (2)web有哪些信誉好的足球投注网站:是信息检索的一个重要分支。区别于信息检索的特点是:效率是WEB有哪些信誉好的足球投注网站的一个最为重要的问题;网页与传统信息检索系统中使用的普通文档不同:(1)具有超链接以及锚文本、(2)网页是半结构化的、(3)网页中的内容基本上是有组织的,并且在一些??构块中出现;作弊技术是网络上的一个重要的问题。 (3)IR基本架构:用户查询(关键字查询、布尔查询、短语查询、邻近查询、全文查询、自然语言查询等)+查询操作(作简单预处理如STOP WORDS删除等发送到检索引擎、或处理用户反馈——关联性反馈)+索引器(为提高查询效率对原始文档用某种数据结构做索引,形成文档索引——返回文档索引,如倒排索引)+检索系统(为每个索引文档计算与查询的相关度分数) 关键字查询 布尔查询 短语查询 邻近查询 全文查询 自然语言查询 预处理 关联性反馈 倒排索引 计算文档与查询的相关度分数 布尔模型(布尔查询:AND、OR、NOT) 向量空间模型(TF表、TF-IDF表、查询、相关度排名) 语言模型 概率模型 关联性反馈 (4)查全率(recall)、查准率(precision)、查准率-查全率曲线(PR曲线)、排名查准率(rank precision)、F-score (5)网页预处理:移除停用词、词干提取、数字、连字号、标点、字符大小写的处理;辨别不同的字段;辨别锚文本;移除HTML标签;辨别主要内容块; (6)副本探测(对整个文本Hash——MD5算法;基于n元短语的副本探测技术):即复制页面,可减少索引大小,改善有哪些信誉好的足球投注网站效率; 镜像:复制站点的技术。 (7)倒排索引:是一张列表,包含了每一个不同的词和包含该词的文档列表。可加快检索和查询的速度。其本身构建速度也非常快。记录格式:〈idj,fij,[o1,o2,…..o|fij|]〉 倒排索引的建立及压缩: 有哪些信誉好的足球投注网站引擎——基于向量空间模型和词匹配模型。爬取网页!! 元有哪些信誉好的足球投注网站引擎和组合多种排序:略 网络作弊的概念及分类: 内容作弊(词组作弊):标题、元标记、正文、锚文本、网址。如内容重复、或添加其他不相关的 链接作弊(影响知名度分数):链出链接作弊(指向中心页面——目录克隆)或链入链接作弊(创建蜜罐、网络目录中添加链接、用户生成内容是添加链接、交换链接、自发添加等) 隐藏技术:内容隐藏(隐藏垃圾项)、掩饰技术(垃圾网络服务器、重定向技术等) 抵制作弊:分类处理——区别对待内容作弊、链接作弊、隐藏技术等;信任排名方法可用。 2、主要知识点 IR系统的基本架构及原理 用户查询的主要形式:关键字查询、布尔查询、短语查询、邻近查询、全文查询、自然语言查询的含义 查询操作 索引器 检索系统 信息检索模型 主要有四种信息检索模型:布尔模型、向量空间模型、语言模型、概率模型。 熟悉布尔模型、

文档评论(0)

ganqludp + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档