网站大量收购独家精品文档,联系QQ:2885784924

大数据管理与应用 课件 第十二章 Web分析.pptx

大数据管理与应用 课件 第十二章 Web分析.pptx

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第九章Web分析;01;?;Web分析的分类

Web数据的分类

作为Web分析的对象,Web数据包括内容数据(ContentData)、结构数据(StructureData)以及日志数据(UsageData)三种数据类型,分别对应于Web数据的语义(Semantic)、语法(Syntactic)与语用(Pragmatic)三个层次。

Web分析方法的分类

根据数据的类型,Web数据分析也可以分为三类:Web内容分析、Web结构分析和Web使用分析。;Web分析面临的挑战

Web数据的高度复杂性具体体现在数据的四个方面:

异构性

半结构化特性

动态性

存在噪声数据

有哪些信誉好的足球投注网站引擎是获取Web数据的一种重要手段,但是Web数据的复杂性以及常用获取数据方法的缺陷,导致有哪些信誉好的足球投注网站引擎在Web数据检索方面还存在以下问题:

丰度问题(AbundanceProblem)

有限覆盖问题(LimitedCoverageProblem)

检索接口的局限性

缺少个性化检索机制;Web文本挖掘

以Web文本为分析对象的文本挖掘被称为Web文本挖掘。Web文本挖掘主要通过应用数据挖掘技术从Web页面中的文本内容发现有价值的信息,帮助人们从大量的Web文本数据中找出隐藏的、潜在的关联模式。Web文本挖掘的主要功能包括预测和描述。

Web文本挖掘的过程与方法

Web文本数据的种类有很多,所以Web文本挖掘的种类也有很多。虽然Web文本挖掘的方法之间存在着差异性,但是这些方法遵循的处理过程一般都是相同的,如图12-2所示。;Web文本挖掘的方法主要包括文本摘要、文本分类和文本聚类等。

文本摘要是指从文本(集)中抽取关键信息,以简洁的方式对文本(集)中的主体内容进行总结。这样做可以使用户在不阅读全文的情况下就可以对文本(集)的内容有比较全面的了解,使用户判断是否需要对文本(集)深入阅读。

分类的方法被广泛地应用于人类社会与科学领域的各个方面,是人类保存和处理信息与知识的最有效的方式之一。在Web数据的处理中,文本分类是把一些被标记的文本作为训练集,按照文本属性和文本类别之间的关系模型,然后利用这种关系模型预测待标记的文本的类别。文本分类的效果可以用召回率和准确度来衡量。召回率是正确分类的文档数与实际相关文档数之比,而准确度是分类中正确分类的文档与总文档数之比。

文本聚类是指根据文本的不同特征划分为不同的簇,目的是使文档集合分成一个个的文档簇,要求归属于同一簇文本之间的差别尽可能的小,而不同簇间的文本之间的差别尽可能的大。文本聚类与文本分类不同,聚类没有预先对主题定义类别标记,这些标记需要通过聚类学习算法自动确定。;Web文本挖掘的应用

有哪些信誉好的足球投注网站引擎领域:Web文本挖掘可以充分利用WWW资源,提高有哪些信誉好的足球投注网站效率与精准度,使有哪些信誉好的足球投注网站引擎返回与用户检索条件更加匹配的结果,提高Web文档的利用价值。Web文本挖掘对有哪些信誉好的足球投注网站引擎的有哪些信誉好的足球投注网站结果做到了有效的文本聚类,如Google的“精化查询”。在信息检索领域,用聚类分析产生的聚类文件结构,能够改进检索的效果和效率。聚类分析能对有哪些信誉好的足球投注网站结果进行合理的整合:类似文档聚类的过程,按照页面摘要或页面之间的相似程度分为多个簇,相似度高的聚集在一个簇内,然后每个簇形成一个中心。

自然语言理解领域:自然语言理解是人工智能领域的一个重要方向,是一门新兴的边缘学科,以语言学为基础,内容涉及包括语言学、心理学、逻辑学、声学、数学和计算机科学在内的多个学科。从人工智能的角度来看,自然语言理解的任务是建立一种计算机模型,这种模型的功能要能够给出类似人的理解,可以分析回答自然语言提出的问题。Web中存在着海量的自然语言数据,如何处理和利用这些数据是一个亟待解决的问题。而利用Web文本挖掘的方法可以更有效地处理这些自然语言数据。

;Web多媒体挖掘

Web多媒体挖掘是指通过综合分析视听特性和语义,从大量的多媒体数据中发现隐含的、有价值的和可理解的模式,得出事件的趋向和关联,为用户提供决策支持。多媒体挖掘主要是针对图像、音频、视频以及综合的多媒体数据进行分析的,其包括图像挖掘、音频挖掘和视频挖掘等类型。

多媒体挖掘的主要方法

多媒体索引和检索

多媒体数据泛化和多维分析

多媒体数据的分类与预测

多媒体数据的关联分析;Web多媒体挖掘

多媒体挖掘系统的体系结构

预处理:多媒体数据挖掘中预处理的主要作用是利用内容处理技术,从大量的多媒体数据或多媒体数据库中提取有效的元数据。

多媒体数据集和元数据库:多媒体数据库或大型的多媒体数据集包含的多媒体数据十分庞大,有的可能包含几十万张图片、上千小时的音视频甚至更多。它们之间的结构与元数据库中的描述相关联,便于可视化表示和存取。

挖掘引擎:挖掘引擎内含一组挖掘算法,可以对元数据库和多媒体数据库进行挖掘处理。

用户接口:用户接口为用户提供与

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档