网站大量收购闲置独家精品文档,联系QQ:2885784924

数据挖掘到底在解决什么问题海量资源.pdfVIP

数据挖掘到底在解决什么问题海量资源.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

本文由简悦SimpRead转码,原文地址

你好,从今天开始我们就进入了数据挖掘的第一课。这一我将借助5W1H的思想来带你从整体上

了解下数据挖掘,比如什么是数据挖掘、为什么要做数据挖掘、在哪些场景下用数据挖掘,以及怎么做

数据挖掘。在后面的里,我会从这条主线上逐渐细化,为这个“骨架”填充肌肉和血液,让它逐渐丰

满起来。

什么是数据挖掘?

这个问题看似很简单,但似乎也很难有一个明确的答案。

西的一种。

为什么要做数据挖掘?

技术与商业就像一对双生子,在互相促进中不断演进发展,随之而来的就是各大公司业务突飞猛进,很

多新模式也涌现出来,使得数据量激增。

面对数以千万甚至上亿,以及不同形式的数据,很难再用纯人工,或者纯统计的方法从成千上万的变量

中找到其隐含的价值。

我们需要一种规范的解决方案,能够利用并且充分利用这些数据里的每一个部分,通过一些自动化的机

器学习算法,从数据中自动提取价值。而数据挖掘就提供了这样一系列的框架、工具和方法,可以处理

不同类型的大量数据,并且使用复杂的算法部署,去探索数据中的模式。

总之,数据挖掘的产生动因主要有以下3点。

海量数据。随着互联网技术的发展,数据的生产、收集和也越来越方便,海量数据因此产

生。比如,我们常用的,每天要产生超过380亿条数据;今日头条每天要发布上百万的新文

章;每天有上千万的包裹要发出。

维度众多。在一个度的数据中,每增加一个维度都会增加数据分析的复杂程度。比如点外卖

涉及的维度就有:浏览饭店的菜品(形式有文字、或语言、等)、浏览时间、下单价

格、处理、分配配送员及GPS信息、完成订单后的评价等。

问题复杂。通常用数据挖掘解决的问题都比较复杂,很难用一些规则或者简单的统计给出结果。

如果让开发者写一个微波炉的智能控制逻辑,难度不是很大,即便是有十几个,甚至几十个按

钮的控制也不过是多花费一点时间而已。但如果编写一段代码来区分某中是否有一只猫

咪,那要考虑的问题就太多了,使用传统的方法很难解决,而这恰恰是数据挖掘所擅长的。

以上是我们进行数据挖掘的初衷,在后续的课程中你也会看到,随着这些问题的出现,它们在数据挖掘

中是如何被解决的。

数据挖掘有什么用处?

既然数据挖掘是法,那就要用它去解决一些问题。下面我就来具体讲一下你最关心的,也是最实

际的问题,数据挖掘到底有什么用处。

1.分类问题

新浪导航栏图

2.聚类问题

聚类与分类不同,聚类的类别预先是不清楚的,我们的目标就是要去发现这些类别。聚类的算法比较适

合一些不确定的类别场景。

比如我们出去玩,捡了一大堆不同的树叶回来,你不知道这些树叶是从什么树上掉落的,但是你可以根

据它们的大小、形状、纹路、边缘等特征给树叶进行划分,最后得到了三个较小的树叶堆,每一堆树叶

都属于同一个种类。

3.回归问题

简单来说,回归问题可以看作高中学过的解线性方程组。它的最大特点是,生成的结果是连续的,而不

像分类和聚类生成的是一种离散的结果。

比如,使用回归的方法预测某个房子的总价(y),假设总价只跟房子的面积(x)有关,那么我们

构建的方程式就是ax+b=y。如何根据已知x和y的值解出a和b就是回归问题要解决的。回归方法是

通过构建一个模型去拟合已知的数据(自变量),然后预测因变量结果。

4.关联问题

关联问题最常见的一个场景就是推荐,比如,你在京东或者购物的时候,在选中一个商品,往

往会给你推荐几种其他商品组合,这种功能就可以使用关联挖掘来实现。

京东组合推荐图

到这里,我们清楚了数据挖掘可以解决哪些问题,那具体应该怎么做呢?

数据挖掘怎么做?

数据挖掘,也是有方法论的。实际上,数据挖掘经过了数十年的发展和无数专家学者的研究,有很多人

提出了完整的流程框架,这对于我们来说简直是。当然,如果你在使用的过程中觉得这些东西有问

题,或者还有改进的空间,那也不要惧怕,尽信书则不如无书嘛。

在这里,我讲一个应用最多的CRISP-DM

文档评论(0)

zhishifuwu + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档