- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
本文由简悦SimpRead转码,原文地址
你好,从今天开始我们就进入了数据挖掘的第一课。这一我将借助5W1H的思想来带你从整体上
了解下数据挖掘,比如什么是数据挖掘、为什么要做数据挖掘、在哪些场景下用数据挖掘,以及怎么做
数据挖掘。在后面的里,我会从这条主线上逐渐细化,为这个“骨架”填充肌肉和血液,让它逐渐丰
满起来。
什么是数据挖掘?
这个问题看似很简单,但似乎也很难有一个明确的答案。
西的一种。
为什么要做数据挖掘?
技术与商业就像一对双生子,在互相促进中不断演进发展,随之而来的就是各大公司业务突飞猛进,很
多新模式也涌现出来,使得数据量激增。
面对数以千万甚至上亿,以及不同形式的数据,很难再用纯人工,或者纯统计的方法从成千上万的变量
中找到其隐含的价值。
我们需要一种规范的解决方案,能够利用并且充分利用这些数据里的每一个部分,通过一些自动化的机
器学习算法,从数据中自动提取价值。而数据挖掘就提供了这样一系列的框架、工具和方法,可以处理
不同类型的大量数据,并且使用复杂的算法部署,去探索数据中的模式。
总之,数据挖掘的产生动因主要有以下3点。
海量数据。随着互联网技术的发展,数据的生产、收集和也越来越方便,海量数据因此产
生。比如,我们常用的,每天要产生超过380亿条数据;今日头条每天要发布上百万的新文
章;每天有上千万的包裹要发出。
维度众多。在一个度的数据中,每增加一个维度都会增加数据分析的复杂程度。比如点外卖
涉及的维度就有:浏览饭店的菜品(形式有文字、或语言、等)、浏览时间、下单价
格、处理、分配配送员及GPS信息、完成订单后的评价等。
问题复杂。通常用数据挖掘解决的问题都比较复杂,很难用一些规则或者简单的统计给出结果。
如果让开发者写一个微波炉的智能控制逻辑,难度不是很大,即便是有十几个,甚至几十个按
钮的控制也不过是多花费一点时间而已。但如果编写一段代码来区分某中是否有一只猫
咪,那要考虑的问题就太多了,使用传统的方法很难解决,而这恰恰是数据挖掘所擅长的。
以上是我们进行数据挖掘的初衷,在后续的课程中你也会看到,随着这些问题的出现,它们在数据挖掘
中是如何被解决的。
数据挖掘有什么用处?
既然数据挖掘是法,那就要用它去解决一些问题。下面我就来具体讲一下你最关心的,也是最实
际的问题,数据挖掘到底有什么用处。
1.分类问题
新浪导航栏图
2.聚类问题
聚类与分类不同,聚类的类别预先是不清楚的,我们的目标就是要去发现这些类别。聚类的算法比较适
合一些不确定的类别场景。
比如我们出去玩,捡了一大堆不同的树叶回来,你不知道这些树叶是从什么树上掉落的,但是你可以根
据它们的大小、形状、纹路、边缘等特征给树叶进行划分,最后得到了三个较小的树叶堆,每一堆树叶
都属于同一个种类。
3.回归问题
简单来说,回归问题可以看作高中学过的解线性方程组。它的最大特点是,生成的结果是连续的,而不
像分类和聚类生成的是一种离散的结果。
比如,使用回归的方法预测某个房子的总价(y),假设总价只跟房子的面积(x)有关,那么我们
构建的方程式就是ax+b=y。如何根据已知x和y的值解出a和b就是回归问题要解决的。回归方法是
通过构建一个模型去拟合已知的数据(自变量),然后预测因变量结果。
4.关联问题
关联问题最常见的一个场景就是推荐,比如,你在京东或者购物的时候,在选中一个商品,往
往会给你推荐几种其他商品组合,这种功能就可以使用关联挖掘来实现。
京东组合推荐图
到这里,我们清楚了数据挖掘可以解决哪些问题,那具体应该怎么做呢?
数据挖掘怎么做?
数据挖掘,也是有方法论的。实际上,数据挖掘经过了数十年的发展和无数专家学者的研究,有很多人
提出了完整的流程框架,这对于我们来说简直是。当然,如果你在使用的过程中觉得这些东西有问
题,或者还有改进的空间,那也不要惧怕,尽信书则不如无书嘛。
在这里,我讲一个应用最多的CRISP-DM
您可能关注的文档
- 说明内容datalogic sdk reader first 1 me先阅读.pdf
- 之群如何看待效果.pdf
- 当代艺术究竟离普通民众有多远.pdf
- 放送亲朋好友一起来.pdf
- 计算固体力学与程序设计truss有限元大作业.pdf
- 原始由于铰链胫骨物轭状骨折导致旋转膝关节设计失败率回顾性数据分析文献综述yoke 2012.pdf
- 计算机操作系统参-a1.pdf
- 通信工区培训考试卷答案.pdf
- 说明案例往期be sweatshop final.pdf
- ydxwang工作室制作并ug100个典曲面教程.pdf
- 2025年国开中国当代文学专题学前自测10试题及答案.pdf
- 2025年国开公共行政学课程模拟测试一参考信息.pdf
- 轨道交通大修基地工程信号系统技术规格书.doc
- 2025年国开中国文学基础形考任务1.pdf
- 2025年国开《工程地质》所有形考任务答案.pdf
- 2025年国开《Windows网络操作系统管理》形考任务4 配置故障转移群集服务实训.pdf
- 2025年国开《Windows网络操作系统管理》形考任务2 配置本地帐户与活动目录域服务实训.pdf
- 2025年国开(中央电大)《教育学》十年期末考试案例分析题库(分学期版)【通用3篇】.pdf
- 2025年国库资金运行分析报告4篇国库资金运行分析报告.pdf
- 2025年土建工程师个人年终工作总结6篇.pdf
最近下载
- JR_T 0237-2021 金融大数据平台总体技术要求.docx
- 江西省吉安市第一中学2024-2025学年高一上学期第一次月考语文(原卷版).docx VIP
- 《Q∕CR9603-2015-高速铁路桥涵工程施工技术规程》.pdf
- 黑龙江大学《概率论》2022-2023学年第一学期期末试卷.doc VIP
- 我国进口牛羊肉行业市场营销方案.docx
- 中国伦理学会德育研究会班主任工作研究中心成立大会主题报告.ppt
- 学校校长年终工作总结.docx VIP
- 报考职位及人数.doc
- 新人教版数学六年级上册全册课本练习题精心可编辑.doc VIP
- 2024秋国开《市场营销原理与实务》形考任务1-4参考答案.doc
文档评论(0)