《数据挖掘与机器学习》课件 1.1.1 初识机器学习与数据挖掘、Python、Anaconda.pptx

下载文档

0
0
约2.87千字
约 15页
2024-12-31 发布于山东
举报
版权申诉
保障服务

《数据挖掘与机器学习》课件 1.1.1 初识机器学习与数据挖掘、Python、Anaconda.pptx

1、本文档共15页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

安装Python搭建数据挖掘与机器学习的编程环境

任务描述Python拥有NumPy、pandas、Matplotlib和scikit-learn等功能齐全、接口统一的库，能为数据挖掘与机器学习工作提供极大的便利。库的管理和版本问题，使得开发人员并不能够专注于研究，而是将大量的时间花费在与环境配置相关的问题上。基于上述原因，Anaconda发行版应运而生。

任务要求安装Anaconda。体验JupyterNotebook的基本功能。在体验Python的强大功能之前让我们先来了解一下机器学习吧！

初识数据挖掘与机器学习初识Python了解Python的Anaconda发行版

初识数据挖掘与机器学习数据挖掘与机器学习的概念数据挖掘知识发现模式识别机器学习数据库人工智能统计学数据挖掘（DataMining，DM）是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的信息的过程。机器学习（MachineLearning，ML）是一门多学科交叉专业，使用计算机作为工具并致力于真实实时的模拟人类学习方式，并将现有内容进行知识结构划分来有效提高学习效率。

初识数据挖掘与机器学习数据挖掘与机器学习的应用场景行业应用教育智能辅导、个性化学习、智能化评估等医疗智能医疗设备、医疗图像分析、健康监测、医疗诊断等制造业智能物流、工业自动化、质量控制、图像识别、自动驾驶等金融风险管理、信用评估、自动化交易等农业自动化喷灌系统、精准农业、智能化养殖等零售业智能化仓储、自动化物流、智能客服等交通运输智能交通管理、自动驾驶技术、智能公共交通等电力行业智能电网、能源管理、设备监控等娱乐智能游戏、虚拟现实、智能化演出等社交网络智能化推荐、情感分析、社交媒体管理、垃圾邮件过滤等数据挖掘与机器学习在许多领域都有应用，包括在农业、金融、制造业、医疗、教育、零售业、交通、建筑等领域。

初识数据挖掘与机器学习数据挖掘与机器学习的应用场景

初识数据挖掘与机器学习数据挖掘与机器学习的通用流程需求分析是数据分析环节的第一步，也是非常重要的一步，决定了后续的分析方向和方法。结合现有的数据情况，提出需求的整体分析方向、分析内容，最终和需求方达成一致意见。数据获取是数据挖掘与机器学习工作的基础，是指根据需求分析的结果提取、收集数据。网络数据是指存储在互联网中的各类视频、图片、语音和文字等信息。历史数据是指系统在运行过程中遗存下来的数据，其数据量随系统运行时间的增加而增长。实时数据是指最近一个单位时间周期（月、周、日、小时等）内产生的数据。数据预处理是指对数据进行数据合并、数据清洗、数据标准化和数据变换，并直接用于分析建模的这一过程的总称。数据合并可以将多张互相关联的表格合并为一张；数据清洗可以去除重复、缺失、异常、不一致的数据；数据标准化可以去除特征间的量纲差异；数据变换则可以通过离散化、哑变量处理等技术满足后期分析与建模的数据要求，贯彻高质量发展精神。在数据分析的过程中，数据预处理的各个过程互相交叉，并没有明确的先后顺序。分析与建模是指通过可视化分析、回归分析等分析方法，以及聚类模型、分类模型等模型，发现数据中有价值的信息，并得出结论的过程。分析与建模的方法按照目标不同可以分为几大类。如果分析目标是量化未来一段时间内某个事件发生概率的，那么可以使用两大预测分析模型，即回归预测模型和分类预测模型。如果分析目标是描述客户行为模式的，那么可以采用描述型数据分析方法，同时还可以考虑聚类模型等。模型评价是指对于已经建立的一个或多个模型，根据其模型的类别，使用不同的指标评价模型性能优劣的过程。常用的回归模型评价指标有平均绝对误差、均方误差、可解释方差值等。常用的分类模型评价指标有准确率（Accuracy）、精确率（Precision）、召回率（Recall）、ROC等。常用的聚类模型评价指标有ARI评价法（兰德系数）、AMI评价法（互信息）、FMI评价法和轮廓系数等。

初识PythonPython概念Python是面向对象、解释型计算机程序设计语言，具有高效的高级数据结构、简单高效的面向对象编程方式。无论对于初学者，还是对于在科学计算领域具备一定经验的工作者，它都极具吸引力。为Python提供快速数组处理、数值运算、绘图scikit-learnSciPyMatplotlibPythonNumPy包含分类器实现、聚类算法

初识PythonPython在数据挖掘和机器学习领域的优势包括开源工具和库、易学易用、丰富的机器学习算法、灵活性以及庞大的社区支持。这些优势使得Python成为了数据科学领域中最受欢迎的编程语言之一。Python数据挖掘与机器学习的优势易学易用大量的开源工具和库丰富的机器学习算法灵活性社区支持

初识

您可能关注的文档

文档评论（0）

xiaobao + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

《数据挖掘与机器学习》课件 1.1.1 初识机器学习与数据挖掘、Python、Anaconda.pptx