数据挖掘学习汇报讲述.pptx

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘学习汇报讲述

2016/11/15 秦华妮 五邑大学数学与计算科学学院 关于数据挖掘的学习汇报 一 暑期学习介绍 二 数据科学 三 案例 1.1课程名称和主讲教师(北京大数据研究院暑期学校) 一、 暑期学习介绍 1.2专题:fundamental techniques in Big Data(李平) 用数据的方法研究科学的最典型的例子:开普勒的关于行星运动的三大定律 二、数据科学 开普勒模式与牛顿模式 2.2 从数学的角度研究数据? 数 据 数据建模 整个数学模型 相关性、排序、分类、聚类 度量结构 网络结构 代数结构 拓扑结构 函数结构 表格、点集、时间序列、图像、视频、文本等 概率分布、随机过程、随机场、图模型等 算法及实现 (数据分析的困难) 降低算法的复杂度 分布式计算 2.3 数据挖掘的综合技能 数学的基础知识 计算机科学的基础知识 算法方面的基本知识 数据的模型 专业课程 其它专业课程 微积分 计算机语言 数值代数 回归 图像处理 生物信息学 线性代数 数据库 函数逼近 分类 时间序列分析 天体信息学 概率论 数据结构 优化理论 聚类 视频处理 金融数据分析 可视化技术 蒙特卡洛方法 参数估计 自然语言处理 网络算法 文本处理 计算几何 语音识别 推荐系统 另外,随机过程、函数逼近论、图论、拓扑学、几何、变分法、群论的基础知识。 数学系不需要一门一门的开设,而是可以开设一些新的“高等数学”课程来覆盖这些方面的内容 2.4 北大数据科学专业的探索 2.5 数据挖掘的10个重要算法 (1)K均值(K-means)方法 (2)支持向量机(SVM)方法 (3)期望最大化(EM)算法 (4)网页排序算法(PageRank) (5)贝叶斯方法 (6)K近邻方法 (7)AdaBoost (8)决策树算法 (9)关联规则Apriori算法 (10)协同过滤方法(Collaborative Filtering) 其他数据分析过程中常用的方法还有:降维(主成分分析、线性判别分析)、随机森林、Bagging方法、序列标注模型(隐马模型、条件随机场)、EM和高斯混合模型 (2006年IEEE国际挖掘会议选出) 2.6 数据挖掘的一般过程: 三、案例 案例1、 智慧餐饮 案例2 、中医辅助决策 案例3、 商圈分析 餐饮企业的信息化管理 (传统部分): (1)客户关系管理 (2)前厅管理系统 (3)后厨管理系统 (4)财务管理系统 (5)物资管理系统 餐饮企业的数据挖掘 (创新部分): 菜品智能推荐、 客户价值分析、 新店选点优化、 热销/滞销菜品分析 销量趋势预测 案例1、智慧餐饮 餐饮企业某一个月菜品的销售数据如下: (1)销售数据的帕累托柱状图: 分析可知:畅销菜:A1, A2,A3;滞销菜:A8,A9,A10; 并且,A1~A7占菜品份额的70%,但是总盈利占月盈利额的85.0033%,可以增加投入。 结果第一行解释为: 客户同时点e与a的概率时30%,而点了e必点a的概率是100%. 餐饮企业某段时间的点餐清单: (2)根据Apriori算法,可得如下规则: 消费行为特征数据如下: (3)消费客户群的价值分析: 客户群体1的R、F、M的概率密度函数图: 客户群体1特点:R间隔相对较小,主要集中在0~30天;消费次数集中在10~25次,消费金额在500~2000元 客户群体2的R、F、M的概率密度函数图: 客户群体2特点:R间隔相对较小,主要集中在0~30天;消费次数集中在0~12次,消费金额在0~1800元 客户群体3的R、F、M的概率密度函数图: 客户群体3特点:R间隔相对较大,主要集中在30~80天;消费次数集中在0~15次,消费金额在0~2000元 客户价值分析如下: 智慧营销策略: 客户群体1:资源优先保持,差异化管理,提高这类客户的忠诚度与满意度,尽可能延长这类客户的高水平消费; 客户群体2:加强促销手段,加强满意度,提高他们转向竞争对手的转移成本,逐渐使其成为忠诚客户; 客户群体3:采取一定的营销手段,重点联系,争取延长客户的生命周期。 客户群体1:高消费、高价值人群; 客户群体2:一般客户人群; 客户群体3:价值较低的客户群体。 采用TSNE数据降维将数据进行可视化 其中红色代表客户群体1,绿色代表客户群体2,蓝色代表客户群体3 案例2、中医辅助决策 肝气郁结证型系数 热毒蕴结证型系数 冲任失调证型系数 气血两虚证型系数 脾胃虚弱证型系数 肝肾阴虚证型系数 0.175 0.682 0.171 0.535 0.419 0.447 0.3 0.773 0.293 0.372 0.442 0.132 …… …… …… …… …… ……

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档