- 1、本文档共36页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《数据挖掘》课程PPT_分类和预测解读
* Data Mining: Concepts and Techniques * SVM—当数据是线性可分的时候 m 设给定的数据集 D 为 (X1, y1), …, (X|D|, y|D|), 其中Xi是训练元组,具有相关联的类标号yi。 可以画出无限多条分离直线(或超平面)将类+1的元组与类-1的元组分开,我们想找出“最好的”那一条 (对先前未见到的元组具有最小分类误差的那一条)。 SVM 要有哪些信誉好的足球投注网站具有最大边缘的超平面,即最大边缘超平面 (MMH) 其他分类方法 k-最临近分类 给定一个未知样本,k-最临近分类法有哪些信誉好的足球投注网站模式空间,找出最接近未知样本的k个训练样本;然后使用k个最临近者中最公共的类来预测当前样本的类标号 基于案例的推理 样本或案例使用复杂的符号表示,对于新案例,先检测是否存在同样的训练案例;如果找不到,则有哪些信誉好的足球投注网站类似的训练案例 遗传算法 结合生物进化思想的算法 粗糙集方法 模糊集方法 允许在分类规则中定义“模糊的”临界值或边界 什么是预测? 预测是构造和使用模型评估无样本类,或评估给定样本可能具有的属性或值空间。 预测和分类的异同 相同点 两者都需要构建模型 都用模型来估计未知值 预测当中主要的估计方法是回归分析 线性回归和多元回归 非线性回归 不同点 分类法主要是用来预测类标号(分类属性值) 预测法主要是用来估计连续值(量化属性值) 线性回归、多元回归和非线性回归 线性回归:Y = ? + ? X 其中?和?是回归系数,可以根据给定的数据点,通过最小二乘法来求得 多元回归:Y = ? + ?1X1 + ?2 X2 线性回归的扩展,设计多个预测变量,可以用最小二乘法求得上式中的?,?1 和?2 非线性回归:Y = ? + ?1X1 + ?2 X22+ ?3 X33 对不呈线性依赖的数据建模 使用多项式回归建模方法,然后进行变量变换,将非线性模型转换为线性模型,然后用最小二乘法求解 评估分类法的准确性 导出分类法后,再使用训练数据评估分类法,可能错误的导致乐观的估计 保持方法 给定数据随机划分为两个集合:训练集(2/3)和测试集(1/3) 训练集导出分类法,测试集对其准确性进行评估 随机子选样:保持方法的一个变形,将保持方法重复k次,然后取准确率的平均值 k-折交叉确认 初始数据被划分为k个不相交的,大小大致相同的子集S1,S2…Sk 进行k次训练和测试,第i次时,以Si做测试集,其他做训练集 准确率为k次迭代正确分类数除以初始数据集样本总数 提高分类法的准确性 Bagging技术和boosting技术都通过将T个学习得到的分类法C1,C2…CT组合起来,从而创造一个改进的分类法C* Bagging技术 对训练集S进行T次迭代,每次通过放回取样选取样本集St,通过学习St得到分类法Ct 对于未知样本X,每个分类法返回其类预测,作为一票 C*统计得票,并将得票最高的预测赋予X Boosting技术 每个训练样本赋予一个权值 Ct的权值取决于其错误率 * * 分类和预测 分类 VS. 预测 分类和预测是两种数据分析形式,用于提取描述重要数据类或预测未来的数据趋势 的模型 分类: 预测类对象的分类标号(或离散值) 根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据 预测: 建立连续函数值模型 比如预测空缺值,或者预测顾客在计算机设备上的花费 典型应用 欺诈检测、市场定位、性能预测、医疗诊断 分类和预测---示例 分类 银行贷款员需要分析数据,来弄清哪些贷款申请者是安全的,哪些是有风险的(将贷款申请者分为“安全”和“有风险”两类) 我们需要构造一个分类器来预测类属编号,比如预测顾客属类 预测 银行贷款员需要预测贷给某个顾客多少钱是安全的 构造一个预测器,预测一个连续值函数或有序值,常用方法是回归分析 数据分类——一个两步过程 (1) 第一步,也成为学习步,目标是建立描述预先定义的数据类或概念集的分类器 分类算法通过分析或从训练集“学习”来构造分类器。 训练集由数据库元组(用n维属性向量表示)和他们相对应的类编号组成;假定每个元组属于一个预定义的类 训练元组:训练数据集中的单个元组 学习模型可以用分类规则、决策树或数学公式的形式提供 数据分类——一个两步过程 (2) 第二步,使用模型,对将来的或未知的对象进行分类 首先评估模型的预测准确率 对每个测试样本,将已知的类标号和该样本的学习模型类预测比较 模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比 测试集要独立于训练样本集,否则会出现“过分拟合”的情况 第一步——建立模型 训练数 据集 分类算法 IF rank = ‘professor’ OR years 6 THEN tenured = ‘yes’ 分类规则 第二步——用模型进行分类 分类
文档评论(0)