趋势分析中的一种增量数据挖掘方法研究.ppt

趋势分析中的一种增量数据挖掘方法研究.ppt

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
趋势分析中的一种增量数据挖掘方法研究

趋势分析中的一种增量数据挖掘方法研究 樊志领 趋势分析 趋势分析是数据挖掘的一个重要方面,描述了行为随时间变化的对象的规律或趋势,并对其建模。  趋势分析在市场调研、管理决策等方面有着广泛的应用,迄今为止人们已经提出了不少针对大规模数据库的趋势分析方法,关联分析法是其中重要的一种。 关联模式的不足之处 基于转移矩阵的数据挖掘算法 针对数据项集互不相容,交易时间跨度较大的交易集,提出了基于转移矩阵的数据挖掘算法。 其基本思想为:对于具有相同的前N年历史记录的顾客群G1与具有相同的前N-1年和今年的历史记录的顾客群G2,若G1的前N年历史记录与G2的前N-1年和今年的历史记录相匹配,则G1在今年对品牌的选择就成为G2在明年对品牌选择的概率分布。 转移矩阵算法时间复杂度 多个顾客在一定时间内购买情况 增量数据挖掘方法  设市场上某一种产品有N种不同的品牌,对其进行考察。将顾客消费该产品的数据从原始数据库抽取出来,经过数据清洗、转换,形成选择数据库如上表所示。此表为某超市POS机记录的牙膏销售的部分数据,为简单起见,取N=8,其中第8种表示牙膏的其他品牌,另外空白部分表示顾客在相对较长时间里(如一个月)没有在该超市购买牙膏。 数据的处理 从表中看出,经编码处理后,B顾客相继消费牙膏的不同品牌的记录可以写成序列:…4  7  0  3  8  2  4  2  4…。这是一个整数值随机变量序列,用数学语言可表达成。 马尔可夫链 对于整数值随机变量序列{xn, n≥0},给定非负整数i0, i1, ·······, in, in+1, 如果p(xn+1=in+1| x0=i0, x1=i1, ·····xn=in)= p(xn+1=in+1| x0=i0), 那么{xn, n≥0}是马尔可夫链。 变量的假设 根据概率知识,只要样本足够大,频率就能非常接近概率p。 定理 有整数值随机变量序列{xn, n≥0} (xn=1, 2, ······, N ) 和独立同分布随机变量序列{rn, n ≥1} ,如果n ≥1时,xn=f(xn-1,rn),且rn和{xn, n≥0}相互独立,那么 {xn, n≥0} (xn=1, 2, ······, N ) 是马尔可夫链,其转移概率pij=p{ f(i,rj) }。 转移概率的近似表示 定义iCount(i, k)函数为顾客在第k时段从消费i品牌产品转移到其他品牌产品(含i品牌产品自身)的次数总和;定义ijCount(i,j, k)函数 为顾客在第k时段从消费i品牌产品转移到j品牌产品的次数总和。其转移概率为:  关于转移概率的改进 新的数据对分析顾客的购买倾向起的作用要大,相应的对转移概率的贡献也要大,而老的数据则相反。因此需要对新的数据赋予较高的权重,对老的数据赋予较低的权重(即w1w2‥‥ws)。由k来提供这种可能性,把整个顾客消费时间分成s个时段,赋权后转移概率可改写为: 增量挖掘的实现 对于许多种类的大型数据库或数据仓库来说,增量挖掘是一个诱人的目标。增量挖掘方法与数据库更新结合在一起,不必重新挖掘全部数据就能进行知识更新、修正和加强先前业已发现的知识。   结束语 本文研究了在数据项集互不相容的情形下,进行趋势分析的数据挖掘方法,通过分析表明该方法具有简单、实用的特点。然而趋势是同时间密切相关的,数据的特征参数和分布也会随时问推移而发生变化。因而固定权重的使用会限制分析挖掘的效果。如何对历史数据的训练建立动态模型,还有待于进一步研究。 * * * 数据挖掘体会交流 可以利用转移概率矩阵的增量数据挖掘的方法,对顾客购买倾向进行挖掘和分析。该算法的时间复杂度为O(I N),其中I为数据项集,N为考虑的深度(即考虑前N年的交易历史)。显然当N增大时,该算法的时间复杂度成指数性增长,而N取较小时又无法充分利用历史数据。 增量数据挖掘方法可以解决该方法的时间复杂度问题 黑妹牙膏 白玉牙膏 草珊瑚牙膏 佳洁士牙膏 草珊瑚牙膏 3257 洁诺牙膏 草珊瑚牙膏 洁诺牙膏 草珊瑚牙膏 佳洁士牙膏 3256 洁诺牙膏 其他牙膏 草珊瑚牙膏 中华牙膏 洁诺牙膏 佳洁士牙膏 洁诺牙膏 3255 洁诺牙膏 草珊瑚牙膏 草珊瑚牙膏 洁诺牙膏 草珊瑚牙膏 高露洁牙膏 3254 洁诺牙膏 其他牙膏 草珊瑚牙膏 洁诺牙膏 佳洁士牙膏 中华牙膏 3253 洁诺牙膏 草珊瑚牙膏 白玉牙膏 其他牙膏 其他牙膏 3252 洁诺牙膏 佳洁士牙膏 草珊瑚牙膏 白玉牙膏 中华牙膏 黑妹牙

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档