- 1、本文档共16页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
项目名称 不确定数据流高效用频繁模式挖掘研究
项目负责人(签名)
所在学校(盖章)
1.本项目研究意义及国内外同类研究工作现状(附主要参考文献及出处):
研究意义:
本课题将“高效用频繁模式”的概念,及“跨数据流”和“跨事务”的组合模式概念拓展到不确定数据流领域,提出在多重不确定数据流上进行模式挖掘建模及算法研究的计算框架;其算法实现(作为开源软件发布)也可为数据分析行业的频繁模式挖掘提供计算工具。
研究背景、现状和动机:
频繁模式以事件发生的频度为依据,揭示数据表象所可能隐含的规律。例如,从金融数据流中识别出的频繁模式可用于发现可疑交易线索,医疗图像中的频繁模式可用于病灶的识别和分类等。随着社会行业对数据分析技术的需求演进,频繁模式挖掘的数据对象也从确定性数据、布尔型事件(事件发生与否)拓展到不确定数据(uncertain data)和包含效用(utility)的数据。数据的不确定性来源于数据产生、收集、存储和传输过程中的随机性因素、预处理中的统计计算、或数据概念本身的概率属性等;例如,根据对电子商务网站页面的访问记录,只能获得潜在客户对特定商品购买倾向的一个估计,即一个概率性指标。数据的“效用”值表示该数据的利润或重要度;例如购物单中商品的单价和数量等。由于数据的不确定性和数据的效用属性普遍存在于现实世界各个领域中,因此近年来高效用模式(high utility pattern)挖掘和不确定数据频繁模式挖掘等研究逐渐成为数据挖掘领域的研究热点之一。
但是,目前不确定数据集上的频繁模式挖掘,仅仅考虑了模式的期望支持数,而没有考虑到模式的效用值;同时缺乏对多数据流及模式的时间关联的综合考虑,难以满足数据分析行业的计算需求:
首先,在许多领域应用中,事件的“效用”(即收益,数值型属性)可能具有不确定性。例如,根据特定的投资策略对金融历史数据进行回测时,由于高频数据的随机波动性,预定的成交时间和成交价格不可能被精确实现,实现的收益也是一个不确定数据。因此,效用概念的建模应该导入不确定性,以适应此类计算需求。
其次,随着大数据应用的发展,特别是互联网、物联网的海量数据流和金融领域的高频数据的迅猛发展,数据流的综合分析已经成为大数据研究的关注点之一,因为对多个相互间有内在关联的数据流的综合分析(即 “跨流”分析),比仅仅分析单个数据流,更容易发现事物潜在的规律和模式。例如,综合大气温度、云层分布、风力变化等数据,对于估计未来飓风的形成,要比单独依赖一个因素更为可靠;根据多只股票的交易数据,结合社会和企业的经济状况,及各事件在时间上的先后关系(即“跨事务”关联)等信息,来寻找市场的发展趋势,比单纯考察一只股票的数据更为合理。因此,应考虑在多重数据流上、并考虑到模式之间的时间关联进行模式挖掘的建模研究。
综上所述,频繁模式挖掘领域的科学研究,其发展趋势,应将研究对象拓展到包含效用信息的多个不确定数据流上,研究其高效用频繁模式挖掘的相关模型及算法。此研究有着强烈的社会需求背景,其成果可广泛应用于金融业、商业、制造业、气象、环境、医疗乃至社会人文统计等各个领域。
国内外研究现状分析:
传统的频繁模式挖掘处理的是确定性的非数值型数据(“字面”数据),其典型算法包括Apriori[1]、FP-Growth[2]和H-Mine[3]等。随着不确定数据的迅速发展和业界对事务项效用值的重视,近年来,高效用模式挖掘和不确定数据上的频繁模式挖掘成为数据挖掘领域的热点之一,在KDD、ICDM 、1) 不确定数据中频繁模式挖掘
不确定不确定数据集
事务ID
事务项集
t1
(a: 0.8), (b: 0.7)
(d: 0.9), (f: 0.5)
t2
(c: 0.8), (d: 0.85), (e: 0.4)
t3
(c: 0.85), (d: 0.6), (e: 0.6)
…
…
不确定,其中t是事务,P(X, t)根据独立同分布原则由X中的所有事务项在事务t中的概率的乘积给出。
不确定的频繁模式挖掘算法主要分为逐层挖掘(level-wise)和模式增长(pattern-growth)两种基于AprioriFP-Growth算法。静态数据集
表2列出了重要算法及其特征。逐层挖掘
时间
研究者
论文出处
算法
方法
/精确
2007
Chui C K
Kao B
PAKDD 2007
U-Apriori[4]
level-wise, candidate-test
精确
2007
Leung C
S, Carmichael C L, Hao B
ICDM
文档评论(0)