关联规则挖掘算法在股票预测中的应用研究_基于遗传网络规划的方法.docx

下载文档 降价啦

3
0
约6.5千字
约 4页
2018-12-10 发布于江西
举报
版权申诉
保障服务

关联规则挖掘算法在股票预测中的应用研究_基于遗传网络规划的方法.docx

1、本文档共4页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

关联规则挖掘算法在股票预测中的应用研究_基于遗传网络规划的方法

关联规则挖掘算法在股票预测中的应用研究—基于遗传网络规划的方法□陈艳褚光磊（上海财经大学统计与管理学院，上海200433）［摘要］将遗传网络规划用于解决数据挖掘中的关联规则问题。相对于传统的关联规则挖掘算法，基于遗传网络规划的方法通过其中的遗传算子能够以递增的方式发现关联规则，从而避免了传统方法需要将全部数据库遍历才能得到规则的局限性。通过将要挖掘的关联规则定义为事务间的关联规则，以解决股票市场中的价格预测问题。［关键词］遗传网络规划；数据挖掘；遗传算法；关联规则；股票预测［中图分类号］F830.91 ［文献标识码］A ［文章编号］1003－1154（2014）03－0013－03关联规则是数据挖掘领域中一个重要的研究方向。关联规则问题最初是由Agrawal［1］提出的，研究隐藏于大型数据库中的数据项之间的关系。事务间关联规则可以看作是普通关联规则的一个拓展，它将原来基于单交易的关联规则推广到了多条交易中，这种跨事务间的特性使得关联规则算法可以广泛应用于预测问题中。本文基于遗传网络规划的方法挖掘事务间的关联规则，并将得到的规则应用于股票市场的价格趋势预测中。在关联规则的研究中，核心的问题是关于挖掘算法的设计，其中常用的方法是Agrawal提出的Apri-ori算法。在大型数据库的条件下，学者们提出了基于进化计算的关联规则的挖掘算法。Freitas［2］在其著作中介绍了运用进化算法的思想进行关联规则挖掘的方法。我国学者针对应用遗传算法挖掘关联规则的问题，也提出了相应的方法。如武兆慧等［3］利用模拟退火遗传算法进行关联规则的挖掘；许国艳和史宇清［4］则利用遗传算法解决关联规则的挖掘问题。一、基于遗传网络规划（GNP）的事务间关联规则挖掘算法（一）遗传网络规划模型结构遗传网络规划是基于遗传算法与遗传规划提出的一种新型进化算法。遗传算法的基本原理，是将优化问题的一个可行解作为种群的一个个体。通常采用一定的编码方法对解集进行编码。采用随机的方法得到一定数量的个体组成一个种群。设定一个合适的适应度函数对每个个体进行评价。然后通过遗传算子（选择、交叉、变异）得到更好的种群，也就是相应优化问题的更优解。遗传网络规划（GeneticNetworkProgramming）保留了遗传算法的迭代进化的思想，同时用网络图形的结构描述所要研究的问题，将遗传算法所适合研究的优化问题进行扩展，以便能够用于解决更复杂的优化问题。（二）基于遗传网络规划的事务间类关联规则挖掘1.事务间类关联规则的定义将传统的关联规则推广到事务间类关联规则，是将其数据项进行扩展，相同的数据项在不同的交易中，可作为不同的数据项来处理。设I赞=｛i ，i ，1112……，i1m，……，in1，in2，……，inm｝为有n×m项组成的项集，每一个iij=（i=1，2，……，nj=1，2，……，m）表示交易i中的数据项j，因此当p=q时，ipj＝iqj。事务间类关联规则的定义可以表示为：R赞：X→Y，其中X哿I赞，Y哿C。2.基于GNP的事务间类关联规则挖掘算法利用GNP对事务间类关联规则进行挖掘，需要对GNP的模型结构进行一系列的设定。具体方法为：定义一个称为判断节点链的结构，即将判断节点按顺序连接起来，如图1所示。一个判断节点链表示一个事务，每一个判断节点用于容纳一个数据项，并作为关联规则前项中的一个数据项。判断节点中包含If-［基金项目］国家自然科学基金资助项目；上海财经大学博士研究生创新基金（CXJJ-2012-421）.2014年第33期13FinanceResearch财政金融FinanceResearchThen类型的判断结构，当满足条件时，下一个判断节点被选中；如果没有满足条件，则指向执行节点，进而再指向下一个判断节点，它决定了下一个判断节点链中被选中的判断节点。在确定了判断节点链之后，可将w个节点链组合起来成为一个节点链集，如图1所示。其中w即是滑动窗口的窗宽，这里用窗口的概念将事务内关联规则拓展到事务间关联规则的问题。如表1所示，给定的窗口宽度为4，即用前3天的数据预测下一天分类c的取值。利用该结构，可以对事务间的类关联规则进行挖掘。那么，支持度和置信度的计算方法如下：Ck［ip1］［iq2］…［itm］sup（r）=N-S （r）maxC［i］［i］…［i］k p1q2tmconf（r）=X［i］［i］…［i］p1q2tm其中，S（r）是用于修正事务间关联规则的支持max度，N表示所有数据集的数量。2除了支持度和置信度以外，本文还引入了χ指标，用于表示关联规则前项与后项的相关关系，并设定χ的最小阈值，用于发现那些前项与后项间有显著关系的规则。χ 的计算方法定义如下：222（N-Smax（r））（z-xy）2χ（r）