- 1、本文档共26页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘在公司财务中的应用
数据挖掘在股票投资上的应用
作 者:李建兰 卢志辉 欧思钰 吴兆麟
班 级:10 统计
指导老师:蒋盛益
报告提交时间:2012年12月17日
目录
摘要 2
第一章 绪论 2
1.1 研究背景 2
1.2 研究意义 3
1.3 可行性分析 3
1.4 数据挖掘在证券领域的应用状况 4
1.5 数据挖掘方法介绍 5
1.6 实验步骤 9
1.7本文的创新之处: 10
第二章 运用数据挖掘方法构建我国民企上市公司投资模型 10
2.1 研究对象 10
2.2 样本选择 11
2.3 指标选择 11
2.3.1建立上市公司绩效评价指标体系的原则 11
2.3.2指标体系结构设计 12
2.3.3指标解释 13
2.4 数据来源说明 15
2.5 数据预处理 15
2.6构建CART树模型 16
2.7 C5.0树模型分析 20
模型评估 22
本文局限性 23
1 数据指标存在局限性 23
2 分析方法存在局限性 23
3 研究深度的局限性 23
组内分工及心得体会 24
摘要
股票中的分析一直以来都是研究的重点,股票价格趋势和股票投资的预测一直以来都是研究的内容,本文通过数据挖掘的经典算法,采用CART树和C5.0对上市A股的财务指标进行分析,并通过2006年每股季收益率对上市我国上市A股进行划分为值得投资的类型股票和不值得投资的类型的股票,对其股票的11项财务指标进行决策树算法分析,发现其存在的规则,并采用测试样本对决策树进行测试,并通过累积增益图进行评判。从而为股票投资提供一定的建议。
关键词:数据挖掘 股票 CART模型 C5.0模型 预测
第一章 绪论
1.1 研究背景
股票于1773年在英国率先发行,至今己有二百多年。我国于1985年发行第一支股票,现已拥有沪、深两大证券交易所、上百家证券公司、3000多个证券营业部、7000多万证券投资者。中国的股票市场用近十五年的时间走过了资本主义国家用近百年的历程,虽然取得一定的成就,但也产生了不少问题,由于股市行情受经济、政治等因素(如发行公司的经营状况和财务状况、股上市、利率水平、汇率变动、国际收支、物价因素、经济周期、经济政策等的作用,其内部规律非常复杂,变化周期无序。经过证监会近年来的监管和努力以及经济市场化程度的提高,市场运作体制机制和政府宏观调控的不断完善,我国股票市场的发展也会逐渐步入理性运行的区间,逐渐有理有迹可循。而投资者的资金不断被蒸发掉,投资者的收益参差不齐,严重不均,迫切需要一个合理的模型来分析和预测每股的收益率,给投资者一个清晰明了的收益指标
1.2 研究意义
股票市场是金融市场上最重要的一部分,少数投资者在这里成为富豪,然而数以千万投资者的资金被套牢或者蒸发掉。自从股市诞生以来,无数的分析方法被前人总结和论证出来,此外,人们也试图用统计或者数学软件如SPSS、SAS来做回归分析建立模型来预测股价。可是这些传统的预测技术有一个最根本的困难,那就是待处理的数据量非常巨大,如股票市场每天、每时、每刻都在生产大量的数据,不仅有上市公司的K线数据,上市公司的交易量数据,还有公司的财务报表的数据,送股、转股、分红的数据等等。那是因为股市的行情受到政治、经济等多方面因素的影响,其内部规律错综复杂,某些变化规律的周期可能是一年甚至是几年,因此需要通过对大量数据的分析才能得到,而传统的预测技术在这方面的作用不大。
自从数据挖掘学科被建立起来至今已有16年多,它取得了很大的发展和完善,包括在理论和应用方面的作用被前人发掘出来。且各种数据挖掘技术的应用极大地推动了人们分析、处理大量数据信息的能力,弥补了传统预测技术的缺陷,并为人们带来了合理的预测和丰厚的经济效益。本文提出了用数据挖掘的方法来分析2006年制造业A股的公司,通过用神经网络、贝叶斯网络等数据挖掘方法,选择较为恰当的属性指标,如资产负债率,建立一套可行的评估收益的体系。
而其现实意义:在现实的股票分析过程中,通过对各上市公司的盈利能力、营运能力等进行神经网络等数据挖掘方法的分析,可以准确和合理直观地发现并得出哪些指标与每股收利率有关的结论。并且随着统计软件的不断发展,我们可以轻松利用Clementine等统计软件对数据进行分析处理,而不用考虑其复杂的算法和抽象的公式。用数据挖掘方法进行证券分析具有非常现实的意义。
1.3 可行性分析
本课题的可行性主要有以下理由:
数据真实
本课题数据来自于广东外语外贸大学的学校数据库国泰安金融数据库研究中心,国泰安金融数据库是国内第一家,也是比较大从事金融、经济信息精准数据库设计开发的专业高科技公司,具有比较完备的数据库,本小组组员们本着十足的信任选择了2006年制造业A股上市公司股票进行了分析。
选取的指标具有较高的科学性及可操作性
由于源数据过于
文档评论(0)