- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于集成学习高送转股票探究
基于集成学习高送转股票探究 【摘要】高送转预案公告发布前,高送转股票具有显著的累计正收益,因此预测高送转股票对于投资具有重要意义。高送转股票的预测是分类预测问题,本文利用上市公司三季度财报数据,采用3种集成学习算法:由K-近邻算法、决策树以及加lasso惩罚项的逻辑斯蒂回归算法构建预测模型――“组合”模型,经典的集成学习算法――AdaBoost算法以及随机森林算法进行建模。本文采用准确率以及G-mean作为模型评价标准,结果显示:“组合”模型的准确率最高,随机森林和“组合”模型的G-mean表现相当,均优于adaboost算法。由于每年高送转股票所占比例小于50%,数据可以看成是非平衡数据,为了改善“组合”模型较差的召回率,本文采用K-Means聚类的欠抽样方法,将此方法用在“组合”模型上,效果显著。最后分别对上面三种模型预测的股票构建投资组合,并以HS300指数做基准。结果显示:“组合”模型预测得到的高送转股票组合表现优于另外两种集成学习模型
【关键词】高送转 集成学习 非平衡数据 投资组合
一、引言
所谓“高送转股票”是指上市公司大比例送红股或大比例以资本公积金转增股票,市场送转股比例超过0.5的股票为“高送转股票”。虽然上市公司送股、转增股票及不影响其当期现金流,也不影响其未来现金流,从而这种分红并不影响公司价值,但高送转事件向市场传递了公司发展良好、行业发展前景乐观的信息,这导致不少投资者盲目的投资具有高送转概念的股票。据文献研究:中国股市具有明显的高送转公告效应,即高送转股票在预案日公布前会出现正的超额收益率[1],陈珠明(2010)通过实证研究发现:高送转股票在预案公告日之前具有显著的超额收益[2],因此,投资者为了在高送转事件中获取更多的超额收益率,在公告前预测高送转股票显得至关重要了。影响上市公司实施高送转的因素有很多,车仲春等人认为高送转股票通常具有高积累、高业绩、高股价和小股本这些特征[3],同时结合市场上一些券商的研究,本文将影响高送转事件的主要因素定为:每股资本公积金、每股未分配利润、每股收益、每股净资产、每股现金净流量、每股营业收入、上市时间以及股价九大因素。因此,投资者将预测高送转事件是否发生视为一个二分类问题,即股票要么“高送转”,要么“不高送转”。由于高送转股票在A股市场上所占比例远小于50%,此分类问题可以看成是非平衡数据分类问题,因此本文将采用K-Means聚类的欠抽样方法[4]解决非平衡问题
二、高送转预测模型构建及评价
(一)数据来源
本文研究的样本是2009年至2015年剔除ST、PT股票的全部A股市场股票,选用的指标数据如表1所示,数据来源于天软(Tinysoft)数据库
(二)模型算法
令T年为测试集年份,为了构建“高送转”预测模型,我们训练集数据选为T-1年的三季度数据,训练集样本选取T-1年10月31日这天公布三季度报的非ST、PT股票,训练集的响应变量则由T-1年样本公告?A案日公布的送、转股比例是否超过0.5决定,如果超过0.5,表明样本为“高送转”股票,训练集的样本标签为1,否则为0;本文的测试集样本为T年10月31日公布三季度报的非ST、PT股票
首先,我们将分别使用K-近邻算法、决策树决策树以及正则化的Logistic回归构建预测模型,并对这三种预测结果进行投票以构建一种“组合”模型,同时我们也分别采用集成学习算法Adaboost、随机森林来构建“高送转”预测模型
1.K-近邻算。K-近邻算法[5]的工作原理是:存在一个样本数据集合,并且样本集中的每一数据都存在标签,输入没有标签的新数据后,将新数据的每个特征与样本数据集中数据对应的特征进行比较,然后算法提取样本集中前K个最相似(最近邻)的数据,选择数据中出现次数最多的分类,作为新数据的分类。采用K-近邻算法需要对自变量数据归一化,这里采用下面公式对数据归一化:
newValue=(oldValue-min)/(max-min) (1)
其中min和max分别是对应属性数据集的最小特征值和最大特征值
对应K-近邻算法,模型的参数主要为K和距离,通过对该样本数据进行检验,发现K取3,距离选用欧氏距离时,预测结果较好
2.决策树算法。决策树算法[5]由Breiman等人在1984年提出的,是应用广泛的决策树学习方法,该算法有两部分组成:(1)决策树生成;(2)决策树剪枝。本文决策树生成就是递归地构建二叉决策树的过程,对回归树用平方误差最小化准则,对分类树用基尼指数最小化准则,进行特征选择,生成二叉树。决策树剪枝算法由两部分组成:首先从生成的决策树T0底端开始不断剪枝,直到根节点,形成1个子树序列{T0,T1,…,Tn};然后通过交叉验证法在独立的验证
文档评论(0)