基于集成学习高送转股票探究.doc

下载文档 降价啦

9
0
约4.75千字
约 9页
2017-06-10 发布于未知
举报
版权申诉
保障服务

基于集成学习高送转股票探究.doc

1、本文档共9页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于集成学习高送转股票探究

基于集成学习高送转股票探究　　【摘要】高送转预案公告发布前，高送转股票具有显著的累计正收益，因此预测高送转股票对于投资具有重要意义。高送转股票的预测是分类预测问题，本文利用上市公司三季度财报数据，采用3种集成学习算法：由K-近邻算法、决策树以及加lasso惩罚项的逻辑斯蒂回归算法构建预测模型――“组合”模型，经典的集成学习算法――AdaBoost算法以及随机森林算法进行建模。本文采用准确率以及G-mean作为模型评价标准，结果显示：“组合”模型的准确率最高，随机森林和“组合”模型的G-mean表现相当，均优于adaboost算法。由于每年高送转股票所占比例小于50%，数据可以看成是非平衡数据，为了改善“组合”模型较差的召回率，本文采用K-Means聚类的欠抽样方法，将此方法用在“组合”模型上，效果显著。最后分别对上面三种模型预测的股票构建投资组合，并以HS300指数做基准。结果显示：“组合”模型预测得到的高送转股票组合表现优于另外两种集成学习模型【关键词】高送转集成学习非平衡数据投资组合一、引言所谓“高送转股票”是指上市公司大比例送红股或大比例以资本公积金转增股票，市场送转股比例超过0.5的股票为“高送转股票”。虽然上市公司送股、转增股票及不影响其当期现金流，也不影响其未来现金流，从而这种分红并不影响公司价值，但高送转事件向市场传递了公司发展良好、行业发展前景乐观的信息，这导致不少投资者盲目的投资具有高送转概念的股票。据文献研究：中国股市具有明显的高送转公告效应，即高送转股票在预案日公布前会出现正的超额收益率[1]，陈珠明（2010）通过实证研究发现：高送转股票在预案公告日之前具有显著的超额收益[2]，因此，投资者为了在高送转事件中获取更多的超额收益率，在公告前预测高送转股票显得至关重要了。影响上市公司实施高送转的因素有很多，车仲春等人认为高送转股票通常具有高积累、高业绩、高股价和小股本这些特征[3]，同时结合市场上一些券商的研究，本文将影响高送转事件的主要因素定为：每股资本公积金、每股未分配利润、每股收益、每股净资产、每股现金净流量、每股营业收入、上市时间以及股价九大因素。因此，投资者将预测高送转事件是否发生视为一个二分类问题，即股票要么“高送转”，要么“不高送转”。由于高送转股票在A股市场上所占比例远小于50%，此分类问题可以看成是非平衡数据分类问题，因此本文将采用K-Means聚类的欠抽样方法[4]解决非平衡问题二、高送转预测模型构建及评价（一）数据来源本文研究的样本是2009年至2015年剔除ST、PT股票的全部A股市场股票，选用的指标数据如表1所示，数据来源于天软（Tinysoft）数据库（二）模型算法令T年为测试集年份，为了构建“高送转”预测模型，我们训练集数据选为T-1年的三季度数据，训练集样本选取T-1年10月31日这天公布三季度报的非ST、PT股票，训练集的响应变量则由T-1年样本公告?A案日公布的送、转股比例是否超过0.5决定，如果超过0.5，表明样本为“高送转”股票，训练集的样本标签为1，否则为0；本文的测试集样本为T年10月31日公布三季度报的非ST、PT股票首先，我们将分别使用K-近邻算法、决策树决策树以及正则化的Logistic回归构建预测模型，并对这三种预测结果进行投票以构建一种“组合”模型，同时我们也分别采用集成学习算法Adaboost、随机森林来构建“高送转”预测模型 1.K-近邻算。K-近邻算法[5]的工作原理是：存在一个样本数据集合，并且样本集中的每一数据都存在标签，输入没有标签的新数据后，将新数据的每个特征与样本数据集中数据对应的特征进行比较，然后算法提取样本集中前K个最相似（最近邻）的数据，选择数据中出现次数最多的分类，作为新数据的分类。采用K-近邻算法需要对自变量数据归一化，这里采用下面公式对数据归一化： newValue=（oldValue-min）/（max-min）（1）其中min和max分别是对应属性数据集的最小特征值和最大特征值对应K-近邻算法，模型的参数主要为K和距离，通过对该样本数据进行检验，发现K取3，距离选用欧氏距离时，预测结果较好 2.决策树算法。决策树算法[5]由Breiman等人在1984年提出的，是应用广泛的决策树学习方法，该算法有两部分组成：（1）决策树生成；（2）决策树剪枝。本文决策树生成就是递归地构建二叉决策树的过程，对回归树用平方误差最小化准则，对分类树用基尼指数最小化准则，进行特征选择，生成二叉树。决策树剪枝算法由两部分组成：首先从生成的决策树T0底端开始不断剪枝，直到根节点，形成1个子树序列{T0，T1，…，Tn}；然后通过交叉验证法在独立的验证