大数据分析_讲稿模板.pptxVIP

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据分析l20XX日期:X月X日

--4409801678108314401目录Content

大数据分析l0随着我国经济快速发展,股票市场已经成为整个金融行业必不可少一部分,股票投资也是许多人日常生活一部分。股市的暴涨暴跌会影响金融市场的稳定,增加发生系统性金融风险的可能。如果能预测股票市场的涨跌状况,再进行合理调控和引导,便能及时有效防范系统性金融风险

首先我们先引用库

importnumpyasnp

importpandasaspd

importtalibasta

importdatetime,pickle

fromsklearn.model_selectionimportGridSearchCV

fromsklearn.metricsimportmean_absolute_error,mean_squared_error,r2_score,accuracy_score,roc_auc_score在平安银行中的应用

大数据分析l0NEXTfromsklearn.ensembleimportRandomForestClassifier

读取数据

importefinanceasef

df=ef.stock.get_quote_history(000001,fqt=qfq,int=101,begend

df.to_excel(000001_qfq.xlsx)

查看数据

df

特征值(feature)为开盘到换手率。我们想要机器通过feature预测出明日大盘的涨跌情况,那么这时需要来定义一下label,即告诉机器你想要预测什么。我们在本文中采用二分类作为测试,涨为1,跌为0

defnum_config(x)

大数据分析l0ifx0

return1

else

return0

df[(t+1)-(t)]=df[收盘].shift(-1)-df[收盘]

df[label]=df[(t+1)-(t)].map(num_config)

这时,特征值和标签,我们都应该搞定了

现在,我们来划分一下训练集和测试集

因为股票数据是一个典型的时间序列数据,所以尽量不要用随机切分。因为随机切分很可能导致你的训练集里面含有未来函数,即X里存在Y,进而导致准确率极其的高

大数据分析l0我们将2022年3.1以前的数据用来做训练,用2022年3.1以后的数据用来做测试pd.to_datetime(pd.DatetimeIndex(df[日期]),format=%Y%m%d)df=df.dropna()#剔除缺失值df[time]=pd.DatetimeIndex(df[日期])train_data=df[df[time]2022-03-01]test_data=df[df[time]=2022-03-01]train_X=train_data.loc[:,开盘:换手率].valuestrain_y=train_data[label].valuestest_X=test_data.loc[:,开盘:换手率].values

大数据分析l0test_y=test_data[label].values所有数据均已准备完毕,下面开始调用sklearn中随机森林模型进行测试clf=RandomForestClassifier(max_depth=3,n_estimators=20)clf.fit(train_X,train_y)print(accuracy_score(train_y,clf.predict(train_X)))print(accuracy_score(test_y,clf.predict(test_X)))0.94285714285714280.41262135922330095此时我们看到,该模型在训练集上有94.29%的胜率,在测试集上有41.26%的胜率

大数据分析l0编辑母版文本样式第二级第三级第四级第五级2024/5/178我们再查看一下召回率roc_auc_score(test_y,clf.predict(test_X))

0.44098016781083144PART1

0.4409801678108314411发现概率是44%,该模型有点偏跌的一方总结:机器学习对于预测股票市场是存在一定作用的,但该文所涉及的模型仅对第二天的涨跌情况起辅助效果,并不能作为决策的依据!2

--谢谢观看XXXXXXXXXXXXXXXX

文档评论(0)

wanglingling2020 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档