通过股市新闻和股票价格预测股票市场.docVIP

通过股市新闻和股票价格预测股票市场.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
通过股市新闻和股票价格预测股票市场.doc

通过股市新闻和股票价格预测股票市场   【摘 要】文章结合股市新闻和股票历史价格,首先将股市新闻作为多重核的一个子核,利用中文分词软件对股市新闻进行分割,并从中选取1000个有代表性的词语处理后作为股市新闻子核的特征空间;然后选取11个指标对股票历史价格进行了处理并将其作为另外一个子核的特征空间;最终利用线性加权的方法对两个特征子空间进行合成,并进行仿真。   【关键词】股票市场预测;中文分词;多重核学学习;交互验证;网络有哪些信誉好的足球投注网站   一、研究背景   股票市场是当今金融市场主要部分之一,金融市场的投资者与预测者都想通过分析市场信息从而获得更多利润。通过有效市场假说(EMH),我们知道股票价格包含且反映了市场信息,但是,一些研究行为金融学的学者质疑了EMH的准确性,因为投资者会被各种市场信息和他们的心理所影响,从而造成不合理的投资举措。为了将多重信息整合到同一个系统当中,我们运用了多重核学习方(MKL),采用两个子核:一个运用股市新闻,另一个运用近期历史价格。在研究了子核的权重后,我们可以得到合成核,从而我们的改进的模型给出了一个比传统更准确的预测。   二、模型设计   (一)信息来源   我们的系统是以两个信息为来源设计的:股市新闻和事前价格。所以系统的输入应该有如下几个特征:(1)时间戳记:每个股市新闻与一个时间戳记联系,它表示这个新闻的发行时间;(2)逐笔交易数据:交易数据往往记录在一个短时间段中;(3)同时:因为系统需要用价格变动来标记股市新闻,股市新闻和历史价格必须是同一时间段的信息;   (二)股市新闻信息的预处理   股市新闻可以理解为一种需要我们进行预处理的原始数据资源,其预处理的主要步骤如下:(1)中文分词:我们用中文分词软件对股市新闻数据进行分词。该中文分词软件可以对文字信息合理地划分,但是许多金融领域的一些特殊术语不能被该软件准确地分词,因此我们用金融字典对分词软件的输出进行二次加工;(2)词语过滤:首先删去中文停止词,例如:和、或等。然后过滤掉其他不重要的词语,只留下典型的具有代表性的词语,例如:名词、动词和形容词;(3)特征词语精选:不是余下的词语都可以作为特征词语留下,Feldman只选择了过滤后余下的10%作为特征词语。于是我们根据卡方分布选择了过滤后总共7052中的前1000个词语作为我们系统的特征词语;(4)赋予权重:最后为1000个词语赋权,我们计算作为每个词语的权重。   (三)历史价格的预处理   原始的逐笔交易数据通过以下步骤来进行预处理:(1)排序:因为交易不可能按照它们的时间戳记来排序,所以我们必须先按照时间戳记来对整个记录进行排序。(2)插入添加:因为连续交易之间的时间间隔不一样,有些时间段甚至不可能有记录,所以存在一个问题:在那些空时间段中,我们需要加入什么价格值。有两种方法解决这个问题:一是线性时间权重通过Dacorogna来排序;二是最近的收盘价格。该方法将逐笔交易数据以同一分钟为基础分开,将每分钟最相近的价格放在一起。如果某一分钟没有记录,那么上一分钟的记录将为代替。尽管两种方法都可以实现,我们选择了第二种方法,因为它的实现过程较为简单。   (四)结合股市新闻和历史价格   1.提取加工股票的历史价格。为了使计算机能使用这两种信息数据,我们需要将这些原始数据处理为算法需要的输入数据。假设股市新闻的时间戳记为,此时对应的股票价格为,则其后5、10、15、20、25和30分钟的股价分别表示为,, , , ,和。如果,例如超过了交易时间限制,这个股市新闻将会被删掉。我们将股市新闻发布后的股票价格通过下面的公式转化为回收率:   我们以市场平均交易价格的为临界值,如果,股市新闻将会标记称积极的消息,反之如果 则标记成消极的消息。在股市新闻发行之前的三十分钟到一分钟时间段内,我们的实验每隔一分钟抽取一次样本作为股票的历史价格。Cao和Tay将股价序列转换为RDP指标,通过他们的方法,我们用同样的计算的公式对股票价格进行处理。   除了RDP指标,我们运用了其他用于股票分析的市场指标,计算该股市指标的公式列在附录2中,其中是第分钟的股价,是时间顺序。最后,30个历史股价点转化为 6个RDP指标和5个市场指标,在后面的模型中它们将作为简化的指标。   2. 数据的标准化处理。在完成以上工作之后,我们得到了:(1)股市新闻实例的集合,用N表示;(2)指标实例的集合,用表示;(3)由对股市新闻的标记构成的向量。其中N中的每一个实例对应于一条新闻消息,每一个特征分量代表一个被选中的文字;中的每个特征分量对应于一个指标;于是标准化处理可以分为两种情况进行讨论:第一,当和的特征分量只取非负值时,用表示,标准化处理如下: 标准化之后的取值范围为[0,1]。第二,当和

文档评论(0)

guan_son + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档