网站大量收购独家精品文档,联系QQ:2885784924

《基于LSTM模型的运用分析综述》1700字.docx

《基于LSTM模型的运用分析综述》1700字.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

基于LSTM模型的运用分析综述

数据获取

数据来源

评论文本数据来源自东方财富网上证指数股吧的评论数据。股吧数据所代表的用户主要是投资活动的积极参与者,该网站重要指数股吧往往具有更多的关注数,作为中国金融市场重要参考之一的上证指数知名度高,其股吧用户基数大,用户质量相对较高,因此爬取该区域获取投资者情绪较为有效率。将网页按发帖时间排列。检查网页源代码后发现股吧评论标题存储在div元素类名articleh下,据此编写代码获取该元素下的内容。

数据预处理

读取网络爬取所获得的数据,将文本进行切词,分段,移除无关数据,删除缺失数据、清除不需要的html标签,统一文字,删除与用户情绪无关数据,删除无用字段,文本分词,去除停用词,统计选择特征值等等,将数据汇总,存入csv文件,以utf-8编码。使用了Word2Vec词向量模型将评论文本转化为向量。

Word词嵌入缓解了词语含义稀疏的问题,能够捕获有价值的文本含义。Word2Vec的把自然语言中的每一个词,表示成一个统一意义统一维度的短向量。它的工作过程属于单词聚类的方法,能够实现单词语义推测、句子情感分析等目的,适用于序列数据的处理。它的本质其实是简单化的神经网络模型。

经过一系列整理后,从2021年3月1日起在上证指数股吧获取了约1000条符合条件的数据信息,去除多余的标签后存入文件。从图2中的节选部分评论数据就可以看出,股吧用户的评论数据有很多专有俚语或行业术语,这些词汇在投资者群体中往往起到词义简明但内涵丰富的作用,相关专用词语也是在分析过程中不可缺少的部分,在使用情感词典进行分析时就需要将相关词汇的含义载入,在使用人工判断语义情感的机器学习模型时,则会对于分词者的相关行业知识储备有一定的要求。

数据保存与划分

将所获取数据的70%划为训练集,30%划为测试集。本论文代码部分使用python语言,其中所运用的代码库有Numpy和Pandas,选择了Tensorflow,keras深度学习相关框架并使用了tensorboard将模型结构与分析结果可视化REF_Ref2366\r\h[7]。文本特征的标注上,用0标注消极情感评论,1标记积极情感评论,用sklearn随机选择评论数据进行划分,获得测试集与训练集。

使用requests和BeautifulSoup两个库,并将requests进一步封装成根据url获取HTML的函数。使用User-Agent,运行程序获得爬取结果,保存数据存入csv文件。

表SEQ表\*ARABIC3函数表

函数名

功能

build_vocab(train_dir,vocab_dir,vocab_size=5000)

根据训练集构建词汇表并存储

read_vocab(vocab_dir)

读取词汇表

read_category()

读取分类目录(积极、中立、消极)

batch_iter(x,y,batch_size=64)

生成批次数据

图SEQ图\*ARABIC5部分评论数据节选

文本情感评价

将所获取的原始评论文本切分保存后,我首先是搜集了投资相关的专业知识与术语,,有一定的投资相关知识积累后,参考其他针对投资者的情绪分析研究文献中的投资者情绪正负性划分逻辑规律,用人工标记投资者情绪正负性划分逻辑规律,建立一个关于投资者情绪词典,但其精准性可能会受到一些主观因素的影响较大,而且效率较低。之后我再次调用了百度的情绪分析api对情绪的正负性进行分析,通过调用它的api就已经能够很好地实现对情绪的分类,其效率与准确度较为理想。

文本特征提取

文本特征提取要求将原始文本结构化,抽象为数学向量组以便计算机进行分析。使用Word2Vec对分类文本进行预处理和特征提取。Word2Vec可以将词语嵌入一个数字空间,把一个词语转换成对应向量形式。在运用TextRNN前,一般要制定固定长度的文本序列,我使用了pad标签将文本长度固定为同一水平,对过长的文本向量进行分词,提取关键特征。

TextRNN是专门用于解决文本分类问题的循环神经网络,其后一前一步时间输出为后一步时间输入,能够很好地保存序列中的长距离依赖关系,用深层卷积以捕捉长序列信息。TensorFlow具有多层级结构,在创建深度学习网络时对数据进行数值和图形计算。借助TensorFlow深度学习框架,设计实现了基于LSTM-TextRNN的中文短文本情绪分类模型。

图SEQ图\*ARABIC6TextRNN结构

模型结构建立

关于模型分析思路,即模拟将LSTM模型用于分析股票市场行情对投资者产生情绪的影响,预测未来趋势。模型分析流程及所经过的主要步骤有:选择建立合适的深度学习框架,使用Word2Vec将文本数据转化为词向量,建立深度学习模型进行训

文档评论(0)

02127123006 + 关注
实名认证
内容提供者

关注有哪些信誉好的足球投注网站

1亿VIP精品文档

相关文档