- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
?
?
基于Keras框架下的网络电影数据分析
?
?
摘要:情感分析的商业价值在于可以通过文字分析可提早得知用户对公司或产品的观感,以调整销售策略的方向。为了实现对电影数据的情感分析,本文基于Keras框架设计并建立了多层感知器模型(Multi-LayerPerceptron,MLP)、递归神经网络(RecursiveNeuralNetwork,RNN)和长短时记忆(LongShortTermMemory,LSTM)三种深度学习模型并进行训练评估和预测,通过对lMDb数据集的影评文字进行分析,最终可以较好地预测出影评文字褒贬的情感倾向。
关键词:神经网络;Keras框架;网络电影数据集lMDb;情感分析
:TP393:A
:1009-3044(2019)34-0014-03
开放科学(资源服务)标识码(OSID):
情感分析是近年来自然语言处理和文本挖掘领域的热门话题,尤其以文本形式的互联网信息的情感分析已经引起了学术界的广泛关注[1]。情感分析(sentimentanalysis)[2]c3]又称评论挖掘或意见挖掘(opinionmining),是使用自然语言处理、文字分析等方法找出人们对某些话题或产品的观点、态度、喜好或评价,经过自动判别可以挖掘出用户的情感倾向分布。情感分析的商业价值在于,可提早得知顾客对公司或产品的观感,进而调整销售策略的方向,最大程度提高营销成功率赢得竞争优势。
近年来,随着深度学习的快速发展已经在多个应用领域得到了广泛的应用[4],尤其在利用神经网络进行语言模型建立、文本特征学习和文本情感分析方面得到了重大进展[4],已经成为自然语言处理领域研究的热点之一。
本文主要采用Keras框架建立神经网络模型来实现电影数据的情感分析。Kerasc5]是一个开放源码的高级深度学习程序库,是由python编写而成的高级神经网络API,能够更加高效快捷的建立深度学习模型并进行训练评估和预测。通过Keras框架设计并建立了基于tensorflow的神经网络模型,并用建立的神经网络模型来实现对电影数据IMDb的情感分析。
1模型介绍
1.1多层感知机原理
多层感知机[7](Multi_LayerPerceptron,MLP)通常也称为人工神经网络,是一种误差反向传播的多层前馈神经网络算法,主要用来解决多类别非线性数据分类问题。通过对样本进行训练,MLP能够使自身网络学习目标模型输入与输出之间的映射能力,并具有较好的泛化能力。
多层感知机层与层之间是全连接的,包括输入层、隐藏层和输出层。图1为一个最常用的三层MLP模型,只含有一个隐藏层也称为单隐层网络。
MLP算法的核心是依据梯度下降法,计算输出层误差并通过反向传播来不断调整输入层和隐含层,隐含层和输出层之间的权值和阈值,使网络的均方根误差收敛到最小。
1.2RNN模型原理
递归神经网络(RecursiveNeuralNetwork)是具有树状阶层结构且网络节点按其连接顺序对输入信息进行递归的人工神经网络,已经广泛地应用于语音识别和手写字体识别等领域。RNN模式的原理是将神经元的输出再传回神经元的输入,这样循环的设计使神经网络具备保存信息的能力,以时间点展开RNN网络结构如图2所示。
图2共有三个时间点,在t时间点处,X是t时间点的输入;0.是t时间点的输出;(U,V,W)都是神经网络的参数,W参数是t—1时间点的输出,但是作為t时间点的输入。St是隐藏状态,代表着神经网络的“记忆”,是经过当前时间点的输入Xt,再加上前一个时间点的状态St-1,和U、W的参数共同评估的结果,其公式为:其中,函数是非线性函数。
RNN的关键点之一就是隐含层每个时刻的输出都依赖于以往时刻的信息,但当时间间隔不断增大时,RNN在训练时会存在长期依赖的问题,这是由于RNN模型在训练时会遇到梯度消失或爆炸的问题,从而导致RNN难以保存较长时间的记忆[6]。
1.3LSTM模型原理
长短期记忆(LongShortTermMemory,LSTM)是一种时间递归神经网络,已广泛地应用在语音识别、图像识别、数据分析等领域。LSTM是由深度学习专家HochreiterSchmidhuber(1997)[6]提出,专门设计用来解决RNN的长期依赖问题,能够对任意长度的序列进行建模从而具有学习远距离信息的能力,因此LSTM模型能够更好地应用于文本情感分析。LSTM模型的网络结构如图3所示。
图3中,Xt为输入向量;Yt输出向量;Ct:cell是LSTM的记忆细胞状态;LSTM神经网络包含“三种门”机制,分别为“输入门”(It:InputGate)、“遗忘门”(Ft:ForgetGate)和“输入门”(It:Input-Gate),LSTM利用这种“门”机制
文档评论(0)