- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
?
?
基于美团外卖用户在线评论的情感分析研究
?
?
王升盈
摘要:以美团外卖为研究平台,爬取美团外卖用户数据,对数据进行预处理,利用百度AI开放平台进行情感分析得到评论数据的情绪值,在此基础上检验评论数据的情感倾向和打分评价的相关性,并进一步了解在不同等级的城市中消极情绪是否有差异,以及一些门店消极情绪高于积极情绪的原因。最后根据分析的结果对商家、消费者和美团平台提出合理性的建议。
关键词:在线评论;情感分析;关键词云图
:F27:Adoi:10.19311/j.cnki.1672-3198.2018.23.030
1引言
随着信息的高速传播,社交网络的快速发展已经渗透到人们生活的各个方面,越来越多的用户倾向于在公众平台上表达自己的观点、态度和情感。互联网的各大平台为网民发表评论、交换观点提供了极大的便捷,也给人们做选择提供了参考方向。评论信息对消费者的选择和商业组织的决策都有重要的意义。一些学者开始了对这些评论数据的情感倾向进行研究,运用不同的算法和模型对文本评论进行情感分类。张膂采用逻辑斯蒂回归算法对餐饮评论数据进行情感分类,马松岳,冯莎分别对豆瓣电影评论数据进行情感分析研究,石强强、赵应丁和杨红云对基于SVM方法对酒店评论数据进行情感分析。
目前对文本情感分析的研究很多,比如对电商产品、微博热门事件、热门电影等情感倾向研究,对餐饮方面的情感分析研究比较少,并且都是对评论文本挖掘技术的讨论。基于此本文主要是对情感倾向的结果展开研究,根据得到的结论对用户、商家和美团平台提出合理建议。
2数据获取和预处理
本文首先采用分层抽样的方法选取12个城市,然后再采用简单随机抽样的方法选取了美团外卖APP中这些城市里面的部分门店评论数据作为研究对象。其中12个城市是按照城市等级来抽取的,门店包括大品牌必胜客和若干小品牌,一共161家。本文采用Charles软件对美团外卖APP的数据接口进行用户评论抓取。由于美团对数据采取了反爬虫技术,只能抓取网页数据,并且还需要不定时的变换电脑ID,才可以获取评论数据。
由于爬取的数据可能存在一些特殊的字符、重复数据和类似广告信息这种没有价值的数据等,所以需要先对数据进行一下清洗。本文利用HashSet原理编写源代码去重,经过清洗后用于研究的数据一共87558条。由于用Charles抓取的数据量比较大,需要建立一个数据库存放数据。为了方便快速的查找需要研究的数据,本文选择建立非关系型数据库。其中抓取数据的情况如表1。
3基于百度AI的评论数据情感倾向性分析
文本情感分析的研究方法主要有两大类:基于词典的方法和基于机器学习的方法。基于词典的方法主要是通过建立一系列的情感词库和规则,对文本进行段落分词、句法分析,计算感情值,最后通过情感值来作为文本的情感倾向依据。
本文采用基于词典的方法,使用百度自然语言处理技术即百度AI开放平台软件进行情感分析。通过调用百度的API(应用程序编程接口),就可以得到8万多条评论数据的情感分布,包括积极情绪、中立、消极情绪。通过简单的计算,可以得到积极情绪比例、中立情绪比例和消极情绪比例,最终确定每家店的情感倾向值。百度AI在进行情感分析时,无法识别带有表情的语句,只能手动进行分析。同时,对于只有星级评论的空白文本百度AI是无法进行分析的,忽略空白文本,百度AI识别出7万多条数据。最终可以得到每条评论文本的情感倾向,如表2。
根据输出的情感倾向进行统计分析,可以得到每一家店的积极、消极和中立的比例,抽取的161家门店中,157家门店的用户评论情感是积极的,2家门店的用户评论情感是消极的,2家用户评论情感是中立的。如表3所示的是抓取的北京门店评论文本的情感分析结果,从表中可以知道大部分门店的积极比例是较高的,情感倾向是积极的。只有花家怡园、南京大排档和绿茶餐厅的积极比例较低,甚至绿茶餐厅的消极比例高于积极比例。
4情感倾向的研究分析
4.1情感倾向和打分评价的关系
美团平台本身会根据用户评论的星星数,将评论分为好评和差评展现给用户。用户就会根据看到的好评数来判断门店的好坏。但是美团给出的好评数和差评数是否真正代表了用户的真实情感,因此我们将得到的情感倾向和美团给出的打分评价进行对比分析。
我们通过SPSS软件分别对积极情绪和好评、消极情绪和差评做相关性分析来检测他们之间是否有关联性,得到积极情绪和好评之间的相关性为0.643,消极情绪和差评之间的相关性为0.731,消极情绪和差评的相关性大于积极情绪和好评的相关性。
由于美团平台把中立的评论即3颗星星的评论给归类为好评,才会造成积极情绪和好评之间的相关性不是很高。因此用户在浏览评论信息时,不能只关心好评数,更主要的是了解差评数,差评数和情感分析方法得到的消极数是基本一致的。用户通过浏览美团平台归类出的
文档评论(0)