外卖用户差评影响因素探究.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
外卖用户差评影响因素探究

外卖用户差评影响因素探究   摘 要:以“百度外卖”和“美团外卖”上的用户差评评论为研究对象,通过利用Word2vec工具对差评评论特征词汇进行聚类,发掘外卖用户差评影响因素。在经过评论抓取、分词、特征词发掘、关键词选取以及基于Word2vec的聚类过程后,最终得到用户差评影响因素,并针对影响因素对外卖商家经营提出了建议 关键词:差评影响因素;词语聚类;Word2vec 中图分类号:F27 文献标识码:A doi:10.19311/ki2017.02.027 外卖行业随着互联网的不断发展,逐渐成为普通人用餐的一种重要方式。2015年,中国餐饮O2O市场规模为1615.5亿元,占餐饮行业总体的比重为5.0%,预计2018年餐饮O2O市场将达到2897.9亿元。在现代电子商务中,买家因为对服务不满意而给出的评价即为差评。本文通过分析用户差评评论,使用TF-IDF方法挖掘用户差评文本中的关键词汇,再利用Word2vec方法对关键词汇进行聚类,从商家视角出发发掘用户差评影响因素,为商家改善自身服务提供建议 1 网上评论的抓取 “饿了么”、“美团外卖”和“百度外卖”是中国领先的在线外卖平台,根据比达咨询发布的2016年第二季度中国第三方餐饮外卖市场研究报告,2016年第二季度中国外卖平台市场份额主要由这三家外卖平台瓜分,其中,“饿了么”以36.7%的市场份额领跑,“美团外卖”市场份额为29.0%,“百度外卖”以19.9%的市场份额排名第三 通过对三家外卖平台的用户评论进行阅读,发现只有“美团外卖”和“百度外卖”明确对“差评”进行了归类,并且可以抓取到“差评”类别下的所有用户评论,而“饿了么”平台并未对“差评”评论进行归类。所以,本文选取“美团外卖”和“百度外卖”平台作为研究对象 利用Java语言设计了基于Html标签的网络爬虫程序,通过该程序抓取了“美团外卖”、“百度外卖”2家外卖平台旗下5大类(早餐类、正餐类、甜品饮品类、夜宵类、其他类)、每类10家典型店铺的10条差评评论,共1000条评论。为了保证评论文本能够被特征项充分表示,获得最佳的数据处理效果,将抓取出的所有文本合并为一个文档来进行研究 2 数据处理 数据预处理是指对原始文本数据做初级处理,形成可以表征文本含义的特征词汇。在生成特征词汇之前,需要对原始语料进行分词处理。本文采用中科院计算技术研究所设计的分词程序对评论语料进行分词处理,在完成去除重复词、停用词、语气词等一系列预处理后,形成了初步的特征词簇 经过数据预处理后,得到的特征词汇较多,为了找到可以充分表征评论语句含义的关键词汇,采用TF-IDF法计算词汇权重,并根据权重大小提取关键词汇 TF-IDF是一种统计方法,用以评估字、词对于一个文件集或一个语料库中的其中一份文件的重要程度,TF意味词频,IDF意味逆文档频率。根据TF-IDF的思想,词汇的代表性和它在文件中出现的次数成正比,与它在语料库中出现的频率成反比下降,TF-IDF算法如公式(1)、(2)和(3) 其中,tfi,j表示特征词在评论语料集中出现的频率,D表示语料库文件总数,{j:ti∈dj}表示语料库中包含该特征词的文件数目 为了提取出评论中的关键词汇,引入国家语委现代?h语平衡语料库进行对比研究,采用TF-IDF方法计算数据源文档中经过数据预处理的词汇的TF-IDF值。经过对计算结果进行分析,设定阈值为0.002,进行过滤处理,得到经过初步筛选后的70个关键词,接下来本文将利用Word2Vec工具对关键词进行聚类 3 基于Word2vec的关键词聚类 3.1 Word2vec工作原理 Word2vec是谷歌在2012年实现的开源语言建模工具,主要用于自然语言处理领域。该工具使用连续的bag-of-word模型,以及计算词向量的skip-gram结构。Word2vec将文本集作为输入,将每个词对应的生成向量作为输出,通过生成的词向量,可以计算与用户指定词语之间的距离(相似度)。它以文本预料作为输入,通过训练生产每个词汇对应的词向量,可以根据词向量计算两个词的相似程度。例如,用户输入“味道”,Word2vec工具可以分析出与“味道”词义相近的词汇,并给出表征相似程度的数值 Word2vec利用Skip-Gram算法进行词向量分析。Skip-Gram算法根据当前单词预测语境。Skip-gram算法目标是寻找参数集合θ,使得下式所示条件概率的乘积最大化: argmaxθ∏w∈Text∏c∈C(w)p(c|w;θ)(4) 其中,θ是模型参数,w表示文本词汇,Text是文本词汇集合,C(w)表示在文本词汇集合Text中,词汇w出现过的语境包含的词

您可能关注的文档

文档评论(0)

docman126 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档