- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
线上商品评论有效性分类专业领域知识模型的构建研究
线上商品评论有效性分类专业领域知识模型的构建研究
甄化春
(武汉纺织大学管理学院)
摘要:线上商品评论有效性分类领域知识模型的构建是商品评论有效性分类的一个重要基础性工作,其直接影响分类器的精度与召回率。以往的研究大多集中于情感词典的构建以及领域术语抽取工作,对于一种专门针对线上商品有效性分类的领域知识库的构建研究较少。本文提出了一种基于信息增益技术进行文本有效性分类领域知识模型构建的半监督方法,同时构建了商品领域停用词表。通过对亚马逊上爬取的iPhone5s, iPhone6, iPhone6 Plus共1678条产品评论利用Python语言进行有效性分类领域知识抽取和分类预测,实验结果发现该方法显著提高了评论有效性预测精度。
关键词:信息增益; 商品评论; 有效性分类; 领域知识模型
0 引言
在线用户评论(Online Review)对于消费者和商家都具有重要意义,其在向潜在消费者传递产品信息的同时也向商家传递了消费者的需求特性以及产品的缺陷等关键信息。因此,分析消费者的购物评论,从中发现影响消费者满意度的内容要素,并针对性的改进产品和服务对于提升商家的竞争力和经济效益具有重大的商业价值[1]。然而,并非所有的在线评论都有价值,网络的匿名性以及沟通的成本低廉等特性使得评论的质量参差不齐。大数据时代,如何从海量用户评论中挑选出对潜在顾客购买起决定起辅助作用的商品,是一个值得探索的问题。
对于线上评论有效性的问题,现有文献主要从评论有效性影响因素分析[2-5]和文本有效性分类算法改进两个方面进行研究[6,7]。郝媛媛等[2]通过实证验证了产品特征、评论极性对于评论有效性具有显著正面的影响,殷国鹏[3]通过对已有的研究进行归纳总结发现众多的研究均证明了这一结论。结合文本有效性影响因素,吴含前等人[6]提出了一种单一主题下基于逻辑回归的垃圾评论监测模型,并取得了较好的有效性预测精度但是需要大量的人工进行评论有效性标注。Zhang等人[7]提出了一种拓展的GARC算法对评论有效性进行分类,避免采用专家进行有效性标注的低效率和应用普适性问题,但是分类预测精度有待进一步的提高。评论有效性分类问题最终归属为评论有效性的二分类问题,利用评论有效性分类领域知识对评论进行有效性标注并训练分类器,然后将分类预测标签同测试评论集真实标签进行对比从而评估领域知识分类有效性。已有的研究主要利用监督学习方法进行主题提取,并基于语言学模型进行相关主体的识别,很少有学者通过构建专业领域知识库进行评论有效性标注[6],而构建的评论有效性分类专业领域知识库可以在保证评论有效性识别精度的同时实现无监督的评论有效性自动标注。因此,构建评论集合有效性分类领域知识库对于线上商品评论有效性分类具有重要的理论研究价值和实践意义。
项目来源:国家自然科学基金资助项目“大数据情景的outlier分析与异类知识管理模式研究”;武汉纺织大学研究生创新基金项目(201402020):“物联网下消费者购物行为规律的数据挖掘”。
作者简介:甄化春(1989-),男,主要研究方向:数据挖掘、信息管理。
1 相关研究工作
领域知识库是根据研究的需要而构建的机器学习语料库,根据用途的不同,其可以分为领域特征词库、领域情感词库、领域停用词库以及领域分类词库等。对于前面三种领域知识的构建已有相当多的研究成果,而从评论有效性分类角度研究其评论有效性领域知识库构建相对较少。评论有效性分类领域知识库的构建不同于通常意义上的产品特征领域词典或评论情感词典的构建[2],其综合考虑了评论语句中产品特征领域词和评论用户情感极性词语[4, 5]。
目前比较常用的分类词典构建方法有基于统计的特征词语提取方法和基于语言学的方法以及混合式方法[8]。基于统计的特征词语提取方法通常包括基于词频统计的方法、基于逆文档频率的方法和互信息的方法等[9]。Nitin Jinadl等人基于词频统计的思想通过对三种类型的垃圾评论进行词频统计,构建了领域垃圾词典,并采用Logistic回归模型对英文垃圾评论进行识别,取得了较好的效果。Popescu A M等人通过抽取评论中频繁出现的名词和名词短语作为候选特征词,并通过Web PMI来评估候选词,利用贝叶斯分类提取产品特征,从一定程度上提高了特征词典准确度但是耗时较长。基于语言学的方法在特征词典的构建方面应用的也较为广泛,该方法可以有效解决商品评论中不同词语相同语意的问题,通过计算语意相似度计算来达到降低训练模型维度,从而提高分类有效性的目的。基于语言学方法的缺点是模式覆盖面有限,存在领域与语言适应性问题,术语召回率受到限制考虑到基于统计方法和基于语言学方法进行特征提取各自的优缺点,在实际应用中一般将两种方式结合。Dailleli利用语
文档评论(0)