- 1、本文档共29页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
从评论语料库中挖掘产品特征词毕业论文
目录
中文摘要 I
英文摘要 II
1 绪论 1
1.1 研究背景 1
1.2 选题意义 1
1.3 从评论语料库中挖掘产品特征词的研究现状 2
1.4 产品特征词挖掘的发展前景 3
1.5 汉语分词介绍 3
1.5 特征词挖掘的相关算法 6
1.6 开发环境介绍 6
2 产品特征词的挖掘 8
2.1问题的提出及相关研究 8
2.2评论语料库使用的现状 9
2.3 弱监督机器学习方法介绍 9
2.4 产品评论内容的分析 13
2.5 产品评论统计特征的提取 13
2.6 模式结构与模式特征集 14
3系统设计 16
3.1 系统总体设计 16
3.2 系统界面设计 16
3.3 特征词挖掘的系统设计 21
4 系统测试 23
4.1 系统功能测试 23
4.2 系统的不足 24
4.3 系统的后续工作 24
总结 26
致谢 27
参考文献 28
1 绪论
1.1研究背景
随着Internet的广泛应用,用户使用产品会通过Web 对产品进行评论,这些评论中包含用户对产品的各个方面的性能持有肯定还是否定的意见。产品评论中蕴涵了丰富的信息,生产厂商分析产品评论可以了解产品的不足和用户实际需求以改进产品,用户浏览产品评论可以在购买产品之前更多地了解产品,从而更加合理地购买产品。要从大量使用自然语言进行描述用户评论获取信息,只有通过人工逐一阅读,这是一个需要大量时间和精力的过程,因此,需要自动化的产品评论挖掘来更快地从大量的用户评论中获取信息。产品评论大多用自然语言进行描述,生产厂商和用户只有采用人工阅读的方式才能从中提取信息,而这是一个费时、费力且容易产生错误的过程,因此,产生了自动产品评论挖掘的需求。产品评论挖掘一般分为产品特征提取、主观句定位和用户词性判断和挖掘结果显示等4个阶段。产品特征提取作为产品评论挖掘的第1个阶段,目的是从众多的用户评论中挖掘出用户所关心的产品特征,从而对实际产品销售和售后服务做出正确的评价,帮助决策者和购买者能够最大限度的了解现有产品的特点和特征。
1.2选题意义
找出用户最感兴趣和最希望提供的功能,从而改进产品。用户购买产品之前可以了解已经购买了该产品的用户关于该产品的使用体验,了解产品各个方面的性能,还可以对同类型的产品按照性能进行比较,从而合理的购买产品。
产品特征提取目的是从众多的用户评论中挖掘出用户所关心的产品特征(比如:相机的产品特征包括重量、大小、图片的质量、电池的使用时间、存储容量等;手机的产品特征包括制式、重量、体积、屏幕大小、摄像头像素等)。由于角度不同及用户通常使用一些常识性描述,生产厂家所使用的产品功能和不见特征名称与用户所表达出来的有很多是不一样的,主要对厂家产品的规格特征和用户描述特征提取及其关系进行了研究。
抽取出产品特征之后就着重于研究用户对某个产品特征的看法,即在一个表达了用户看法的主管句中提取出产品特征、极性词汇及程度,在现有研究的处理过程中,对产品特征并未进行归类处理,所有的特征地位都是等同的,故本来处于上下位的特征可能放在不同的表示中,这样就造成用户看到的是没有主次之分的特征,同时有些本是同一特征的不同表示方法,却归纳到不同的特征中去,这种情况下虽然对某些特征进行了评价,但由于使用哪个不同的词语作为产品特征,结果对同一部件的评价放在了不同的展示中,这样展现给用户的是很多没有主次之分特征堆积。
摩托罗拉A1890(MOTO A1890)天翼3G双网双待手机的评论如图1.1所示:
图 1.1摩托罗拉A1890(MOTO A1890)天翼3G双网双待手机评论
在这种情况下,对产品特征之间的层次关系合理且准确处理的要求,就显得非常急迫,本课题应运时势,对产品特征进行分层次的特征抽取。
1.3 从评论语料库中挖掘产品特征词的研究现状
产品评论挖掘需要了解用户对产品的哪些功能、性能进行了评价,因此需要从产品评论语句中提取表达了用户评价的对象——产品特征。产品特征提取的目的是发现用户在产品评论中对哪些产品特征表达了自己的看法。用户在产品评论中对特征的描述是一个开放性的问题,可能在产品评论中发表厂家根本没有考虑到的一些性能,因此挖掘出产品评论中所提及的特征,了解用户对这类产品最关心的功能及性能是很重要的。由于同类产品的特征基本一致,故可以利用产品特征对同类产品所获得的评价进行对比。
产品特征的提取分为人工定义和自动提取两类。在人工定义方面,Kobayashi、Inui 和 Matsumoto 以人工定义方式提出了针对汽车的产品特征,建立了 287 个产品特征,每一个特征使用一个三元组进行表示(Attribute,Subject, Value),其中subject 表示产品,attribute 表示产品的特征,value 表示对这个特征的观
文档评论(0)