- 1、本文档共133页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
GUANGDONGUNIVERSITYOFTECHNOLOGY
硕士学位论文
(专业学位)
基于BERT算法的电商评论情感分析研究
作者姓名:
导师姓名:
学科(专业)或领域名称:
论文答辩年月:
陈鹏杰
谢胜利
控制工程
2022年5月
分类号:学校代码:11845
UDC:密级:学号:2111904285
广东工业大学硕士学位论文
(工程硕士)
基于BERT算法的电商评论情感分析研究
陈鹏杰
导师姓名(职称):谢胜利教授
谭华高级工程师
学科(专业)或领域名称:控制工程
学生所属学院:
自动化学院
答辩委员会主席:何昭水教授
论文答辩日期:2022年5月26日
ADissertationSubmittedtoGuangdongUniversityofTechnology
fortheDegreeofMaster
(MasterofEngineering)
ResearchonE-commerceCommentSentimentAnalysis
BasedonBERTAlgorithm
Candidate:ChenPengjie
Supervisor:Prof.XieShengli
May2022
SchoolofAutomation
GuangdongUniversityofTechnology
Guangzhou,Guangdong,P.R.China,510006
摘要
I
摘要
如今,电子商务与人们的日常生活密切相关。电子商务平台提供评论区供用户在线评论,评论数据会长期保存在电商平台上。这些评论对于消费者来说,直接影响到是否选择该商品;对于商家来说,可以了解用户对商品的评价,并及时改进不足。但各个电商平台上的评论区积累的评价内容十分庞大,直接阅读评论十分费力,难以获取有效的信息,不仅降低用户阅读评论的效率,也使得商家难以获取用户反馈的信息,增加改进商品的难度。因此如何在如此庞大的评论数据中高效获取消费者的情感信息,及时获取有价值的评论信息,对于提升用户体验和商家改进产品质量来说具有重要的
研究意义和商业价值。
本文基于BERT算法,通过对观点的实体和评价主体的识别,评价主体情感分析,来获取用户评论的评价主体和情感极性,实现细粒度的情感分析。主要任务和贡献包
括:
在词嵌入方式与训练数据的收集和处理中,通过分析使用传统的Word2Vec(WordToVector)词向量的不足,提出针对中文评论的字向量与词向量相结合的词嵌入方式。提出的词嵌入方式与单独使用字向量和词向量的词嵌入方式相比,分类准确率更高、语义信息保留更加完整、未登录词减少、词嵌入质量提高。通过分析普通数据集的不足,提出高质量标签数据集构建的意义。对比高质量标签数据集与普通数据集下的实
验结果,发现高质量标签数据集能提高模型训练的质量,提高预测准确率。
在观点的实体和评价主体识别中,为了解决传统Word2Vec模型只能够产生固定化语义的词向量的问题,提出基于改进BERT(BidirectionalEncoderRepresentationsfromTransformer)掩藏策略的BERT-BIGRU-CRF模型。该模型根据中文评论中字与字组成的词组联系较为紧密的特点,改进BERT算法的掩藏语言模型,并将其作为词嵌入层的语言模型。在该模型上训练得到的词向量能更好地挖掘词与词之间的语义信息,获得更加完整的语义信息。在特征抽取层中,采用BiGRU代替传统的BiLSTM,在提升训练速度的同时保证准确率。提出的模型与常用的命名实体识别模型LSTM-CRF相比,
在F?值、召回率和精确率上均有提升。
在评价主体情感分析中,针对传统的RCNN(RegionswithConvolutionalNeural
Networksfeatures)模型对于文本情感相关信息的特征提取不够充分,分类不准确的问
广东工业大学硕士专业学位论文
I
题,提出字词向量融合的M-BERT-ATT-ResGCNN模型。该模型首先使用预训练BERT语言模型代替Word2Vec语言模型,并针对电商评论数据进行改进,
您可能关注的文档
- 2024届湖南望城金海学校数学七年级第一学期期末质量跟踪监视模拟试题含解析.docx
- 2023年中国通用技术集团控股有限责任公司校园招聘考试题库及答案解析.docx
- 湘教版六年级下册信息技术《绘制创意图形——scratch之循环结构》说课课件.pptx
- 高大模板技术交底大(全).docx
- 刹车片的更换教案.docx
- 储能电站运行维护规程.docx
- 无人机作业飞行空域申请(模板).docx
- 《机电一体化》课程设计-X-Y数控工作台机电系统设计.docx
- 运营商IDC基础知识及IDC业务规划培训v0.pptx
- 心电图操作技术 ppt课件.pptx
- 2024年江西省寻乌县九上数学开学复习检测模拟试题【含答案】.doc
- 2024年江西省省宜春市袁州区数学九上开学学业水平测试模拟试题【含答案】.doc
- 《GB/T 44275.2-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第2部分:术语》.pdf
- 中国国家标准 GB/T 44275.2-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第2部分:术语.pdf
- GB/T 44285.1-2024卡及身份识别安全设备 通过移动设备进行身份管理的构件 第1部分:移动电子身份系统的通用系统架构.pdf
- 《GB/T 44285.1-2024卡及身份识别安全设备 通过移动设备进行身份管理的构件 第1部分:移动电子身份系统的通用系统架构》.pdf
- 中国国家标准 GB/T 44285.1-2024卡及身份识别安全设备 通过移动设备进行身份管理的构件 第1部分:移动电子身份系统的通用系统架构.pdf
- GB/T 44275.11-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第11部分:术语制定指南.pdf
- 中国国家标准 GB/T 44275.11-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第11部分:术语制定指南.pdf
- 《GB/T 44275.11-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第11部分:术语制定指南》.pdf
文档评论(0)