- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第28卷第16期现代计算机
2022年8月25日ModernComputer·1·
研究与开发
文章编号:1007-1423(2022)16-0001-09DOI:10.3969/j.issn.1007-1423.2022.16.001
优化预训练模型的小语料中文文本分类方法
陈蓝,杨帆,曾桢
(贵州财经大学信息学院,贵阳550000)
摘要:针对GloVe、BERT模型生成的字向量在小语料库中表义不足的问题,提出融合向量预训练模
型,对小语料中文短文本分类的精确度进行提升。本文以今日头条新闻公开数据集为实验对象,使用
GloVe、BERT模型通过领域预训练,对GloVe与BERT生成的预训练字向量进行向量融合,实现语义增
强,从而提升短文本分类效果。结果表明,当语料库中的数据量为500时,融合字向量的准确度相较于
BERT字向量的准确度提升了5个百分点,相较于GloVe字向量的准确度提升了3个百分点。词义选取的维
度待进一步加强。本文所提方法能够对小语料库的短文本数据实现精准分类,对后续文本挖掘工作具有重
要意义。
关键词:BERT;GloVe;向量融合;小语料;短文本
基金项目:教育部产学合作协同育人项目(BZX1902-20):基于JupyterNotebook的用户信息行为分析
整合实验教学设计
0引言型,使用GloVe模型和BERT模型生成的字向量
进行融合后,通过文本特征提取得到对应的字
数字信息资源是指所有以数字形式将文字、
粒度向量。
数值等多种信息存储在计算机中,通过网络通
信、计算机或终端再现出来的资源。近年来,1研究现状
数字信息资源的快速增长,为用户带来便利的
在中文自然语言处理领域,计算机无法对
同时也导致了“信息爆炸”。数字信息资源的重
非结构化的文本数据进行处理,因此在对中文
要组成部分之一就是文本,针对种类繁多的文
文本信息进行处理时,需要经过分词以及向量
本信息资源,运用现代化的管理手段和管理方
化的过程,也就是将文本信息转化为计算机能
法,将资源按照一定的方式组织和存储起来,
够识别的数值数据。其中在文本向量化方面,
能够使用户在查找海量信息时实现高效检索。
最早的文本转换方式为one-hot(独热)编码形
目前,将文本信息转换为计算机能够识别
式,one-hot编码虽然解决了分类器处理离散数
的数据是自然语言处理的一个重要问题。其中
据困难的问题,但是没有考虑词与词之间的相
最普及的解决方法是将文本转换为向量的形式,
互关系,并且由one-hot生成的特征矩阵较为稀
将一句文本语言转化为一个向量矩阵,通过相
疏,增加了机器运算的负担。在2014年前后,
似词具有相近的向量,对词义进行表示。目前,
主要有两种文本向量化方法,一种是矩阵分类
由于深度学习的发展及应用,学者们通过各种
您可能关注的文档
- 建筑工程中高支模施工工艺及施工技术分析.pdf
- 小学生校园欺凌现象的调查分析与对策探讨.pdf
- 岗位技能需求下制浆造纸专业教学优化对策.pdf
- 中国建筑钢结构行业发展报告(2021—2022年度).pdf
- 初中班主任工作中的沟通技巧探讨.pdf
- 深化改革有“四度” 改出发展“加速度”——石家庄公交线网优化纵深改革阶段性成果综述.pdf
- 基于EPC的配电网精准投资风险控制效果评价系统设计.pdf
- 公路施工技术管理及公路养护措施分析.pdf
- 电磁阀线圈发热问题的研究与对策.pdf
- AI人工智能写作现象的相关思考(1).pdf
- 第18讲 第17课 西晋的短暂统一和北方各族的内迁.docx
- 第15讲 第14课 沟通中外文明的“丝绸之路”.docx
- 第13课时 中东 欧洲西部.doc
- 第17讲 第16 课三国鼎立.docx
- 第17讲 第16课 三国鼎立 带解析.docx
- 2024_2025年新教材高中历史课时检测9近代西方的法律与教化含解析新人教版选择性必修1.doc
- 2024_2025学年高二数学下学期期末备考试卷文含解析.docx
- 山西版2024高考政治一轮复习第二单元生产劳动与经营第5课时企业与劳动者教案.docx
- 第16讲 第15课 两汉的科技和文化 带解析.docx
- 第13课 宋元时期的科技与中外交通.docx
文档评论(0)