基于深度学习和注意力机制的文本分类方法研究.pdf

基于深度学习和注意力机制的文本分类方法研究.pdf

  1. 1、本文档共71页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘 要 随着计算机信息技术、移动互联网的快速发展,每天都会产生大量的文本数 据。面对海量数据,高效获取有价值的信息变得尤为必要。为满足人们对信息的 个性化需求,需使用相应的处理技术对海量文本数据进行加工与处理,而文本分 类技术正是这些技术的基石。 文本分类是自然语言处理领域的经典主题。传统文本分类方法通常采用浅层 机器学习算法,通过人工设计特征选择方法对特征进行提取,此类方法人工成本 高、耗时长、训练难,对海量数据的处理加工场景适应性差。基于深度学习的文 本分类方法,能从海量文本数据中自动进行特征学习与特征提取,大幅降低人工 成本且易于训练,算法领域迁移性得到增强。词向量作为一种特殊的文本表示形 式,能够对语义相近的词进行表示,避免传统方法存在的语义鸿沟。在文本分类 任务中使用自注意力机制,能够充分学习文本特征,发现重要特征忽略次要特征 捕获文本中关键的信息。 基于上述特点,本文结合深度学习与自注意力机制,针对不同类型的文本分 类任务进行研究,主要研究工作如下: (1)使用词嵌入机制解决传统文本分类模型中数据表示的高维度、语义鸿 沟问题。词嵌入将文本数据映射到低维的实数向量中,避免高维度输入导致的维 数灾难,使用词嵌入机制训练的词向量同义词具有相似的特征,使得词的向量表 示具备一定的基础语义信息,有效避免语义鸿沟。对于不同领域的数据集,采用 Word2vec 框架自行进行词向量的预训练工作。 (2 )针对单标签文本分类任务,提出基于自注意力机制的单标签文本分类 方法——DSA-CNN 模型。DSA-CNN 通过卷积神经网络的卷积和池化结构,进 一步提取文本中的隐藏语义特征。在输入层和池化层分别融合自注意力机制捕获 文本内部结构及依赖关系,对于重要特征词赋予较高的权重,提取特征向量时可 有效减少信息冗余和信息丢失,突出关键词的作用。通过在多个数据集上设计实 验证明该模型的有效性。 (3 )针对多标签文本分类任务,提出基于自注意力机制的多标签文本分类 方法——SA-GRU 模型。SA-GRU 结合GRU 网络对文本信息进行建模,捕获文 本序列中较长的上下文信息,使用自注意力机制对GRU 网络的隐层单元输出评 分并分配权重。考虑标签间的语义相关性,根据标签语义对句子中的单词评分, 最后融合注意力评分与标签语义评分,该机制能够关联标签语义与标签所关注单 词,一定程度上缓解“尾标签”导致标签数据分配不均训练困难的问题。通过在 I “Toxic Comment ”数据集上设计实验验证SA-GRU 的有效性。 关键词:自注意力机制;深度学习;卷积神经网络;GRU 神经网络;文本分 类 II Abstract With the rapid development of computer information technology and mobile Internet, a large amount of text data is generated every day. Faced with massive data, it is necessary to efficiently obtain valuable information. In order to meet peoples personalized needs for information, corresponding processing technologies need to be used to process and process massive text data, and text classification technology is the cornerstone of these technologies. Text classification is a classic topic in the field of natural language processing. Traditional text classification metho

文档评论(0)

136****6583 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档