- 1、本文档共14页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于GloVe与SVM文本分类研究
基于GloVe与SVM文本分类研究
摘 要:词向量在自然语言处理中起着重要作用,近年来受到越来越多学者关注。然而,在词向量研究中,基于Word2vec词向量的应用研究居多,对于GloVe词向量的应用研究却很少。因此,将GloVe词向量模型与支持向量机(SVM)相结合,利用GloVe词向量模型进行特征提取与选择,利用SVM进行分类,并与Word2vec词向量结合SVM作实验对比。实验结果表明,GloVe词向量特征提取与SVM分类相结合的方法能够取得较好的准确率、召回率及F值,因此在新闻文本分类中具有一定应用价值。
关键词:词向量;GloVe;SVM;文本分类
DOI:10.11907/rjdk.172991
中图分类号:TP301
文献标识码:A 文章编号:1672-7800(2018)006-0045-04
Abstract:Learning high-quality vector representation for words plays an important role in natural language processing and has attracted great attention of many researchers due to its simplicity and effectiveness. However, application research based on the word2vec word vector far outnumbers the GloVe word vector application research . For this reason, this paper proposes a method of combining GloVe word vector with SVM. The method uses GloVe word vector to extract and select features, classifies features by SVM, and compares it with word2vec word vector SVM. The experimental results show that SVM classification method combined with GloVe word vector feature extraction can achieve good accuracy and F value, and gets a good recall rate. Therefore it has certain application value in news text classification .
Key Words:word representation; GloVe; SVM; text classification
0 引言
词向量具有良好的语义特征,是表示词语特征的常用方式。词向量每一维代表一个具有一定语义和语法上解释的特征,该特征能够同时捕捉到单词的语义和语法信息。现有词向量学习方法大致可分为基于神经网络学习和基于矩阵分解学习的方法。基于神经网络学习词向量是指根据上下文与目标之间的关系建立语言模型,通过训练语言模型获得词向量[1-4]。近几年提出的Word2vec[5]词向量模型去除了神经网络结构中的非线性隐层,大大降低了算法复杂度,获得了高效词向量。在Word2vec中提供了两种架构模型:Continuous Bag-of-Words Model(CBOW)和Continuous Skip-gram Model(Skip-gram)。CBOW根据上下文预测目标单词,Skip-gram根据目标单词预测上下文。基于矩阵分解的词向量模型[6]是通过分解从文本语料库中提取的矩阵得到低维词向量,其中典型代表为GloVe词向量。
Word2vec词向量模型已被广泛应用于各种自然语言处理任务[7-11]中,如命名实体识别、情感分析、机器翻译、微博短文本分类等,然而GloVe词向量在自然语言处理任务中却很少用到。另外在词向量应用于文本分类的研究中,很少分析同一个模型训练出的词向量在词向量维度不同情况下的分类效果差别。基于上述原因,本文通过不同维度的GloVe词向量在新闻文本分类中的应用效果研究,并与Word2vec在新闻文本分类中的应用效果作对比,通过样本长度及样本数量的变化检测GloVe词向量在特征提取中的稳定性。其中,通过样本长度变化所引起的分类效果变化探究GloVe词向量在长短文本中的应用情况,通过样本数量变化所引起的分类效果变化探究GloVe词向量
文档评论(0)