TF-IDF和Word2vec在新闻文本分类中的比较研究.docx

TF-IDF和Word2vec在新闻文本分类中的比较研究.docx

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

TF-IDF和Word2vec在新闻文本分类中的比较研究

?

?

王丽肖小玲张乐乐

摘要:随着互联网时代的发展,各类数据层出不穷,新闻数据更是呈指数爆炸式增长,通过人工对新闻文本进行分类得越发困难。自动文本分类技术作为自然语言处理的重要分支而受到学者们的广泛关注。文章首先对新闻文本进行数据预处理,随后重点研究了TF-IDF和Word2vec两种不同的文本表示方法,采用KNN算法完成新闻文本分类对比,实验结果表明Word2vec表示的特征向量在新闻文本分类中取得了较好的分类效果。

关键词:TF-lDF;Word2vec;文本分类

:TP3:A

:1009-3044(2020)29-0220-03

1引言

自然语言处理中无疑是当前最热的话题之一,文本分类作为自然语言处理的重要分支,其主要包括数据预处理、文本表示、特征选择、构造分类器等过程。文本表示是计算机理解人类语言的桥梁,即它将非结构化的文本数据转化为计算机可处理的结构化数据。文本表示可划分为以one-hot及TF-IDF为代表的离散表示和以Word2vec为代表分布式表示,其中one-hot编码由于无法保留不同词之间的关系且会产生一个维度高又稀疏的特征矩阵故很少直接应用到实际项目中,而TF-IDF和Word2vec常被人们用于解决人工分类的难题。如文献[1]使用TF-IDF算法提取文本特征辅助短文本正确归类。文献[2]融合TF-IDF和LDA的方法解决了FastText文本分类模型在中短文本中精确率不高的问题。文献[3]在传统的TF-IDF关键字权重计算方法中加入位置权值和词跨度权值,从而考虑词语多个特征项来提高分类效果。文献[4]利用Word2vec模型生成专利词向量有效地提高了专利文本的分类效果。文献[5]将单词的词向量和单词贡献度生成文档向量,从而在一定程度上保证了文档向量中重要词词义的完整性。文献[6]指出传统KNN算法的存在的不足,并提出了不同的改进策略。文献[7]使用贝叶斯、KNN和SVM算法对新闻文本分类进行了分析研究。文献[8][9][10]利用经典的机器学校算法对中文文本进行分类研究,指出了各种机器学习算法在中文文本分类上的优势和不足。

本文首先对新闻文本数据进行分词、去停用词等预处理,随后采用TF-IDF和Word2vec两种方法将文本转化为向量并对其进行分类实验,最后讨论了两种文本表示方法在新闻文本分类中的作用。

2相关工作

本文分别使用TF-IDF模型和Word2vec模型对新闻文本进行分类研究,总体框架如图1所示。

2.1数据集及预处理

本文采用搜狐新闻收集的数据集,共选取了房产、家居、时尚、财经、娱乐、游戏、教育、时政、科技和体育等10个新闻栏目的新闻数据,每个类别有6500条数据。首先对全部新闻数据采用jieba工具进行分词,并将分词文本中的停用词剔除;其次把每个类别中的新闻数据划分5000条用于训练,1000条数据用于测试,剩余数据用于验证。

2.2文本表示方法

由于计算机无法直接处理如语音,文字和图像等非结构数据,故我们需要将文本转化为计算机能够识别的结构化数据。这一过程称为文本表示,即将自然语言转化为向量的过程。

2.2.1TF-IDF

TF-IDF(TermFrequency-InverseDocumentFrequency,词频一逆文件频率)是一种用来评估某个词语对于某篇文章重要程度的统计方法,其核心思想是,如果某个词语在一篇文章中出现的频率较高,且在其他文章中鲜少出现,则判定该词语能较好地代表当前文章:

TF-IDF=TF*IDF

TF(词频)指某一个词语在当前文章中出现的次数,由于同一个词语在不同长度的文章中出现的次数不一样,且文章越长,出现的频率可能就越高,故需要对词语进行归一化,计算公式如下所示:

IDF(逆文档频率)是在词频的基础上,对每个词语赋予一个权重,即如果某个词语很少出现在其他文章中,但在当前文章中多次出现,那么这个词语应给予较大的权重;反之如果一个词在大量的文章中均有出现,且在无法代表当前文章内容,则应将较小的权重赋予该词。其計算公式如下:

2.2.2Word2vec

Word2vec是一种用来产生词向量的浅层神经网络,于2013年Google团队提出,其核心思想是通过词的上下文得到词的向量化表示,共有skip-grams和CBOW两种模型。

如图2所示,CBOW模型先获取某个词的上下文,然后利用上下文推测出这个特定词,即将某一个特征词的上下文相关的词对应的词向量作为输入,并通过评估概率找出概率最大特定词输出。

如图3所示,Skip-gram则是通过某个特定词来预测出可能出现在其上下文的词,即输入是特定的一个词的词向量,而输出是特定词对应的上下文词向量。

故由上可知,同o

文档评论(0)

刘畅 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档