网站大量收购闲置独家精品文档,联系QQ:2885784924

《数据挖掘与机器学习》 课件7.1.2 去停用词和特征提取、处理新闻文本数据.pptx

《数据挖掘与机器学习》 课件7.1.2 去停用词和特征提取、处理新闻文本数据.pptx

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

数据挖掘与机器学习

DATAMININGANDMACHINELEARNING

处理新闻文本数据

新闻文本聚类——聚类分析

任务描述处理新闻文本数据

Ø文本数据清洗是指对文本数据进行处理,以去除其中的噪声、错误和无用

信息,使得数据更加准确、可靠和适合分析,在文本分析和挖掘领域中具

有非常重要的意义。

Ø经过清洗的数据有着更好的数据质量,能够使得后续的数据挖掘更加精准

有效。

Ø本任务将对新闻文本数据进行清洗,包括文本读取、分词、去停用词和特

征提取。

任务要求处理新闻文本数据

Ø使用withopen函数读取文本文件。

Ø使用jieba库进行文本分词。

Ø使用stoptxt停用词表去停用词。

Ø使用TfidfTransformer类进行文本特征提取。

Part1相关知识

•读取文件

•jieba分词

•去停用词

•特征提取

去停用词处理新闻文本数据

Ø为什么进行去停用词?

•在文本处理中,停用词是指一些功能极其普遍,与其他词相比没有什

么实际含义的词,通常是一些单字,单字母以及高频的单词。

•例如,中文中的“我、的、了、地、吗”等,英文中的“the、this、an、

a、of”等。对于停用词一般在预处理阶段就将其删除,避免对文本,

特别是短文本,造成负面影响。

去停用词处理新闻文本数据

对文本文件进行去停用词主要通过以下4个步骤实现。

使用withopen或open读取文件

使用read.csv读取停用词表

用for循环遍历文件,去除与停用词表相同的部分

将结果保存到表格中

特征提取处理新闻文本数据

Ø什么是特征提取?

•特征提取是指根据某个特征评估函数计算各个特征的评分值,再按评分

值对这些特征进行排序,选取若干个评分值最高的作为特征。

•特征提取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理

的单词数,以此来降低向量空间维数,从而简化计算,提高文本处理的

速度和效率。

特征提取处理新闻文本数据

Ø特征提取的常用方法如下。

特征提取方式特点

考虑单词出现频率,不考虑上下文信息,简单高效。通过词频模型进行特

征提取就是将词频小于某一值或大于某一值的词删除,从而降低特征空间

的维数,词频是一个词在文档中出现的次数。该模型是基于这样一个假设,

词频模型即出现频率小的词对文章的影响也较小,出现频率大的词可能是无意义的

普通词。但是在信息检索的研究中认为,有时频率小的词含有更多的信息。

因此,在特征选择的过程中不宜简单地根据词频大幅度删词

词频(TF)=某个词在文章中的出现次数/文章的总词数

特征提取处理新闻文本数据

Ø特征提取的常用方法如下。

特征提取方式特点

词频模型考考虑虑相单邻词单出词现组频合率,的不特考征虑,上可下以文捕信息捉,到简一单定高的效上。下文信息。N-gram模型是

N-gram模型在考

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档