SPSSAU_文本分析模块_词云分析等.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

词云、tf-idf、词定位SPSSAU

词云分析等

文本分析模块中,最重要和最基础的为展示分词结果,通常是使用词云进行展示。在‘词

云分析等’中,SPSSAU提供四种功能,分别是词云分析、自定义词云、词定位和tf-idf,本文

档使用‘体验DEMO数据’,其来源于2023年12月住建委的“建设要闻”栏目下面41条新

闻全文内容,共129kb。接下来说明将基于该数据进行展示和说明。

目录

词云分析2

自定义词云3

词定位3

tf-idf4

词云分析

进入文本分析时,首先可以看到词云结果,本案例时结果如下:

词云图直观展示住建很2023年12月共41条新闻内容的关键词信息,住户、城市、发展、

建设等均是关键信息。默认是展示前100个高频关键词,可自主设置该数字。也可修改词云风

格和下载该词云图。

另外,图中还出现一个数字12,可点击该数字查看其具体定位情况,点击后如下图:

可以通过词定位看到,切词时将12看作是一个关键词,具体出现在那些行中,可通过行号

进行查看,并且也可点击‘文本内容’查阅具体文本信息。此时可将12设置为停用词,共通过

左侧表格进行点击操作,也或在‘我的词库’中进行单独设置均可。当然,也可自己将数据下

载,然后使用‘自定义词云’功能进行手动绘图,更加灵活地展示需要展示的信息。

在词云展示信息左侧表格时,展示信息包括关键词,词频,该关键词出现的行数等,可对

关键词进行相关排序,并且下载关键词结果等。如下图所示:

上图中,词频是指该关键词在整个数据中出现的次数,出现行数指该关键词在多少行中有出

现过,如果关键词在一行中出现多次则也只记录为1行。

提示:

文本分析时,可能会得到上万(甚至10万)个关键词,但真实有用的关键词很少,SPSSAU

默认提取出前1000名的关键词进行输出并且展示等。

自定义词云

自定义词云提供一种自由和灵活的词云绘图方式,研究者可将整理好的信息,包括关键

词和其词频,直接粘贴(或者自主编辑)在表格中,然后右侧自动呈现出词云效果,并且可

对词云进行下载,词云风格设置等操作。类似如下图所示:

词定位

在文本分析,词定位是个重要的功能,其可用于展示具体某个关键词在那些地方有过

出现,比如本案例中‘发展’这个关键词,研究者希望了解该关键词的具体出处信息等,则

可首先有哪些信誉好的足球投注网站该词,然后点击式查看具体信息,如下图所示:

上图显示,‘发展’这个关键词共在22行中有出现过,右侧展示具体的行号,以及具

体的文本内容信息,与此同时,右侧文本中会高亮展示‘发展’这个关键词,便于研究者查

看信息。

tf-idf

文本分析中,tf-idf是个重要的指标,其反映某关键词在整份数据中的重要性程度,当

tf-idf越高时,其重要性越高。其与词频的意义不尽相同,词频是指出现次数,而tf-idf更加

关注于关键词的重要性程度。

tf-idf计算时包括2个指标,分别是tf(termfrequency,词频),其表示某个关键词的出

现次数(并且进行归一化处理),tf越高意味着出现频率越高,那么其重要性也会越高,但

是当一个词出现的频率特别高时,其可能是一个常用词,比如‘你好’,事实上这种常用词

的重要性并不高,因而接着还有一个指标即idf。idf(inversedocumentfrequency,逆文档频

率),其为‘到处出现’的体现,当关键词到处出现时,说明该关键词可能是常用词不那么

重要,因而idf应该低,如果关键词不是到处出现,那么说明该关键词可能重要性高,因而

idf应该高。

最终tf-idf=tf*idf计算得到。具体公式如下:

tf=n/N,其中n为某关键词的词频,N为整份数据关键词词频总和,N是个固定值,

当n即词频越高时tf越高,说明该关键词越重要;

idf=log(D/(1+d)),log是取对数,D为数据的行数,d为数据中某个词在多少行中出现

过。D为固定值,d值越大即到处出现时idf反而越小,d值越小即并非到处出现时idf反而

越高,idf越高代表某关键词重要性越高。

文档评论(0)

147****4623 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档