- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
词云、tf-idf、词定位SPSSAU
词云分析等
文本分析模块中,最重要和最基础的为展示分词结果,通常是使用词云进行展示。在‘词
云分析等’中,SPSSAU提供四种功能,分别是词云分析、自定义词云、词定位和tf-idf,本文
档使用‘体验DEMO数据’,其来源于2023年12月住建委的“建设要闻”栏目下面41条新
闻全文内容,共129kb。接下来说明将基于该数据进行展示和说明。
目录
词云分析2
自定义词云3
词定位3
tf-idf4
词云分析
进入文本分析时,首先可以看到词云结果,本案例时结果如下:
词云图直观展示住建很2023年12月共41条新闻内容的关键词信息,住户、城市、发展、
建设等均是关键信息。默认是展示前100个高频关键词,可自主设置该数字。也可修改词云风
格和下载该词云图。
另外,图中还出现一个数字12,可点击该数字查看其具体定位情况,点击后如下图:
可以通过词定位看到,切词时将12看作是一个关键词,具体出现在那些行中,可通过行号
进行查看,并且也可点击‘文本内容’查阅具体文本信息。此时可将12设置为停用词,共通过
左侧表格进行点击操作,也或在‘我的词库’中进行单独设置均可。当然,也可自己将数据下
载,然后使用‘自定义词云’功能进行手动绘图,更加灵活地展示需要展示的信息。
在词云展示信息左侧表格时,展示信息包括关键词,词频,该关键词出现的行数等,可对
关键词进行相关排序,并且下载关键词结果等。如下图所示:
上图中,词频是指该关键词在整个数据中出现的次数,出现行数指该关键词在多少行中有出
现过,如果关键词在一行中出现多次则也只记录为1行。
提示:
文本分析时,可能会得到上万(甚至10万)个关键词,但真实有用的关键词很少,SPSSAU
默认提取出前1000名的关键词进行输出并且展示等。
自定义词云
自定义词云提供一种自由和灵活的词云绘图方式,研究者可将整理好的信息,包括关键
词和其词频,直接粘贴(或者自主编辑)在表格中,然后右侧自动呈现出词云效果,并且可
对词云进行下载,词云风格设置等操作。类似如下图所示:
词定位
在文本分析,词定位是个重要的功能,其可用于展示具体某个关键词在那些地方有过
出现,比如本案例中‘发展’这个关键词,研究者希望了解该关键词的具体出处信息等,则
可首先有哪些信誉好的足球投注网站该词,然后点击式查看具体信息,如下图所示:
上图显示,‘发展’这个关键词共在22行中有出现过,右侧展示具体的行号,以及具
体的文本内容信息,与此同时,右侧文本中会高亮展示‘发展’这个关键词,便于研究者查
看信息。
tf-idf
文本分析中,tf-idf是个重要的指标,其反映某关键词在整份数据中的重要性程度,当
tf-idf越高时,其重要性越高。其与词频的意义不尽相同,词频是指出现次数,而tf-idf更加
关注于关键词的重要性程度。
tf-idf计算时包括2个指标,分别是tf(termfrequency,词频),其表示某个关键词的出
现次数(并且进行归一化处理),tf越高意味着出现频率越高,那么其重要性也会越高,但
是当一个词出现的频率特别高时,其可能是一个常用词,比如‘你好’,事实上这种常用词
的重要性并不高,因而接着还有一个指标即idf。idf(inversedocumentfrequency,逆文档频
率),其为‘到处出现’的体现,当关键词到处出现时,说明该关键词可能是常用词不那么
重要,因而idf应该低,如果关键词不是到处出现,那么说明该关键词可能重要性高,因而
idf应该高。
最终tf-idf=tf*idf计算得到。具体公式如下:
tf=n/N,其中n为某关键词的词频,N为整份数据关键词词频总和,N是个固定值,
当n即词频越高时tf越高,说明该关键词越重要;
idf=log(D/(1+d)),log是取对数,D为数据的行数,d为数据中某个词在多少行中出现
过。D为固定值,d值越大即到处出现时idf反而越小,d值越小即并非到处出现时idf反而
越高,idf越高代表某关键词重要性越高。
您可能关注的文档
- SPSSAU_实验医学研究_分层卡方.pdf
- SPSSAU_实验医学研究_负二项回归.pdf
- SPSSAU_实验医学研究_广义估计方程.pdf
- SPSSAU_实验医学研究_极差分析.pdf
- SPSSAU_实验医学研究_剂量反应.pdf
- SPSSAU_实验医学研究_条件logit回归.pdf
- SPSSAU_实验医学研究_校准曲线.pdf
- SPSSAU_文本分析模块_LDA主题分析.pdf
- SPSSAU_文本分析模块_社会网络关系图.pdf
- SPSSAU_文本分析模块_文本聚类分析.pdf
- 2023学年诸暨中学高三年级第二学期3月第二次模拟考试(政治)公开课教案教学设计课件资料.docx
- 运动的合成与分解(二)公开课教案教学设计课件资料.pptx
- 近五年浙江省各地图形的翻折(轴对称)原题公开课教案教学设计课件资料.doc
- 如何做教师-2019-11-13-中关村一小相关公开课教案教学设计课件资料.pptx
- 生活中的圆周运动 (水平面)正式版公开课教案教学设计课件资料.pptx
- 专题10 条件概率与全概率公式公开课教案教学设计课件资料.docx
- 金华市东阳市2019学年第二学期期末测试卷公开课教案教学设计课件资料.doc
- 5 琥珀(第二课时)【慕课堂版】公开课教案教学设计课件资料.pptx
- 项目五 打印米老鼠模型公开课教案教学设计课件资料.ppt
- (打印版)9月25日地理周练公开课教案教学设计课件资料.docx
文档评论(0)