SPSSAU_文本分析模块_社会网络关系图.pdf

SPSSAU_文本分析模块_社会网络关系图.pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

新词发现信息熵互信息SPSSAU

新词发现

文本分析时,有些词是无法被词典识别到,比如‘元宇宙’这样的新词,以前的词典并没有

它。因而可结合新词发现算法提供一些建议,新词发现具体算法可参考文章“基于信息熵和

互信息的新词提取实现”,或者《互联网时代的社会语言学:基于SNS的文本数据挖掘》。

新词发现时涉及到两个关键指标,分别是:信息熵和互信息。信息熵的意义为衡量某词

与其它词组合一起的容易度,比如‘宇宙’这个词与‘元’或者‘世界’组合一起变成‘元

宇宙’或者‘宇宙世界’的容易度情况。信息熵越大即意味着某词越容易与其它词组合在一

起形成一个词语,信息熵越小即意味着某词越不容易与其它词组合在一起。

互信息的意义为衡量文本组合的紧密程度,比如‘元’、‘宇宙’这两个词组合在一起

的紧密程度情况。互信息值越大则意味着该两个词(或多个)组合在一起越牢固即越可能是

一个新词,反之互信息值越小则意味着越不可能是新词。

提示:

结合信息熵和互信息的意义,一般情况下,新词更加可能为信息熵较高且互信息较高时

出现。

信息熵越高意味着词更容易与其它词组合成新词,而且与其它词组合成新词的牢固度越

高,即意义为‘信息熵’越高,‘互信息’越高时,越有可能是新词。

但具体情况还需要研究者结合新词发现和其实际意义进行综合决择,并无固定标准。而

且通常还需要考虑词频情况,当一个‘可能新词’仅出现几次甚至更少时,加入新词的意义

就很小。当判定为新词时,可批量将其加入到新词词库中,重新进行文本分析,以便得到更

准备的文本分析结果。

在SPSSAU中,默认输入信息熵和互信息这两个指标,如下图所示:

表格中输入‘可能新词’,其对应的词频信息,信息熵和互信息,当然如果判断为新词,

可直接对该词加入新词词库(也或者移除出去),也可以‘批量加入新词’,通常是批量加入

新词更加便捷。上表格时,可通过排序按钮查看可能新词的具体情况,当然也可以对其进行

下载。

除此之外,还可点击某个‘可能新词’,查看其具体的词定位信息,比如点击‘城市更

新’,右侧可查看其在文本数据中的具体位置和内容等,如下图所示:

为了更直观的查看各个‘可能新词’,也可点击‘词云’按钮直观展示,如下图所示:

特别提示:

信息熵和互信息的设定标准参考:在实际研究中一般取信息熵为0.5左右,互信息一般

为50~200之间即可。

当然研究者可自行定义该两个指标值的标准,然后重新分析即可。操作如下图所示:

文档评论(0)

147****4623 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档