产品经理-关于文本舆情数据的6个分析方法.pdfVIP

下载本文档

0
0
约4.01千字
约 11页
2024-07-14 发布于浙江
举报
版权申诉

产品经理-关于文本舆情数据的6个分析方法.pdf

1、本文档共11页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

关于文本舆情数据的6个分析方法

用户舆情信息包括文本、音频、图片等各样的形式，在实际工作

中，我们广泛应用较多的类还是文本类的用户舆情。综合考虑数量、

丰富性、易获得性、信息匹配度等各方面因素，文本之于音视频、图

片而言的信息价值、性价比都是相对比较低的。

当我们从电商、论坛、应用市场、新闻媒介等渠道平台取到大量

和调研目标相匹配的用户舆情文本后，具体理应如何应用？其中可能

包含哪些对用研的内容？可以通过什么方法提炼分析？能同时实现什

么预期效果？根据以往房地产项目经验，文本舆情分析的价值和具体

嵌入式如下图所示：

这些内部信息既描述说明了“是什么”的问题，也可以表明属性、

关系、喜好，说明是“怎么样”的，还能在一定程度上分析背后的原

因，分析“为什么”，可以挖掘出包含内含其中的焦点、趋势、关联，

帮助我们了解产品的市场反馈和用户需求，为方向聚焦、策略引导、

价值判断提供依据。

分析文本舆情数据，主要用到的是文本分析工具的方法。因为文

本数据是非程式设计亦非的，拿到把舆情之后的一个关键问题是要文

本数据转化为能被计算机理解和处理的结构化数据，然后可能进一步

对用户舆情数据进行完整系统的处理分析，从无关冗余的数据中提炼

出有意义部分。

过程中可能需要用到的工具有：

1、数据爬虫

明确舆情分析的目的和需求后，筛选数据来源渠道获取用户舆情

数据。

网络上例如论坛发帖、微博评论、淘宝京东的评价等文本舆情信

息都是可以用爬虫工具直接爬取的。以八爪鱼为例，可以很方便的从

网站上把我们需要的按二维结构表的形式（比如excel）免费下载保存。

如下图所示，八爪鱼就从电商网站商品详情页上爬取到了信息。同理，

爬取用户舆情数据也可以采用相同的方法实现。

2、文本清洗和预处理

应用程序文档在网络上的书写表达非常随意多样，汉字中夹杂数

字、字母、符号；语句段落的表达间断不完整，还会出现大量重复的

短语短句，比如有的人会书评“棒棒棒棒”“太太太太差了“。文本

清洗首要是把这些数据清洗掉。ROST的“文本处理”功能可以用来进

行文本清洗。

我们还应根据需要对数据进行重新编码。例如在网易云课堂的某

次舆情分析中，用户大量提及了河北大学MOOC，但表达方式有多种

（如中M、中国大学慕课、慕课）。为了便于分析，统一编码是非常必

要的。

3、分词

分词就是把一段中文文本切割成一个个单独的词。中文分词难点

在于书写中文时字词之间并不是明显的间隔或划分，不像英文那样长

短可以根据自然书写的间隔实现基本的分词（如“wearefamily”可以

直接拆分出“we”“are”“family”）。

汉字书写表达时没有明显的抄写分隔符，再加上汉语博（那）大

（么）精（复）深（杂），大大增加了中英文分词的难度。这里举一

个经典之作的例子：短语“南京市长江大桥”中由于有些词语存在歧

义，计算机的分词结果可能是“南京市/长江/大桥”，也可能是“南

京/市长/江大桥”。我们显然知道第一种情况或许是正确性的，但如

果算法偷懒还不够完善计算机就除非出错，毕竟两种结果基于汉语构

词和语法规则都是说得通的。可见具体在实际进行分词的时候，结果

可能存在一些不合理的存有情况。基于数学方法和中文词库建成分词

系统后，还需要通过不断的虚拟式训练来提高分词的效果，如果不能

考虑到各种复杂的汉语语法情况，算法中存在的缺陷容易影响分词的

准确性。

4、词频和关键词

词频就是某个词在文本中出现的频次。简单来说，如果一个词在

文本中出现的频次越多，这个词语在文本中就越重要，就越不有可能

是鲁让县该文本的关键词。这个逻辑本身没有环境问题，但其中有一

些特殊境况需要留意。

最关键的一点就是在关于自然语言的语料库里，一个单词出现的

频率与它在频率表里的排名成反比。根据经典“齐夫定律”的定义，

假设我对文本进行分词处理并统计了词频，发现词频排名TOP3的三个

词分别为“的”、“是”、“它”，那么“的”出现频率应该约为

“是”的2倍，约为“它”的3倍。结果就可能会是词频排名靠前的

高频词占去了整个语料的大半，其余多数词的的绝大多数出现频率却

很少。

所以不能完全直接的基于词频来判断舆情文本中哪些是重要的关

键词，词频最高的实际上是中文中的常用字，而非对当前文本最有代

表性的关键词。如下图的词频曲线所示，只有出现在纯粹曲线中间区

域的词才是真正在

您可能关注的文档

文档评论（0）

135****8957 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

产品经理-关于文本舆情数据的6个分析方法.pdfVIP