- 1、本文档共11页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
关于文本舆情数据的6个分析方法
用户舆情信息包括文本、音频、图片等各样的形式,在实际工作
中,我们广泛应用较多的类还是文本类的用户舆情。综合考虑数量、
丰富性、易获得性、信息匹配度等各方面因素,文本之于音视频、图
片而言的信息价值、性价比都是相对比较低的。
当我们从电商、论坛、应用市场、新闻媒介等渠道平台取到大量
和调研目标相匹配的用户舆情文本后,具体理应如何应用?其中可能
包含哪些对用研的内容?可以通过什么方法提炼分析?能同时实现什
么预期效果?根据以往房地产项目经验,文本舆情分析的价值和具体
嵌入式如下图所示:
这些内部信息既描述说明了“是什么”的问题,也可以表明属性、
关系、喜好,说明是“怎么样”的,还能在一定程度上分析背后的原
因,分析“为什么”,可以挖掘出包含内含其中的焦点、趋势、关联,
帮助我们了解产品的市场反馈和用户需求,为方向聚焦、策略引导、
价值判断提供依据。
分析文本舆情数据,主要用到的是文本分析工具的方法。因为文
本数据是非程式设计亦非的,拿到把舆情之后的一个关键问题是要文
本数据转化为能被计算机理解和处理的结构化数据,然后可能进一步
对用户舆情数据进行完整系统的处理分析,从无关冗余的数据中提炼
出有意义部分。
过程中可能需要用到的工具有:
1、数据爬虫
明确舆情分析的目的和需求后,筛选数据来源渠道获取用户舆情
数据。
网络上例如论坛发帖、微博评论、淘宝京东的评价等文本舆情信
息都是可以用爬虫工具直接爬取的。以八爪鱼为例,可以很方便的从
网站上把我们需要的按二维结构表的形式(比如excel)免费下载保存。
如下图所示,八爪鱼就从电商网站商品详情页上爬取到了信息。同理,
爬取用户舆情数据也可以采用相同的方法实现。
2、文本清洗和预处理
应用程序文档在网络上的书写表达非常随意多样,汉字中夹杂数
字、字母、符号;语句段落的表达间断不完整,还会出现大量重复的
短语短句,比如有的人会书评“棒棒棒棒”“太太太太差了“。文本
清洗首要是把这些数据清洗掉。ROST的“文本处理”功能可以用来进
行文本清洗。
我们还应根据需要对数据进行重新编码。例如在网易云课堂的某
次舆情分析中,用户大量提及了河北大学MOOC,但表达方式有多种
(如中M、中国大学慕课、慕课)。为了便于分析,统一编码是非常必
要的。
3、分词
分词就是把一段中文文本切割成一个个单独的词。中文分词难点
在于书写中文时字词之间并不是明显的间隔或划分,不像英文那样长
短可以根据自然书写的间隔实现基本的分词(如“wearefamily”可以
直接拆分出“we”“are”“family”)。
汉字书写表达时没有明显的抄写分隔符,再加上汉语博(那)大
(么)精(复)深(杂),大大增加了中英文分词的难度。这里举一
个经典之作的例子:短语“南京市长江大桥”中由于有些词语存在歧
义,计算机的分词结果可能是“南京市/长江/大桥”,也可能是“南
京/市长/江大桥”。我们显然知道第一种情况或许是正确性的,但如
果算法偷懒还不够完善计算机就除非出错,毕竟两种结果基于汉语构
词和语法规则都是说得通的。可见具体在实际进行分词的时候,结果
可能存在一些不合理的存有情况。基于数学方法和中文词库建成分词
系统后,还需要通过不断的虚拟式训练来提高分词的效果,如果不能
考虑到各种复杂的汉语语法情况,算法中存在的缺陷容易影响分词的
准确性。
4、词频和关键词
词频就是某个词在文本中出现的频次。简单来说,如果一个词在
文本中出现的频次越多,这个词语在文本中就越重要,就越不有可能
是鲁让县该文本的关键词。这个逻辑本身没有环境问题,但其中有一
些特殊境况需要留意。
最关键的一点就是在关于自然语言的语料库里,一个单词出现的
频率与它在频率表里的排名成反比。根据经典“齐夫定律”的定义,
假设我对文本进行分词处理并统计了词频,发现词频排名TOP3的三个
词分别为“的”、“是”、“它”,那么“的”出现频率应该约为
“是”的2倍,约为“它”的3倍。结果就可能会是词频排名靠前的
高频词占去了整个语料的大半,其余多数词的的绝大多数出现频率却
很少。
所以不能完全直接的基于词频来判断舆情文本中哪些是重要的关
键词,词频最高的实际上是中文中的常用字,而非对当前文本最有代
表性的关键词。如下图的词频曲线所示,只有出现在纯粹曲线中间区
域的词才是真正在
您可能关注的文档
- 上海创意产业及园区情况.pdf
- 浅谈中国舞蹈表演在戏曲艺术中的借鉴与吸收.pdf
- 大学生心理咨询案例分析(二)——社交恐怖症案例及治疗之欧阳体创编.pdf
- 中国邮政未来发展方向策划书.pdf
- 警察心理压力和缓解.pdf
- 司法考试《经济法》练习及答案.pdf
- 杜威的伦理学思想对构建和谐师生关系的启示.pdf
- 有寓意的民间故事.pdf
- 品牌建设与品牌管理-培训大纲-李易洲.pdf
- 大班音乐欣赏教案《狮王进行曲》.pdf
- 5.3.1函数的单调性(教学课件)--高中数学人教A版(2019)选择性必修第二册.pptx
- 部编版道德与法治2024三年级上册 《科技提升国力》PPT课件.pptx
- 2.7.2 抛物线的几何性质(教学课件)-高中数学人教B版(2019)选择性必修第一册.pptx
- 人教部编统编版小学六年级上册道德与法治9 知法守法 依法维权(第一课时)课件.pptx
- 三年级上册品德道德与法治《学习伴我成长》.pptx
- 部编版小学道德与法治六年级上册6 人大代表为人民 课件.pptx
- 部编版小学道德与法治六年级上册1感受生活中的法律第一课时课件.pptx
- 2.5.2圆与圆的位置关系(教学课件)-高中数学人教A版(2019)选择性必修第一册.pptx
- 2.5.1直线与圆的位置关系-(教学课件)--高中数学人教A版(2019)选择性必修第一册.pptx
- 14.1.1 同底数幂的乘法(教学课件)-初中数学人教版八年级上册.pptx
文档评论(0)