- 1、本文档共11页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
?
?
基于Twitter大数据处理的境外舆情分析系统设计与实现
?
?
摘要:境外舆情对于我国的国际形象和国内的稳定具有重要作用,是国家安全的重要部分。通过对Twitter数据分析,该文设计了基于Twitter的境外舆情分析系统。该系统使用Twitter提供的APl数据作为数据源,使用自然语言处理的方法进行数据清洗,通过数据挖掘方法对数据进行大数据分析,最后通过工具进行可视化展示。
关键词:社交网络;境外舆情分析;大数据挖掘;Twitter
:G350:A
:1009-3044(2020)27-0030-04
开放科学(资源服务)标识码(OSID):
1背景
舆情是公众对社会现象、问题、信仰、态度、情绪等的反应。境外舆情对于我国的国际形象和国内的稳定具有重要作用,是国家安全的重要部分。通过境外舆情进行分析系统,及时发现并处理不利于我国的舆论是十分必要的。
Twitter[1](官方中文译名推特,但繁体中文和简体中文的界面均记作Twitter)是一个社交网络与微博服务,它可以让用户更新不超过280个字符的消息(中文、日文和韩文为140个),这些消息也被称作“推文(Tweet)”,是全球使用最多的社交网络服务。
Twitter是互联网上访问量最大的十个网站之一,世界排名前100名的公司中已经有73%出现在了Twitter上,比尔·盖茨、LadyGaga、FBI、美国红十字会、卡塔尔半岛电视台等很多名人和组织都通过Twitter与大众进行互动,甚至还有60余位国家首脑活跃其中。从个人的生活琐事至官方代言、企业营销,再到全球性的新闻事件,以Twitter为代表的微博网站作为互联网Web2.0时代的必威体育精装版的应用,凭借其对信息传播模式的变革影响着这个世界的沟通方式与生活方式。因此,Twitter数据十分适合进行境外舆情分析。
2系统设计
通过对Twitter平台进行分析。它与其他数据分析系统有相当大的区别:
1)Twitter在国内无法访问,需要使用境外代理服务。
2)Twitter数据是以数据流的方式进行传输,需要使用Twit-ter自身的数据传输接口[2-4]。
3)Twitter数据的键值的特殊格式需要使用NoSQL方式进行存储。
4)舆情分析主要任务包括发现目前流行的话题和话题的导向。
系统分为五个部分,系统结构如图1所示:
1)舆情数据抓取:使用python的tweepy[5]工具包来获取Twitter数据。
2)舆情数据预处理:使用NLTK[6]工具包来进行数据预处理。
3)舆情数据存储;使用NoSQL数据库MongoDB[7]来存储数据。
4)舆情数据分析:使用GemSim[8]发现舆情主题,使用vad-erSentiment[9]进行主题情感分析。
5)分析结果可视化:使用Flask[10]开发web应用,使用mat-plotlib[11],D3.js[12]和wordcloudn3]来进行数据可视化。
2.1Twitter数据抓取
基于TwitterStreamingAPI[6]的Twitter实时数据抓取。Twit-ter公司为了便于开发者使用Twitter的数据,提供了开发者平台,该平台提供了不同的API接口,用于调取不同的Twitter数据。该接口分为两大类:‘rwitterRESTAPI和TwitterStreamingAPI。TwitterRESTAPI用于读写Twitter数据,包括用户资料、用户推文、用户好友、用户时间轴、检索推文、地理位置信息、区域话题趋势等等。TwitterRESTAPI使用Twitter应用和用户提供的OAuth信息进行身份验证,返回结果是JSON格式数据。TwitterStreamAPI用于实时的监控和获取Twitter数据流。
OAuth(开放授权)是一个开放标准,允许用户让第三方应用访问该用户在某一网站上存储的私密的资源(如照片,视频,联系人列表),而无须将用户名和密码提供给第三方应用。TwitterOAuth由以下四个部分组成:consumerkey,consumerse-cret.accesstoken和accesstokensecret。JSON这种数据格式的特点是,冗余少,数据结构清晰,非常适用于对数据的抽取分析。
Twitter的StreamingAPI提供给开发者获取Twitter全球实时数据流的途径。通过该方法抓取的Twitter实时数据流,效率高质量好,但由于抽样获取数据不齐全。TwitterStreamingAPI包括三个方面PublicStreams,UserStreams和SiteStreams。一般使用PublicStreams,TwitterStreamingAPI和RESTAP
您可能关注的文档
- 基于产业转型升级的高职院校服务能力建设的有效路径研究.docx
- 基于云计算与弹性计算的基因组预测分析系统.docx
- 基于三农财政政策和互联网+的农产品网络销售模式的研究.docx
- 基于SOA架构的中小企业物流平台研究.docx
- 基于PHP实现的WEB图片共享系统的论文-计算机理论论文.docx
- 基于MasterCAM的曲面多轴加工实例分析-2.docx
- 基于CAN总线的双离合器式自动变速器综合控制.docx
- GB 10409-2019E防盗保险柜(箱).pdf
- 中国国家标准 GB 10409-2019E防盗保险柜(箱).pdf
- 中国国家标准 GB/T 7247.5-2024激光产品的安全 第5部分:生产者关于GB/T 7247.1的检查清单.pdf
- GB/T 39560.10-2024电子电气产品中某些物质的测定 第10部分:气相色谱-质谱法(GC-MS)测定聚合物和电子件中的多环芳烃(PAHs).pdf
- 中国国家标准 GB/T 39560.10-2024电子电气产品中某些物质的测定 第10部分:气相色谱-质谱法(GC-MS)测定聚合物和电子件中的多环芳烃(PAHs).pdf
- 《GB/T 39560.10-2024电子电气产品中某些物质的测定 第10部分:气相色谱-质谱法(GC-MS)测定聚合物和电子件中的多环芳烃(PAHs)》.pdf
- GB/T 39560.302-2024电子电气产品中某些物质的测定 第3-2部分:燃烧-离子色谱法(C-IC)筛选聚合物和电子件中的氟、氯和溴.pdf
- 中国国家标准 GB/T 39560.2-2024电子电气产品中某些物质的测定 第2部分:拆解、拆分和机械制样.pdf
- 中国国家标准 GB/T 39560.302-2024电子电气产品中某些物质的测定 第3-2部分:燃烧-离子色谱法(C-IC)筛选聚合物和电子件中的氟、氯和溴.pdf
- GB/T 39560.2-2024电子电气产品中某些物质的测定 第2部分:拆解、拆分和机械制样.pdf
- 《GB/T 39560.2-2024电子电气产品中某些物质的测定 第2部分:拆解、拆分和机械制样》.pdf
- 《GB/T 39560.303-2024电子电气产品中某些物质的测定 第3-3部分:配有热裂解/热脱附的气相色谱-质谱法(Py/TD-GC-MS)筛选聚合物中的多溴联苯、多溴二苯醚和邻苯二甲酸酯》.pdf
- 中国国家标准 GB/T 39560.303-2024电子电气产品中某些物质的测定 第3-3部分:配有热裂解/热脱附的气相色谱-质谱法(Py/TD-GC-MS)筛选聚合物中的多溴联苯、多溴二苯醚和邻苯二甲酸酯.pdf
文档评论(0)