网络舆情监测系统框架的研究.docVIP

下载本文档

10
0
约4.36千字
约 10页
2018-11-06 发布于福建
举报
版权申诉

网络舆情监测系统框架的研究.doc

1、本文档共10页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

网络舆情监测系统框架的研究

网络舆情监测系统框架的研究　　[摘要] 在网络时代，互联网舆情迅速形成并发展，对网络舆情进行监测是信息时代政府工作的一个重要方面。本文研究了网络舆情的发展过程，提出了一个互联网舆情监测系统的框架，该框架将网络舆情监测系统分为数据获取、数据预处理、数据分析以及结果呈现模块，并对每个模块的功能以及实现时所需的关键技术进行了阐述。　　[关键词] 舆情监测；网络爬虫；中文分词；文本聚类　　doi ： 10 . 3969 / j . issn . 1673 - 0194 . 2015 . 13. 116 　　[中图分类号] TP391.1 [文献标识码] A [文章编号] 1673 - 0194（2015）13- 0193- 03 　　1 引言　　根据中国互联网络信息中心于2014年7月发布的“第34次中国互联网络发展状况统计报告”显示，截至2014年6月，我国网民规模达 6.32亿人，互联网普及率为46.9%，中国已经成为世界上网民人数最多的国家[1]。　　不同于传统媒体，网络媒体会在第一时间呈现各种突发重大事件，人们在获取必威体育精装版资讯的同时，也通过新型的媒体平台（论坛、博客、微博、各种社交圈）发表自己的意见看法，相互评论，使得互联网舆情迅速形成。　　同时，互联网是一个开放自由的平台，在普通网民正常表达自己观点的同时，还有一部分散播各种色情、暴力、恐怖等不良信息。很多邪教、反动组织也利用网络散布各种谣言，甚至公然与国家为敌。在互联网上还存在大量水军利用网络进行造谣、炒作。因此对互联网舆情进行监测，对我国新时期政府政的策制订、网络安全防范以及网络文明建设有重大意义。　　2 研究现状　　舆情监测工作由来已久，最早的网络舆情监测手段也是基于传统的手工模式。通过雇佣大量工作人员对指定的监测页面进行监测，使用人工方式，对某些重点监测词汇进行频率统计来寻找舆情动向。然而随着互联网的蓬勃发展，传统的方式已经落伍，要对网络舆情进行监测，就必然要依托于一个功能强大的互联网舆情监测系统进行。　　伴随着网络的发展，国内外已有一系列的网络舆情监测系统正式投入使用，这些系统通常是依托于政府部门、学术机构以及企业媒体建设的，分别基于不同的需求（行政决策的、学术研究的、商业开发的），从不同的角度对网络舆情进行监测。　　最早的相关研究始于TDT（Topic Detection and Tracking）项目[2]，它是美国国防高级研究计划局主导的，旨在从新闻网页中找到未知话题并对话题进行追踪。该项目历经多年发展演变，其核心研究内容分为报道切分、话题追踪、话题监测、首次话题报告以及关联监测这5个方面的内容[3]。　　在我国，由于中西文在文本挖掘、分词方面的巨大差异，以及社会经济等方面的差异，基于汉语的网络舆情监测研究起步较晚[4]。目前，学院型的舆情研究机构主要有北京大学中国国情研究中心、中国人民大学舆论研究所、上海交通大学舆情研究实验室等[5]。　　3 网络舆情监测系统框架　　从过程上看，网络舆情监测的本质是从网络上获取数据、分析数据以及按用户需求呈现分析结果的过程，因此在系统实现时，从数据流向的角度，可以把一个网络舆情监测系统划分为数据获取模块、数据预处理模块、数据分析模块以及结果呈现模块，整个系统的结构如图1所示。　　3.1 数据获取模块　　数据获取模块的主要功能是全天候的、自动的从整个网络上，或者某些特定网络上获取进行舆情分析的原始数据。在自动获取数据的过程中，有两方面的要求。一方面，是获取的相关舆情数据相对于整个数据的覆盖率的要求，即要尽可能地获取尽量全面的原始数据；另一方面，则是对数据准确率的要求，即所需数据要尽可能贴近用户关心的舆情热点。只有在覆盖率和准确率全部达标的情况下，才能更好地对网络舆情进行分析预测。目前，常见的数据获取方式有两种：　　（1）网络爬虫方式。互联网的一项基本协议是HTML协议，基于该协议，网络中大量资源以统一资源定位符（URL）相互联系，构成一个有机整体。网络爬虫从一个预先定义好的URL列表开始，依次访问该列表上的所有页面进行数据抓取，并分析当前访问页面中的其他URL，选择符合要求的URL加入待访问队列，试图以深度或者广度的方式对限定范围的网络进行遍历式的访问，以获取该网络的所有信息。　　（2）元有哪些信誉好的足球投注网站采集技术。有哪些信誉好的足球投注网站引擎是大多数网民访问网络的入口，目前有众多的有哪些信誉好的足球投注网站引擎服务提供商，其检索过程有不同的侧重方向，检索结果也各不相同。可以在若干不同的有哪些信誉好的足球投注网站引擎上部署元有哪些信誉好的足球投注网站引擎，通过对下层引擎的调用返回多个有哪些信誉好的足球投注网站结果，并基于一定的算法对不同结果进行选择。使用该方法能够有效地提高数据获取的覆盖率和准确率，且系统构建较为简单。　　3.2 数据预处理模块　　Web页面的数据