基于大数据技术的网络舆情文本挖掘研究.docx

基于大数据技术的网络舆情文本挖掘研究.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

基于大数据技术的网络舆情文本挖掘研究

?

?

刘洪霞

摘要:本文对大数据、网络舆情信息相关特征进行分析,并以大数据为基础构建模块对网络舆情相关文本进行挖掘,同时对预警模型进行构建。此外,还使关系型、分布式两种数据库得到融合,使其能够对从采集至查询分析全过程进行适应,并扩展了MapReduce这一核心技术。

关键词:大数据技术;网络舆情文本;挖掘研究

引言

Web时代不断推进,使国内网络以较快速度进行普及。现阶段公众通过互联网这一平台对信息进行获取与表达,此外还是相关部门对公众舆情进行获取与了解的关键窗口。若想对网络舆情进行准确获取,必须配以相应信息技术。例如,可以对舆情预警模块利用数学模型进行构建,使舆情预警可以实现定量分析。此外,外国学者对舆情传播更为关注,而国内更多重视舆情本质及其预警的相关研究。下面通过利用大数据在处理数据方面的优势来对舆情文本进行挖掘,同时以其为基础对预警模型进行构建。

一、大数据基本概述

1、大数据、网络舆情相应特征简述

大数据并不仅限于海量数据,其还包含对于数据处理的相应方式。网络舆情也没有在网络中直接存在,需要配套技术对其从网络数据当中进行提取、分析。舆情获取与大数据相关思想十分契合。例如,大数据“4V”这一特征便和舆情联系十分密切。如下表所示。二者特征十分契合,很大程度上因为二者分析目标一致,也就实现更为准确预测。这便使大数据相关思想、技术等与舆情预警相契合这一猜想得到理论论证。但舆情舆情更多侧重与发现舆情的及时性,其准确度与数据、算法模型相关,及时度则取决于相应平台处理的效率。而传统技术更多关注准确度,对时间并未有更多要求,因此无法与舆情预警相契合。

2、关系型、分布式两类数据库优缺点

数据库主要有关系型、分布式两类,前者(RDB)发展较久,因此其在对数据管理、分析等方面较为成熟,但其扩展性受到较大限制,并不能对大数据进行有效分析。后者(HBase)不论是扩展性还是容错性等较高,其可以实现规模化的并行处理,可以适应诸多数据领域,例如MapReduce便是其中代表。RDB特征是其SQL语言较为标准并且约束较为完整,因此其在处理性能以及确保数据完成等方面较强。而HBase对扩展性有着较好考虑,其发展初期便对TB或者是PB等级别的数据进行存储、读写等进行设计。而RDB则受到理论、实现等方面限制,其扩展性方面最多为摆个服务器的节点。而网络舆情相关数据源自整个网络,同时要确保各部门对检测信息进行共享,若仅依赖RDB无法高效实现上述目标。二者优缺点如下表所示。

二、构建模块对网络舆情文本进行挖掘

1、使数据库向着混合型发展

由于HBase在擴展性或者使对数据进行多样化地存储方面优势较强,而RDB可以有效实现对后期数据进行查询等目的,所以对构建模块时应将二者进行结合,使其呈现混合化,该混合系统应包含关系型(RDBMS)、分布式(HDFS)两类管理系统。这种混合系统较为明确地分为两层,下层主要利用HDFS来分解、调度相关任务,上层则通过RDBMS来对数据进行查询、处理。该系统可通过HDFS这一调度机制来提升自身扩展、容错性,从而在对规模较大的数据进行分析时横向扩展等问题进行解决,使多部分间信息得以共享。此外,通过RDBMS可以对数据进行存储与查询,从而使其查询分析等性能得到提升。

2、对MapReduce进行扩展

MapReduce这一技术主要处理海量数据,而对以该技术为基础的具有相关文本特征的向量进行提取则是预处理的重要步骤。Map任务中对文件的输入操作可当做多元素(一篇文档)构成,而其数据块则是较多元素构成的集合,同时一个元素不可以跨越数据块进行存储。系统内全部Map输入预计Reduce输出都需要以key-value对形式进行,该方式可以确保后续过程可构成组合器。

Map函数能够对文档进行转换,并且以key-value对来输出,而键、值类型不定,同时键并不唯一,一个Map内可以存在多个key-value对含有相同键。

在全部Map任务完成之后,主控程序便分类聚合文件(一般以一个Reduce文件为基准),同时对各键k进行输入,其中处理键输入为,其中都来自Map中输出结果是k的key-value对。

三、对预警模型进行构建

1、对系统功能相关框架进行构建

对其功能架构进行构建,该预警模型主要以三层结构为基础进行设计,其逻辑为服务层、处理层以及查询层。而其中一般将服务与处理层分开进行设计,从而对采集以及存储等细节进行评比,确保舆情数据可以得到有效共享,实现大区域横向形式的组合。此外,该模型把查询层进行了独立处理,确保模型在使用、查询时更为灵活,便于信息共享的跨区域、部门目标的实现。

2、对功能模块进行设计

该模型一般由数据采集、处理以及舆情分析和查询三方面组成。其中采集模块主要源于海量网

文档评论(0)

158****1629 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档