- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
公共网络舆情监测与信息处理平台开发探
讨
作者:李成
来源:《科学与技术》2019年第4期
■李成
摘要:由于各种事件的刺激而产生,并且通过互联网传播的人们对于各种事件的所有认知、
态度、情感和行为倾向的合集,称为网络舆情。随着信息和网络技术的发展,人们可以自由地
在网络新媒体中发表关于社会中各种现象和问题的态度与意见等,以论坛、微博、博客等为载
体的网络新媒体已日益成为舆论传播和热点聚集的重要源头,舆论热点的多发、突发、频发也
已成为常态。为了加强公共部门网络的管理,开展公共部门舆情信息的监测与分析,已经成为
目前亟需解决的现实问题。公共部门舆情监测分析系统可以实现针对公共部门网络海量舆情的
实时监测分析,有效地解决以传统的人工方式进行舆情监测的很多难题。
关键词:公共部门网络;舆情监测;分布式;网络爬虫
1.引言
公共部门网络上,网络舆论主要是从新闻回帖、网络论坛、博客、网民聊天室等反映来的。
网络论坛是这其中最主要的平台,公共部门网络中也已经形成了一批著名论坛。论坛议题涉及
到政府建设建设的各个方面,其中既有一些合理化的积极建议,还有是对公共部门不正常现象
的披露,另有一小部分是发泄对现状的不满情绪。研发从海量公共部门网络信息中及时准确地
发现和搜集到工作需要的舆情信息的监测系统,可为政府部门提供了解百姓诉求的便捷渠道,
可有效化解公共部门“网络暴力”,有利于社会稳定。
2.网络舆情采集技术研究与实现
利用有哪些信誉好的足球投注网站技术自动地在网络上采集信息,将节约大量的人力物力成文,大大提高舆情监测
的工作效率和时效。有哪些信誉好的足球投注网站引擎(searchengine)是指根据一定策略、运用特定计算机程序从互
联网搜集信息,在对信息组织、处理后,为用户提供检索服务,将用户检索相关的信息展现给
用户的系统。
有哪些信誉好的足球投注网站引擎一般由索引器、检索器、有哪些信誉好的足球投注网站器和用户接口组成。有哪些信誉好的足球投注网站器的功能是在网络中漫游,
搜集和发现信息;检索器的作用是根据用户的查询在索引库中快速检索,对将要输出的结果排
序,进行相关度评价,并能按用户的需求反馈合理信息;索引器的功能是根据有哪些信誉好的足球投注网站器搜到的信
息结果,从中抽出索引项,用于生成文档库的索引表以及表示文档;用户接口的功能是接纳用
户查询、提供所需要的查询项、显示查询结果等。
有哪些信誉好的足球投注网站引擎工作流程可分为三部分:爬取网页、处理爬取的网页、提供检索服务。
(1)爬取网页:每个独立有哪些信誉好的足球投注网站引擎都有自己爬取网页的程序(网络爬虫)。网络爬虫根据
网页中的超链接地址,不断地抓取网页。被抓取的网页被称之为网页快照。因为互联网中应用
超链接非常广泛,理论上,给爬虫一定范围网页,就能搜集到大部分的网页。
(2)处理网页:有哪些信誉好的足球投注网站引擎抓取到网页后,还要做大量预处理工作,才能去提供检索服务。
其中最重要的就是建立索引文件,提取关键词。其他还包括去除重复网页、判别网页类型、中
文分词、计算网页的重要度、分析超链接。
(3)提供检索服务:户输入关键字进行检索,有哪些信誉好的足球投注网站引擎从索引数据库中找出匹配该关键字
的网页;为了用户便于判断,除了网页地址和网页标题外,还会提供一段来自网页的摘要及其
他信息。
通用有哪些信誉好的足球投注网站引擎采用的方式是语义上的有哪些信誉好的足球投注网站,是通过关键字的方式实现的,返回的结果倾向
于知识成果,比如新闻,论文,文章等等。大家经常使用的有哪些信誉好的足球投注网站引擎如:谷歌、百度、雅虎等
都是通用有哪些信誉好的足球投注网站引擎如今的杰出代表,他们为互联网的发展做出了重大贡献。有哪些信誉好的足球投注网站引擎所提供的
网络有哪些信誉好的足球投注网站服务目前是互联网上最重要的网络服务之一,有哪些信誉好的足球投注网站引擎也早已成为人们在网络中的
“导游”[5]。
3.话题追踪技术
话题追踪的目的就是,事先给出一个或几个关于某话题的新闻报道,找出关于该话题相关
的后续报道。它是TDT(话题检测与追踪)技术的重要子任务。它能够在众多的信息资源中,
帮助人们节约查阅和浏览新闻的时间,掌握一个话题的来龙去脉。话题追踪的定义是:根据文
本的内容,在给定的追踪体系下,自动确定文本关联的主题。用数学方法看,话题追踪将未标
明主题的文本映射到已有主题中,是一个映射的过程,因为一篇文本可以同多个主题相关联,
该映射可以一一映射,亦可是一对多映射。
3.1文本分类技术
话题追踪的基本思想是,把人工给定的几篇报道作为训练样本,采用一定的追踪公式对训
练样本进行计算和学习;当有新报道时,按公式计算报道的分数,根据指定的阈值,当分数大
于阈值时,判定新报道属于主题,否则判定报道不属于原主题。我们可以把话题追踪技术看为,
加上以下三个约束条件的文本分类技术:
1、把事先
文档评论(0)