基干泊松分布及伽马分布网络舆情热点发现.doc

基干泊松分布及伽马分布网络舆情热点发现.doc

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基干泊松分布及伽马分布网络舆情热点发现

基干泊松分布及伽马分布网络舆情热点发现   〔摘要〕本文提出了一种基于泊松分布和伽马分布的网络舆情热点实时识别方法。该方法使用话题的人气和时间间隔特征两方面来识别舆情热点,发现单位时间内(如1小时)参与话题讨论的人数成泊松分布,回帖的时间间隔服从伽马分布。本研究用历史数据证明了该方法具有良好的识别效果 〔关键词〕网络热点;网络舆情;伽马分布;泊松分布;热点发现;话题热度 DOI:10.3969/j.issn.1008-0821.2017.01.014 〔中图分类号〕G203〔文献标识码〕A〔文章编号〕1008-0821(2017)01-0077-04 〔Abstract〕A method was proposed in the paper to identify online hot topics based on Poisson distribution and Gamma distribution,which combined the popularity and time interval characteristics of hot topics.It was found that the number of people participating in a topic discussion per unit time(e.g.one hour)follows a Poisson distribution,and the time interval between two replies follows a Gamma distribution.Historical data was used to test the effectiveness of the method. 〔Key words〕online hot topics;online public opinion;gamma distribution;Poisson distribution;hot topic identification;topic hotness 中??互联网信息中心第38次《中国互联网络发展状况统计报告》显示,截至2016年6月,中国网民规模达7.10亿[1]。互联网已成为民众接收和发布消息的主要渠道,网络舆情已具备较大规模。网络舆情传播由于具有传播速度快、覆盖范围广、互动性强等特点,已引起政府管理的高度重视,也成为学术界研究的流行内容。其中,对于网络舆情的实时监测和分析是舆情研究的重点内容之一 当前国内关于网络舆情的监测主要可以分为两大技术路线。一种是基于内容的分析,即对网络信息文本进行关键内容的提取,再通过关键词识别、支持向量机、K均值等分类或聚类的方法发现舆情热点[2]。这方面的研究已经较多。另一种是基于舆情发展模式的分析,这条路线主要是从数量关系和时间特征上发现舆情热点与普通网络话题的区别[3-5],从而进行热点的发现。目前这条路线的研究还相对较少。已有的研究主要存在两种思路:一种是将单位时间内的回帖量与回帖人数是作为识别网络舆情热点的主要指标。另一种是利用回帖的时间间隔特征来反映话题帖的活跃度。从已有的文献看,两种思路都存在需要进一步解决的问题。对于第一种思路,以单位时间进行统计(比如1小时统计1次)可能出现遗漏潜在舆情热点的情况,即在统计时段中后期才启动的舆情话题,由于在数量上可能还达不到设定的阈值而在统计时未被识别出来。而舆情热点的识别越早越好,能越早识别出潜在的热点,就能够进行很好的控制和引导。因此,需要对话题的发展趋势做一个概率的判断。此外,回帖量和回帖人数可能不在同一个数量级,如果简单地将两者结合起来使用,可能会弱化数量级相对较低的回帖人数的作用。为避免出现这种情况,需要对回帖量或者回帖人数进行一定的数学转换,使二者处于同一数量级。对于第二种思路,回帖的时间间隔到底具备什么样的特征,已有的研究也只是提出了一个抽象的函数f(t),而对于f(t)的具体内容没有进一步分析。针对以上问题,本文提出一种将回帖人数和回帖时间间隔结合起来的网络舆情热点发现的方法。该方法基于两个重要的统计分布:泊松分布和伽马分布 1网络舆情热点特征 网络舆情热点与普通网络话题的区别主要体现在两个方面。一是单位时间内参与热点话题讨论的人数众多;二是回帖的时间间隔短。讨论人数多,回帖的时间间隔短,则使得单位时间内回帖的数量大,从而形成舆情热点。因此,人气(回帖人数)和时间间隔这两个变量可以用作发现网络舆情热点的指标。笔者以一个高校网络论坛2008年4月和5月的历史数据为例,探索运用这两个指标实时发现网络舆情热点的方法。首先从2008年4月的数据中找出30个热点话题帖作为素材,分析热点话题在人气和时间间

文档评论(0)

linsspace + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档