- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于LDA模型的高校论坛热点提取系统
* * 论坛热点提取的流程分为数据抓取,文本预处理以及主题提取三个模块。数据抓取模块从网络上批量抓取数据形成语料库。随后通过文本预处理模块对抓取的数据进行数据清洗获得符合标准的文本语料。之后通过论坛文本主题提取模块从文本语料中提取主题,输出结果。 * * 数据抓取模块: 北邮人(BYR)论坛成立于2003年9月26日。经过几年的发展,已经成为北邮校内最大的信息交流平台,在北邮及周边学校中拥有较为固定的使用人群,在高校里十分火爆,人气颇高。 由于在BYR论坛中,关于时事舆情的话题讨论通常在论坛的谈天说地版块出现,因此本研究通过论坛爬虫从北邮人论坛的谈天说地版块抓取文档共计30000余篇,文档包括发帖正文以及每个帖子中的回复内容。 文本预处理: 从爬虫中通过数据清洗获得的文本数据通常为完整的文档内容,因此为了提供LDA模型机器学习所须的语料格式,须对原始文本数据进行中文分词,以及关键词提取。 本文使用python的Jieba分词模块来对中文语料进行预处理,最终挑选谈天说地版块从2015年12月到2016年3月的所有文本内容以月份为单位作为样例进行分析及处理。 在本文中对于从论坛抓取的语料, 将同一帖子中正文主题单独作为一个文档,评论部分每五条评论合并为同一个文档。按照上述规则对文本进行划分从而缩小热门帖与冷门帖之间的篇幅差异。热门帖因为回帖量大会分为更多的文档,在关键词提取时也会拥有更多的关键词,这样可以很好地处理热门帖与冷门帖在语料中的权重关系。 论坛文本主题提取: 主题提取是一类通过全自动分类处理的无监督或有监督机器学习算法对文本进行聚类分析的过程。 主题提取的本质是将相似度高的语料聚集在一起,主题提取模型的主要思路在于从语料集中获取不同主题,从而找出该语料集中的热点话题,进行进一步的分析。 本文通过LDA算法对每个月份的文本语料进行主题提取,主题数选取为20个。迭代次数设为200次,待模型趋于稳定后,获取主题相关的关键词以及文档-主题分布,用于分析每个月文本语料的热点话题。 * * LDA模型是一种无监督无层次的主题模型。LDA模型中大致分为三层:文档、主题和单词。通过将文档中每一个单词与一个潜在主题关联起来, 从而挖掘文档中隐藏的主题。 LDA模型是一种文本生成模型,实现文本生成的主要思路为: 1,对于每一篇文档,按照主题的狄利克雷分布从中抽取一个主题 2, 从上述抽取主题的单词分布中抽取一个单词 3, 重复上述过程直至遍历文档中的每一个单词 当LDA模型用于主题提取时,本文使用吉卜斯采样法实现LDA模型 * * 吉布斯采样法的迭代过程为: 迭代过程为: 1,初始化: 对于文档中的每个单词分配到一个随机的主题,形成初始向量 2,开始迭代:遍历文档中的每个单词,对于每个单词根据采样公式计算得到的概率分布P重新分配主题, 3,重复迭代过程直到主题分布趋于稳定。 获得文档-主题,以及主题-单词概率分布。 * * 采样公式中参数含义为: nw[][] : 词word在topic K上的分布 nwsum[] : topic K的单词总数 nd: 文档m中 topic K的单词总数 ndsum: 文档m中的单词总数 p : 概率向量存储采样过程中的临时向量 采样概率P由单词-主题向量与主题-文档向量的成绩构成。 单词-主题向量由公式左半部分表示, 主题-文档向量由公式右半部份表示。 其中β,α参数用于调整单词-主题向量与 主题-文档向量在公式中所占比重。 由于采样的整个过程满足可逆马尔可夫链,因此采样过程最终趋于收敛。 (一个方向的概率连乘积= 逆方向的概率连乘积) * * 由LDA算法可以获得语料的主题-文档分布,从而计算出每个时间段中热度最高的主题。一般认为讨论某主题的文档越多,该主题的热度越高,可以视为热点话题。 在主题-文档分布中,可以认为每个文档对应不同主题的概率可以反映主题Zj和文档D的关联度,公式的分子部分表示文档d对应主题Zj的概率。 为了能够准确地获得各个时间段的热点话题,本文将爬虫抓取到的文本集以一个月为单位按时间段进行划分。 依次对每个时间段中的文档进行训练提取主题。从而获得每个月的热点话题。 * * 本文以2016年3月份的文本集合为例进行热点话题挖掘: 在根据训练获得的文档-话题分布中,热门话题分为两种类型: 1, 大量主题相关帖使主题热度上升 2,单个热门帖是主题热度大幅上升 由于在预处理模块对帖子等篇幅进行过拆分,因此上述两种因素可通过文档-主题分布找到与话题关联度最高的若干文档进行识别。 如果大量关联度
文档评论(0)