网站大量收购独家精品文档,联系QQ:2885784924

基于LDA主题关联过滤的领域主题演化研究.PDFVIP

基于LDA主题关联过滤的领域主题演化研究.PDF

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于LDA主题关联过滤的领域主题演化研究

研究论文 基于LDA 主题关联过滤的领域主题演化 研究* 秦晓慧 1, 2 乐小虬 1 1( 中国科学院文献情报中心 北京 100190) 2( 中国科学院大学 北京 100049) 摘要: 【目的 】发现领域文献中主题的新生、消亡、继承、分裂和合并的演化轨迹。【方法 】根据文献出版时间 划分多个时间窗口, 通过LDA 主题模型识别各个时间窗口中的主题; 利用主题关联(Topic Association)过滤规则 确定相邻时间窗口主题间的演化关系; 形成连续时间段内主题新生、消亡、继承、分裂和合并的演化轨迹。【结 果 】在保证主题延续性的条件下, 更准确地识别主题的新生、消亡、继承、分裂和合并的演化类型。【局限 】固 定的时间窗口, 未考虑主题演化周期的多样性。【结论 】该方法可以有效降低LDA 主题模型中相似度较小主题 的干扰, 提升主题演化关系识别的准确性。 关键词: 主题关联 主题演化 主题模型 LDA 分类号: TP393 1 引 言 2 相关研究 [2] 领域主题演化指一个领域的主题内容与强度在研 LDA 模型 是一个三层贝叶斯生成模型, 其基本 究过程中变化的现象[1], 能够帮助研究者深入了解主 思想为: 主题是一个在词表上的多项式分布, 而每篇 题产生、发展的过程。近年来, 有关领域主题演化的 文献对这些主题有一个特定的分布。由于它可以很好 研究涌现出许多新思路和新方法, 其中改进LDA 主题 地模拟大规模语料的语义信息, 在主题演化领域有一 模型[2]是重要途径之一。常见的处理方式是利用LDA 定的优势, 学者们对其进行了一系列扩展工作, 如动 模型获取不同时间段出现的主题, 将相邻时间窗口的 态主题模型 DTM[10]、在线主题模型 OLDA[11]、连续 [3-7] [8-9] 时间模型 TOT[12] [2] 主题采用阈值法 或最大相似度法 等进行关联。 等; 其应用涉及电子邮件 、科研文 献[13-14] [15] [16-17] 这种方法虽然能描述主题内容随时间的演化过程, 但 、微博 、作者 等主题演化。 其准确性存在瑕疵, 经常会使无关主题引入到演化关 为全面分析主题内容的演化趋势, 常见的处理方 系中。 式是根据文献的出版时间离散到相应的时间窗口[18], 利 为了解决上述问题, 本文提出通过制定主题关联 用LDA 获取不同时间窗口出现的主题, 将相邻时间窗 过滤规则, 对相邻时间窗口间的主题进行关联分析, 口间的主题关联, 进而获得主题的演化过程。其中相 以期减少非关联主题的干扰问题。将对处理流程、实 邻时间窗口的主题关联是主题演化分析的重要步骤, 现方法以及实验结果进行具体阐述。 主题能否关联决定着主题之间是否存在演化关系, 对 通讯作者: 秦晓慧, ORCID: 0000-0002-3084-2546, E-mail: qinxh@ 。 *本文系国家科技支撑计划子课题“基于文献知识网络的领域学术关系研究与示范”(项目编号: 2011BAH10B06-04)的研究成果之一。 18 现代图书情报技术 总第256 期 2015 年 第3 期 主题演化结果有直接影响。本文归纳了4 类常见的主 题关联方法, 如表 1 所示: 表 1 主题关联方法 类型 代表研究 说明

文档评论(0)

zhuwo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档