基于话题模型的科技文献话题发现和趋势分析.pdf

基于话题模型的科技文献话题发现和趋势分析.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于话题模型的科技文献话题发现和趋势分析

基于话题模型的科技文献话题发现和趋势分析 贺亮,李芳 (上海交通大学 计算机科学与工程系,上海 200240) 摘 要: 自动挖掘科技文献话题,总结发展趋势及必威体育精装版研究动态,有助于科技工作者的研究。本文提出一种话题发 现和趋势分析的方法,该方法首先利用LDA 话题模型抽取科技文献的话题,然后计算话题的强度和影响力,最后针 对热门和冷门话题以及影响力高和影响力低的话题,进行了趋势分析。本文提出的话题强度和影响力计算方法,可 以针对任何文集。对ACL 论文集的实验,显示了计算语言学领域过去的发展状况。和其他方法的对比实验,也验 证了本文提出的话题强度和影响力的计算方法是正确和可行的。 关键词:话题模型;趋势分析 中图分类号:TP391 文献标识码:A Topic Discovery and Trend Analysis in Scientific Literature Based on Topic Model HE Liang, LI Fang (Dept. of Computer Science Engineering, Shanghai Jiao Tong University, Shanghai 200240, China) Abstract: Automatically extracting topics from scientific literature and finding the research trends will help researchers a lot. In this paper, we use LDA model to generate topics from the scientific literature; then calculate the strength and impact of the topic; finally, find the trends of the hot topics vs. cold topics, high vs. low impact topics. The method of calculating topic strength and impact is suitable for any document. The experiments on ACL anthology have shown the research trend in computational linguistics. And the contrast experiment also proved the proposed calculating method. Keywords: Topic Model, Trend Analysis 1 引言 在这个信息爆炸的时代,科学技术的发展也日新月异,对于科技工作者来说,需要快速的获 取相关领域的必威体育精装版研究动态。为了了解必威体育精装版的研究工作,科技工作者会关注该领域的关键问题, 这些问题都用到了什么样的技术,在众多的技术中,哪些是目前的研究热点,哪些逐渐被人们淡 忘。因此,对于科学技术趋势的自动分析研究,旨在帮助科学工作者从大量的学术会议和科技文 献中提取出有用的信息,具有重要的现实意义。 要进行趋势分析,首先需要从大量的语料集合中提取出潜在的语义信息,亦可称之为话题。 传统的VSM 模型使用关键字来表示话题。但这种表达方式比较局限于对文档贡献较大的词,很 多用于表示文档的词语,由于存在二义性,对于文档的语义上的描述,效果往往差强人意。为了 克服VSM 模型的这些缺点,有学者提出了语义模型[1,2]。首先是LSI 模型[1],可以利用SVD 技 术对文本降维;进一步,在LSI 模型中引入概率模型,得到pLIS 模型[2],该模型是生成模型, 它假设每篇文档是由多项式随机变量(话题)混合而成,而文档中每个词,由一个话题产生,文 档中不同的词可有不同的话题生成。但是pLSI 模型参数数量随着文集增长而线性增长,并且对于 没有观测到的文本没有很好的预测。Blei[3]提出的LDA 模型可以挖掘大规模语料的语义信息,是  收稿日期: 定稿日期: 基金项目:国家自然科学基金项目 作者简介:贺亮(1987-),男,硕士,主

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档