- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于话题模型的科技文献话题发现和趋势分析
基于话题模型的科技文献话题发现和趋势分析
贺亮,李芳
(上海交通大学 计算机科学与工程系,上海 200240)
摘 要: 自动挖掘科技文献话题,总结发展趋势及必威体育精装版研究动态,有助于科技工作者的研究。本文提出一种话题发
现和趋势分析的方法,该方法首先利用LDA 话题模型抽取科技文献的话题,然后计算话题的强度和影响力,最后针
对热门和冷门话题以及影响力高和影响力低的话题,进行了趋势分析。本文提出的话题强度和影响力计算方法,可
以针对任何文集。对ACL 论文集的实验,显示了计算语言学领域过去的发展状况。和其他方法的对比实验,也验
证了本文提出的话题强度和影响力的计算方法是正确和可行的。
关键词:话题模型;趋势分析
中图分类号:TP391 文献标识码:A
Topic Discovery and Trend Analysis in Scientific Literature Based on Topic
Model
HE Liang, LI Fang
(Dept. of Computer Science Engineering, Shanghai Jiao Tong University, Shanghai 200240, China)
Abstract: Automatically extracting topics from scientific literature and finding the research trends
will help researchers a lot. In this paper, we use LDA model to generate topics from the scientific
literature; then calculate the strength and impact of the topic; finally, find the trends of the hot
topics vs. cold topics, high vs. low impact topics. The method of calculating topic strength and impact
is suitable for any document. The experiments on ACL anthology have shown the research trend in
computational linguistics. And the contrast experiment also proved the proposed calculating method.
Keywords: Topic Model, Trend Analysis
1 引言
在这个信息爆炸的时代,科学技术的发展也日新月异,对于科技工作者来说,需要快速的获
取相关领域的必威体育精装版研究动态。为了了解必威体育精装版的研究工作,科技工作者会关注该领域的关键问题,
这些问题都用到了什么样的技术,在众多的技术中,哪些是目前的研究热点,哪些逐渐被人们淡
忘。因此,对于科学技术趋势的自动分析研究,旨在帮助科学工作者从大量的学术会议和科技文
献中提取出有用的信息,具有重要的现实意义。
要进行趋势分析,首先需要从大量的语料集合中提取出潜在的语义信息,亦可称之为话题。
传统的VSM 模型使用关键字来表示话题。但这种表达方式比较局限于对文档贡献较大的词,很
多用于表示文档的词语,由于存在二义性,对于文档的语义上的描述,效果往往差强人意。为了
克服VSM 模型的这些缺点,有学者提出了语义模型[1,2]。首先是LSI 模型[1],可以利用SVD 技
术对文本降维;进一步,在LSI 模型中引入概率模型,得到pLIS 模型[2],该模型是生成模型,
它假设每篇文档是由多项式随机变量(话题)混合而成,而文档中每个词,由一个话题产生,文
档中不同的词可有不同的话题生成。但是pLSI 模型参数数量随着文集增长而线性增长,并且对于
没有观测到的文本没有很好的预测。Blei[3]提出的LDA 模型可以挖掘大规模语料的语义信息,是
收稿日期: 定稿日期:
基金项目:国家自然科学基金项目
作者简介:贺亮(1987-),男,硕士,主
您可能关注的文档
最近下载
- IATF 16949试题附有答案.docx VIP
- 机动车与非机动车区别.ppt VIP
- 高中思想政治选择性必修第1册 综合探究 国家安全与核心利益.ppt VIP
- 2024至2030年中国脱水蔬菜行业销售形势分析及投资规模预测报告.docx
- 王戎不取道旁李教学设计一等奖(集锦4篇).docx
- 油用牡丹种植效益分析.doc
- DreamweaverCC实例教程01 初识Dreamweaver CC 2019.pdf VIP
- 人教版(2024新版)九年级上册化学:第五单元 化学反应的定量关系 教案教学设计(2个课题+1个活动).docx
- 湘教版初中数学知识点总复习资料.pdf
- 医药公司财务管理制度.docx
文档评论(0)