基于多特征的中文语义关键词提取方法的研究.pdf

基于多特征的中文语义关键词提取方法的研究.pdf

  1. 1、本文档共73页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
浙江工业大学硕士学位论文 基于多特征的中文语义关键词提取方法的研究 摘 要 信息技术的快速发展促使网络数据呈现几何式增长,导致数据量越来愈大,对 文本信息有效的检索和利用也越来越困难。面对海量的信息,尤其是面对爆炸式增 长的文本信息,高效的从海量文本中捕获到有用的信息,已经成为当前亟需解决的 问题。为了解决这一问题,需要从文本中提取能够反映文本主题的中心词,这些词 被称为关键词。关键词很好的体现了作者的思想以及文章的主题,能够使读者快速 的了解一篇文章的主要内容,因此拥有一种熟练的自动关键词提取方法有着非常 重要的研究意义。 关键词作为文本核心内容地体现,不仅要反映词语地的重要性,还要能够反映 文本与主题之间的相关性。而现有的针对关键词主题相关性的研究较少,而且多集 中于对词语的语言概率模型或基于词典的研究,无法挖掘出词语的隐式语义特征。 此外,在现实世界中大多数文本都没有提供标注关键词。如果采取人工标注的方法, 不仅效率低下、费时费力,而且人的主观意识对标注结果影响比较大,所以手动分 配关键词是一项非常耗时且繁琐的任务。综合以上因素,本文主要针对关键词的主 题相关性以及标注语料较少的问题展开了研究,研究的主要内容如下: (1) 本文提出了一种新的计算词语与文本主题之间相关性的方法。算法首先对 文本进行预处理得到候选关键词序列,并结合领域知识对文本语料数据进行训练 得到词向量列表,然后根据词向量列表得到文本的词向量序列,对单文本中的词向 量进行聚类得到文本的聚类中心,最后计算各个候选关键词与聚类中心的相似度, 作为词语与文本主题之间的语义相关性。 (2) 本文提出了一种融合语义特征的关键词提取方法,算法研究的重点在于对 文本中候选关键词的特征提取。本文在前人研究的基础上分别从词频、长度、位置、 语言信息等四个方面提取了包括描述词语与文本主题的相似度在内16 个特征,以 此作为分类模型的样本数据训练关键词分类模型。实验结果表明,融合语义特征的 I 基于多特征的中文语义关键词提取方法的研究 关键词提取方法较传统的基于术语频率逆文档频率 (Term Frequency Inverse Document Frequency, TFIDF )方法,准确率提升了16.2%,F-Score 提升了20.5% 。 提取的关键词不仅能够反映词语的重要程度,而且还反映词语的主题相关性。 (3) 本文将融合语义特征的关键词提取方法与半监督学习方法相结合,提出了 一种改进的基于半监督的关键词提取方法。算法改进了初始训练样本选择的方法, 通过交叉验证的方法提取较高置信度的训练样本,从而达到提升模型准确率的目 的。实验表明,在实验数据一定的情况下,基于有监督的算法仅能从有标注样本中 学习规律,而基于半监督学习的算法不仅能学习到有标注样本的规律还可以进一 步挖掘出无标注样本的内在规律。 关键词:关键词提取,词向量,语义特征,分类模型,半监督学习 II 浙江工业大学硕士学位论文 Research on Chinese Semantic Keyword Extraction Method Based on Multiple Features ABSTRACT The rapid development of information technology promotes the geometric growth of network data, which leads to more and more data and makes it more and more difficult to search and utilize text information effectively. In the face of massive information, especially in the face of explosive growth of

文档评论(0)

136****6583 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档