网站大量收购闲置独家精品文档,联系QQ:2885784924

同方知网研究院罗思明.ppt

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于中图分类法的关键词标引研究 同方知网研究院 罗思明 2010.05.22 Contents 问题提出 同方知网技术有限公司(CNKI),是国内著名的电子学术文献出版商。提供了国内最全的库中文期刊、报纸、博硕士论文等全文数据,为中国的学术研究与科学发展提供了优良的海量学术文献资源。 为满足用户的文献检索需求,我们需要为学术文献标注各种信息。例如:需要对文献进行中图分类,为文献提供关键词、主题词、摘要等信息,便于用户检索。 问题提出 关键词定义:指文章中最能反映文献主题信息的特征词汇、词组或短语。 目前问题: (1)很多文献(报纸)没有关键词,人工标引分类号存在主观性强的问题,且费时费力。 (2)由于很多人对关键词的作用和意义认识不足,即使是作者亲自标引的关键词,也存在着许多问题。 任务:为CNKI学术文献自动标引关键词。 解决思路 传统方法: 以往的关键词标引方法多采用TF/IDF特征以及词语长度、位置等特征,本文设想加入语义信息,提高关键词标引正确率。 中图分类法: 《中国图书馆分类法》是国内学术文献通用的分类体系,中图分类法是一个完整的知识分类体系。中图分类号(分类号)在一定程度上反映了文献的主题语义信息。 解决思路 关键词与分类号的作用: 关键词和分类号在某种程度上作用一致,他们都表现了文献的主题。因此可以建立词语与分类号的联系,计算他们之间的相关程度,借助词语分类号信息帮助标引反映文章主题的关键词。 研究应用基础: CNKI拥有专家标引分类号的海量学术文献,为本文的研究提供了摘要基础。 思路实现 A.候选词信息词典 确定候选词集合 以CNKI海量文献中获取的200万词条为基础,通过CHI特征选择算法选取可表征文献主题的基础词语库180万。并经过后续规则过滤获取175万的候选关键词集合。 训练候选词的分类号并计算相关度 定义候选词与分类号间的相关度,相关度越大,则两者相关程度越强。我们通过海量的已标注分类号的文献训练候选词的分类号并计算相关度。 思路实现 (1)训练候选词的分类号 对每篇文献采用候选词词典分词,若分词结果中有词语W,则将该篇文献的分类号作为词语W的分类号。 遍历f篇文献,设其中有n(n=f)篇文献包含词语W,且n篇文献对应m个不同的分类号Ci{i=1,…,m}。可见,我们通过训练,词语W得到了m个不同分类号。 思路实现 (2)相关度计算 由于文献中不同位置的词语与文章主题的相关程度不同,同一分类号在文献中不同位置的权重可设为:篇名:P1=4;作者关键词:P2=2;中文摘要:P3=1.5;全文:P4=1。通过下列公式计算一个分类号与候选词的相关度 思路实现 记录词语的文献频度DF和词语的训练文献总数D,最后得到下列信息 思路实现 B.文献关键词计算 对待标引文献DOC,采用候选关键词词典进行分词,获取候选关键词集合S,设该集合大小为n(n=0),设集合包含词语Wi,i取值{1,…,n},设词语Wi在文献中的位置为POSj,j的取值为{1,标题;2,作者关键词;3,中文摘要;4,全文第一段;5,全文第一段外位置;};每个词语对应的分类号为Ck,k的取值为{1,…,m}。词语在文章中的频度为TFi。 思路实现 (1)计算候选词的权值 1结合词语的位置特征、词语长度计算词语的TF/IDF权值 其中,propi指词语Wi的TF/IDF权值。L表示词语长度,αj表示词语在位置j下的权值。各位置的权值设置为:α1=60,α2=30,α3=20,α4=2,α5=1。D表示训练文档总数,DFi表示词语的文档频度 思路实现 2TF/IDF*相关度得到词语的m个分类号下权值,这里k属于{1,…,m} 思路实现 (2)文献分类号计算 对分类号的权值进行排序,相同的分类号的权值相加,对分类号权值排序,取前100个分类号的权值的60%作为可信分类号,得到对应集合S1。将权值最大的分类号作为文献分类号。 (3)依据分类号一致性调整词语权值 在S1的词语集合中,依据词语分类号与文献分类号重合度对权值进行加权调整。 a= F416.3,b=F416.471。那么Sameleval(a, b)=4 (4)依据词语的词语相似性合并词语,调整权值,得到S2.最后词语依据权值降序排序,获取排序结果前N个词作为结果 基本结果 对同方知网一个月中的期刊文献进行关键词标引实验,采用参数调整和筛选前的实验结果进行对比,每篇文章取前十个结果进行测试。 同方知网(北京)技术有限公司 CNKI 1. 问题提出 2. 解决思路 3. 思路实现 4. 基本结果 同

文档评论(0)

fc86033 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档