林业科研档案数据挖掘研究.docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

林业科研档案数据挖掘研究

?

?

刘丹+程全英+李凡+赵扬+张卓立

(中国林业科学研究院资源信息研究所,北京100091)

摘要:对林业科研档案实行信息化的管理及深度的数据挖掘,不仅能够及时、准确地反映林业科研活动的动态、发展方向、必威体育精装版成果,还能够为林业科研项目的正确、合理实施提供参考依据。整合多种格式的数据来源,包含电子表格数据、文本数据、音视频数据,通过神经元网络、聚类分析等技术,实现了对林业科研档案数据的深度发掘和分析,为林业科研档案的充分利用提供了方法。

关键词:林业;科研档案;数据挖掘;挖掘算法

:TP311.13:ADOI:10.15913/j.cnki.kjycx.2016.22.019

一个单位的档案就是一部历史,里面记载着这个单位的发展历程,凝聚着几代人的心血和智慧,是前人留给后人的宝贵遗产,是历史交给未来的无价资源。无论是各级领导,还是档案的生产、管理、使用等业务和智能部门,都应重视挖掘档案材料中蕴藏着的丰富的信息资源,为科研创新能力的形成、生长提供有力的服务。

档案资料是重大活动、重要事件经验的积累,规律的揭示,是信息和知识的重要资源,是维护科研单位合法知识产品的有利凭证,也是科研传统教育的生动教材。林业科研档案主要记录科研项目执行的全部轨迹,包含项目申请、项目中验、项目验收等过程中产生的一切文档资料。中国林业科学研究院资源信息研究所成立于1985年,承担了多项科研任务,积累了大量的科研档案,档案的管理经历了从传统的馆藏档案模式到数字化、信息化管理方式的转变,已经建立起具有管理标准化、服务网络化、安全可靠的数字化档案馆,制定了符合档案信息化发展和林业科研特点的标准规范和管理体系。但是这些档案只停留在简单的检索、查询这样的数据管理和共享层面,没有对档案本身的内容进行挖掘,提炼出有价值的数据。科研档案用好了,有助于开阔思路、启迪智慧,全面、系统、深入地了解学科建设的阶段性特色,不断深化对新时期、新阶段学科建设规律的认识,使科研工作更加符合科学发展观的要求。

1林业科研档案的数据挖掘需求

“数据挖掘”是一门广义的交叉学科,脱胎于计算机,虽然已被应用到诸多领域,图书、情报界的实践也已经充分验证其价值,但在档案界,数据挖掘仍然被当成深奥的技术和理论。如何从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识呢?这个过程的目的就是发现隐藏在大量数据泥沙中的“知识金矿”。数据挖掘不是简单的面向特定数据库的检索、查询、调用,而是要对这些数据进行全方位的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互联系,甚至利用已有的数据对未来的活动进行预测。

资源信息研究所档案分类的实际情况具有以下几个特点:①资源信息研究所档案管理系统储存管理的是研究所日常工作的科研档案,具有专业特点,其划分的类别和特征词汇都具有专业性。②资源信息研究所的档案数量级不会很大,不会有大量的训练样本供机器学习。而通常分类算法都是需要手工对一定数量的训练样本分类作为训练集。如果训练集的数量过小,

———————————————————————————

则会影响分类的精确度。③档案类型丰富,包含圖片、视频、文本等。④需要在著录入系统时对档案分类。这就需要分类算法在性能上必须有很好的保证,不能让著录的系统用户长时间等待。而上述分类算法都需要计算当前文本与其他所有分类个体的相似度,无法在时间花费上满足实际需要,必须优化。

2林业科研档案的数据挖掘算法设计

在档案管理系统中,分类算法的选取需要结合资源信息研究所档案的专业性特点、档案数量以及考虑档案分类需求在系统功能中对效率等方面的实际要求。

贝叶斯、KNN、SVM、TF-IDF等常用分类算法的主要思想都是要计算一篇文本与其他类别文本的相似度(距离),或者依照词频等指标计算文本属于某个类别的概率,从而判断此文本属于某个类别。这些算法虽然各有特点,但都无法被直接应用于档案管理系统。

综合以上各种因素,最终选取TF-IDF算法并优化调整:考虑到科研档案分类的专业性,同时也为了保证算法的执行速度,选取资源信息研究所提供的专业词汇作为特征词集,以此作为分类计算用的关键词。其他非专业词汇,与分类相关性不大,作为“应删除词”排除在分类算法之外。

在档案著录时,业务人员会将档案的题目以及摘要录入,主题及特征词在录入信息中体现。因此,没有必要对整篇档案进行扫描、分词并计算,只需对题目和摘要进行分词,对比特征词集挑选关键词计算即可。

档案管理系统的档案数量级决定了不会有大量的手工分类样本作为训练集,同时为了提高算法的执行效率,改由有经验的专业人员通过系统的专业词管理功能,配置特征词集中的特征词的所属类别及权重,以作为分类算法的计算

文档评论(0)

150****5177 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档