大数据技术与档案数据挖掘.docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

??

?

??

大数据技术与档案数据挖掘

?

??

?

?

?

?

?

?

?

???

?

?

?

?

?

张文元+张倩

摘要:档案数据深度挖掘是大数据技术应用于档案管理中的主要特点,推动档案管理模式发生变化:一是档案管理流程走向精细化,二是这种精细化使档案资源和用户需求的双向控制关系发挥到极致。为了保证档案数据深度挖掘,促使档案管理走向精细化,提出了实现对策:建立以数据挖掘技术为核心的信息系统,构建以人为本的用户关系管理,保证数据挖掘技术中的数据隐私安全,借力“智慧因子”完善数据挖掘技术等。

关键词:大数据技术;数据挖掘;档案管理

伴随着大数据时代的到来,数据挖掘技术在档案管理中的应用将进入一个新的发展时期。尽管档案学术界很早就提出知识管理与知识挖掘,但知识挖掘尚停留在概念和理论探讨阶段[1]。大数据挖掘,即从大数据中挖掘知识,大数据挖掘技术有效地解决了数据和知识之间的鸿沟,是将数据转变成知识的有效方式[2]。因此,有档案学研究者认为“档案馆的传统业务将向档案资源的数据分析、数据挖掘方向转移,对大量数据的分析处理将成为档案馆的主要业务”[3],“档案信息服务的底层基础可能不再是检索,而是智能化的数据挖掘”[4]。

大数据时代给数据挖掘技术带来的根本性改变是使数据的深度挖掘成为可能,对大量数据进行分析处理和智能化挖掘,从管理角度来看,要达到最优的结果,不仅数据要全面、可靠、有价值,而且需要对数据进行深度挖掘。

1数据深度挖掘是大数据技术应用于档案管理中的主要特点

数据挖掘技术是通过对海量数据进行建模,并通过数理模型对企业的海量数据进行整理与分析,以帮助企业了解其不同的客户或不同的市场划分的一种从海量数据中找出企业所需知识的技术方法[5]。数据深度挖掘,是一个对数据进行建模的过程,并对数据进行分类与统计,查找得出数据分布的关联性,这也是探索规律的过程。

如,档案人员想要做好档案编研选题,不仅要对用户利用档案数据,包括档案调卷数量、档案利用次数、复制档案数量、制发档案证明数量等进行深度挖掘,而且还需要对用户访问记录,包括网页采用的关键字、下载记录、检索词、用户利用网页时间和频度等信息进行深度挖掘,然后利用分类功能及数据分析,建立档案编研选题的用户模型,一是按需确定不同类型的编研选题,提供个性化的服务;二是根据档案用户需求特点,预测其未来趋向,结合社会热点选定档案编研题目,从而使档案编研部门推出用户满意的编研成果。在档案利用方面,对档案利用登记数据库进行深度挖掘,分别选取不同方面数据进行建模,可以得出不同档案利用形式的变化趋势,从而对档案利用趋势进行分析和预测,对利用频率高的档案进行全文数字化,既可以提高档案利用效率,又可以起到保护档案原件的作用。

因此,档案数据的深度挖掘是大数据时代的主要特点,档案学的发展历程告诉我们,每一次重大的技术变革都必然影响着档案学的发展,如计算机和网络技术的引入,引起了档案管理理念与实践的变革,改变了文件与档案的处理流程[5]。大数据技术对档案数据的深度挖掘为档案管理流程由粗放走向精细化提供了可能。

2大数据技术对档案数据深度挖掘使档案管理模式走向精细化

大数据挖掘技术基于传统的数据挖掘,使用的是数据仓库,构造的是“泛关系”的聚分类模型,采取的是海量数据分析方法,机器与人类一样具备语义知识,提供的是可视化视图来揭示信息,可以说是传统数据挖掘方法的深化。由中国人民大学网络与移动数据管理实验室开发ScholarSpace,大数据处理的最基本流程由数据来源、数据抽取与集成、数据分析、数据解释等过程组成[6],分析认为大数据技术对档案数据挖掘由数据采集层、数据整理层、数据分析层、数据展示层组成。

2.1数据采集层收集高质量的档案数据,为档案管理精细化奠定基础。数据采集是大数据技术处理流程中最为基础的一步,高质量的数据是大数据技术发挥效能的前提,大数据技术只有在高质量的大数据环境下才能提取出隐含的、有用的信息。由于大数据具有实时与动态性特征,“在线”、“近线”和“离线”的各种数字资源均是采集对象。为了使所获得的数据更具有代表性,通过什么方式获取数据信息显得格外重要。数据采集层要收集不同数据源产生的数据,为档案数据挖掘的后续工作做好准备。

2.2数据整理层改变传统数据处理方式,凸显档案管理精细化过程。经过各种渠道获取的档案数据种类繁杂、结构多样,通过处理、集成、存储可以做到:

一是将结构复杂的数据转换为单一的或便于处理结构的数据。现代互联网应用呈现出半结构化和非结构化数据大幅度增长的趋势,这些资源将成为馆藏的重要来源。如,对档案系统运行日志资料等数据,就需要转换成结构化数据,形成档案统一的语言。二是对采集到的数据进行“去噪”和“清洗”,以保证数据的质量和可靠性。由于原始数据中有噪声数据、冗余数据等

文档评论(0)

188****8742 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档