- 1、本文档共17页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基干大数据决策探析需求图书馆大数据清洗系统策划
基于大数据决策分析需求的图书馆大数据清洗系统设计 〔摘要〕图书馆的大数据时代已经来临,大数据质量问题是影响图书馆大数据应用的重要因素,而大数据清洗则是提高图书馆大数据质量的主要手段。本文介绍了图书馆不清洁数据的类型与产生原因,设计了基于大数据决策分析需求的图书馆大数据清洗系统,该系统不仅可以提高大数据清洗的效率和精确度,而且大幅度降低了图书馆大数据决策分析的复杂度
〔关键词〕图书馆;决策分析;大数据清洗;系统设计
DOI:10.3969/j.issn.1008-0821.2016.09.018
〔中图分类号〕G25076〔文献标识码〕A〔文章编号〕1008-0821(2016)09-0107-05
〔Abstract〕The librarys era of big data is coming,data quality issues will result very important influence on big data applications of libraries,big data cleaning is one of the important methods to improve libraries data quality.This paper introduced the types of dirty data and reasons in libraries,and designed of big data cleaning system for library based on big data decision analysis needs,the system not only improved the efficiency and accuracy of big data cleaning,but also greatly reduced the complexity of big data decision analysis for library.
〔Key words〕library;decision analysis;big data cleaning;system design
当前,图书馆已进入大数据时代。随着移动互联网、云计算和物联网技术在图书馆中的广泛应用,图书馆可通过监控和采集服务器运行数据、读者个体特征、阅读行为数据、阅读关系数据、阅读终端数据等,实现了对图书馆服务模式和读者阅读需求的全面感知与预测,大幅度提升了图书馆的服务能力和读者阅读满意度。但是,随着图书馆服务复杂度和服务模式多样化的发展,其大数据环境呈现出“4V+1C”的特点(分别是数据体量巨大(Volume)、数据类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)和具有较强的复杂性(Complexity)),图书馆采集与存储的原始大数据中混杂着许多不完整、错误和重复的“不清洁”数据,导致图书馆大数据存在着不一致、不完整性、低价值密度、不可控和不可用的特性[1]。图书馆如果一味强调提升IT基础设施的大数据处理性能、数据分析方法的科学性、数据分析师的大数据素养,而不通过大数据清洗有效提升数据的质量和可用性,将会导致图书馆大数据应用的收益率和数据决策科学性下降
据美国普化永道会计事务所(Price Waterhouse Coopers Consulting,PWC)的研究表明,75%的被调查公司存在着因不清洁数据问题而导致经济损失的现象,只有35%的被调查公司对自己的数据质量充满信心;在很多涉及数据仓库的项目中,数据清洗在开发时间和整体预算方面所占的比例大概在30%~80%,而将不同数据源的数据进行抽取和整合时,可能会产生一些新的不清洁数据[2]。因此,如何制定和执行安全、高效的数据清洗策略,实现对图书馆大数据资源的检测、校验、修正、整合与分解,及时发现并纠正大数据中存在的错误、缺失、异常和可疑数据,确保图书馆大数据资源结构完整、正确和无重复,是关系图书馆大数据应用与决策安全、科学、高效、经济和可控的重要问题
1图书馆大数据清洗的需求与挑战
11大数据环境下数据清洗的需求发生变化
大数据时代,图书馆数据的结构、类型、规模和复杂度发生了巨大变化,其大数据内容主要由IT服务系统运营日志与参数数据、用户服务数据、读者个体特征数据、读者行为监测与社会关系数据、阅读终端运行数据、视频监测数据和传感器网络数据等组成,这些数据具有海量、多类型、高价值和处理速度快的大数据“4V”特点,因此,与“小数据”时代图书馆的数据清洗需求有本质区别
大数据时代,非结构化、半结构化数据占据图书馆大数据总量的85%以上,图书馆数据清洗的重点已从“小数据”时代
您可能关注的文档
最近下载
- IATF 16949试题附有答案.docx VIP
- 机动车与非机动车区别.ppt VIP
- 高中思想政治选择性必修第1册 综合探究 国家安全与核心利益.ppt VIP
- 2024至2030年中国脱水蔬菜行业销售形势分析及投资规模预测报告.docx
- 王戎不取道旁李教学设计一等奖(集锦4篇).docx
- 油用牡丹种植效益分析.doc
- DreamweaverCC实例教程01 初识Dreamweaver CC 2019.pdf VIP
- 人教版(2024新版)九年级上册化学:第五单元 化学反应的定量关系 教案教学设计(2个课题+1个活动).docx
- 湘教版初中数学知识点总复习资料.pdf
- 医药公司财务管理制度.docx
文档评论(0)