- 1、本文档共3页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
河南教育学院学报 (自然科学版 )Jou rna l
河南教育学院学报 (自然科学版 )
Jou rna l of H enan In stitu te of Educa tion (N a tu ra l Sc ience)
第 16卷第 1期
2 0 0 7 年 3 月
Vo l. 16 No. 1
M a r. 2007
数据挖掘技术及其在情报研究中的应用
1
2
孙
杰 , 孙亚兵
( 1. 河南职业技术学院 信息工程系 , 河南 郑州 450046; 2. 河南教育学院 物理系 , 河南 郑州 450014 )
摘要 : 在当前的数字时代 ,海量的信息数据已经远远超出情报研究人员的分析和处理能力 ,而传统情报研究的技术和工具已
无法满足情报研究人员的需求. 由于数据挖掘技术在处理海量数据时显示了其独特的优点 ,可与现代情报研究有机结合. 本文首 先介绍了数据挖掘技术的基本概念和常用方法 ,并对其在情报研究中的应用进行初步探讨.
关键词 :情报研究 ; 数据挖掘 ; 技术应用
中图分类号 : TP311. 131
文献标识码 : B
文章编号 : 1007 - 0834 ( 2007 ) 01 - 0058 - 03
伴随着网络时代的到来 ,信息量呈几何级数的增长 . 大
量信息在给人们带来方便的同时也带来了一大堆问题 : 第一 是信息过量 ,难以消化 ;第二是信息真假难以辨识 ; 第三是信 息安全难以保证 ;第四是信息形式不一致 ,难以统一处理 . 如 何从大量纷繁复杂的信息中提取有价值的信息 ,同时进行深 层次的加工即情报研究成为当前的当务之急 .
数据库中的知识发现 ( Know ledge D iscove ry in D a taba se, KDD )和数据挖掘 (D a ta M in ing, DM ) 是 上世纪 80 年代新兴 起来的一门学科 ,它的出现为自动和智能地把海量的数据转 化为有用的信息和知识提供了手段 . 目前 ,数据仓库和数据 挖掘已成为学术研究 、商业应用以及行政管理的热点 . 当前 网上和商业数据库中蕴藏着许多有用的情报 ,需要有新的 、 更有效的技术对大量数据进行挖掘 . 因此 ,有必要在情报研 究中 引 入 数 据 挖 掘 技 术 , 以 提 高 我 国 情 报 研 究 的 水 平 和能力 .
1 数据挖掘技术
1. 1 数据挖掘概念
20世纪 80年代末 ,数据库中的知识发现 ( KDD ) 第一次 被提出 ,近年来随着人工智能和数据库技术的发展已日益受 到人们的关注 . 数据挖掘是数据库中知识发现的核心过程 . 数据挖掘 (D a ta M in ing)就是从大量的 、不完全的 、有噪声的 、 模糊的 、随机的实际应用数据中 ,提取隐含在其中的 、人们事 先不知道的 、但又是潜在有用的信息和知识的过程 . 通过数
术用于情报研究 ,可以大大提高工作效率和情报的准确性 .
1. 2 数据挖掘的基本过程 客观世界中存在的数据源有多种形式 . 结构化的数据源
如数据仓库和数据集市 ,其他的还有文本 、图像 、信号等非结 构化的数据形式 . 数字化的研究对象作为数据源 ,采用相关 的数据挖掘工 具 和 算 法 , 从 而 发 现 其 中 所 蕴 涵 的 信 息 和 知 识 ,作为辅助决策与行动的依据 [ 1 ] . 数据挖掘过程中各步骤 的大体内容如图 1:
图 1 数据挖掘过程示意图
( 1)定义问题
清晰地定义出业务问题 ,认清数据挖掘的目的是数据挖 掘的重要一步 . 挖掘的最后结构是不可预测的 ,但要探索的 问题应是有预 见 的 , 为 了 数 据 挖 掘 而 数 据 挖 掘 则 带 有 盲 目 性 ,是不会成功的 .
( 2)数据准备
数据准备是数据挖掘过程的重要步骤 . 这一阶段又可分 为三个子步骤 : 数据集成 、数据选择 、数据预处理 . 数据集成 将多文件或多数据库运行环境中的数据进行合并处理 ,解决
掘任务则是在描述性挖掘的基础之上进行推
掘任务则是在描述性挖掘的基础之上进行推断 ,对将来的趋
理和加工大量信息的技术手段 ,更不能满足对信息进行深
势和行为进行预测 ,从而支持决策者的决策过程 [ 2 ] .
( 1 )概念描述 ( Concep t D e sc rip tion) 概念是对 一个相对 较大数据集合总体特征的总结 . 概念描述指的是对含有大量 数据的数据集 合 进 行 概 述 性 的 总 结 并 获 得 简 明 、准 确 的 描 述 ,对整个数据集合形成一个总体性 、全面性的认识 . 概念描 述可分为特征性描述和区别性描述 ,前者描述某类对象的共 同特征 ,后者描述不同类对象之间的区别 .
( 2 )关联分析 (A s
您可能关注的文档
- 首届广州沙龙分享会流程安排讲师介绍模板.pptx
- 首席家装室内设计师联盟章程.doc
- 首医大中医学专业 毕业论文--综述.docx
- 受托支付银行业的规定政策及意义.doc
- 售楼部客户接待制度范本.doc
- 售前售中售后服务标准.doc
- 售罄2读书心得.doc
- 书库安全管理制度.doc
- 书院祭祀与时代学术风尚的变迁.doc
- 梳理知识脉络 深度挖掘内涵 以先秦至汉代儒学发展为例.ppt
- 5.3.1函数的单调性(教学课件)--高中数学人教A版(2019)选择性必修第二册.pptx
- 部编版道德与法治2024三年级上册 《科技提升国力》PPT课件.pptx
- 2.7.2 抛物线的几何性质(教学课件)-高中数学人教B版(2019)选择性必修第一册.pptx
- 人教部编统编版小学六年级上册道德与法治9 知法守法 依法维权(第一课时)课件.pptx
- 三年级上册品德道德与法治《学习伴我成长》.pptx
- 部编版小学道德与法治六年级上册6 人大代表为人民 课件.pptx
- 部编版小学道德与法治六年级上册1感受生活中的法律第一课时课件.pptx
- 2.5.2圆与圆的位置关系(教学课件)-高中数学人教A版(2019)选择性必修第一册.pptx
- 2.5.1直线与圆的位置关系-(教学课件)--高中数学人教A版(2019)选择性必修第一册.pptx
- 14.1.1 同底数幂的乘法(教学课件)-初中数学人教版八年级上册.pptx
文档评论(0)