数据挖掘技术及其在情报研究中的应用.doc

数据挖掘技术及其在情报研究中的应用.doc

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
河南教育学院学报 (自然科学版 )Jou rna l 河南教育学院学报 (自然科学版 ) Jou rna l of H enan In stitu te of Educa tion (N a tu ra l Sc ience) 第 16卷第 1期 2 0 0 7 年 3 月 Vo l. 16 No. 1 M a r. 2007 数据挖掘技术及其在情报研究中的应用 1 2 孙 杰 , 孙亚兵 ( 1. 河南职业技术学院 信息工程系 , 河南 郑州 450046; 2. 河南教育学院 物理系 , 河南 郑州 450014 ) 摘要 : 在当前的数字时代 ,海量的信息数据已经远远超出情报研究人员的分析和处理能力 ,而传统情报研究的技术和工具已 无法满足情报研究人员的需求. 由于数据挖掘技术在处理海量数据时显示了其独特的优点 ,可与现代情报研究有机结合. 本文首 先介绍了数据挖掘技术的基本概念和常用方法 ,并对其在情报研究中的应用进行初步探讨. 关键词 :情报研究 ; 数据挖掘 ; 技术应用 中图分类号 : TP311. 131 文献标识码 : B 文章编号 : 1007 - 0834 ( 2007 ) 01 - 0058 - 03 伴随着网络时代的到来 ,信息量呈几何级数的增长 . 大 量信息在给人们带来方便的同时也带来了一大堆问题 : 第一 是信息过量 ,难以消化 ;第二是信息真假难以辨识 ; 第三是信 息安全难以保证 ;第四是信息形式不一致 ,难以统一处理 . 如 何从大量纷繁复杂的信息中提取有价值的信息 ,同时进行深 层次的加工即情报研究成为当前的当务之急 . 数据库中的知识发现 ( Know ledge D iscove ry in D a taba se, KDD )和数据挖掘 (D a ta M in ing, DM ) 是 上世纪 80 年代新兴 起来的一门学科 ,它的出现为自动和智能地把海量的数据转 化为有用的信息和知识提供了手段 . 目前 ,数据仓库和数据 挖掘已成为学术研究 、商业应用以及行政管理的热点 . 当前 网上和商业数据库中蕴藏着许多有用的情报 ,需要有新的 、 更有效的技术对大量数据进行挖掘 . 因此 ,有必要在情报研 究中 引 入 数 据 挖 掘 技 术 , 以 提 高 我 国 情 报 研 究 的 水 平 和能力 . 1 数据挖掘技术 1. 1 数据挖掘概念 20世纪 80年代末 ,数据库中的知识发现 ( KDD ) 第一次 被提出 ,近年来随着人工智能和数据库技术的发展已日益受 到人们的关注 . 数据挖掘是数据库中知识发现的核心过程 . 数据挖掘 (D a ta M in ing)就是从大量的 、不完全的 、有噪声的 、 模糊的 、随机的实际应用数据中 ,提取隐含在其中的 、人们事 先不知道的 、但又是潜在有用的信息和知识的过程 . 通过数 术用于情报研究 ,可以大大提高工作效率和情报的准确性 . 1. 2 数据挖掘的基本过程 客观世界中存在的数据源有多种形式 . 结构化的数据源 如数据仓库和数据集市 ,其他的还有文本 、图像 、信号等非结 构化的数据形式 . 数字化的研究对象作为数据源 ,采用相关 的数据挖掘工 具 和 算 法 , 从 而 发 现 其 中 所 蕴 涵 的 信 息 和 知 识 ,作为辅助决策与行动的依据 [ 1 ] . 数据挖掘过程中各步骤 的大体内容如图 1: 图 1 数据挖掘过程示意图 ( 1)定义问题 清晰地定义出业务问题 ,认清数据挖掘的目的是数据挖 掘的重要一步 . 挖掘的最后结构是不可预测的 ,但要探索的 问题应是有预 见 的 , 为 了 数 据 挖 掘 而 数 据 挖 掘 则 带 有 盲 目 性 ,是不会成功的 . ( 2)数据准备 数据准备是数据挖掘过程的重要步骤 . 这一阶段又可分 为三个子步骤 : 数据集成 、数据选择 、数据预处理 . 数据集成 将多文件或多数据库运行环境中的数据进行合并处理 ,解决 掘任务则是在描述性挖掘的基础之上进行推 掘任务则是在描述性挖掘的基础之上进行推断 ,对将来的趋 理和加工大量信息的技术手段 ,更不能满足对信息进行深 势和行为进行预测 ,从而支持决策者的决策过程 [ 2 ] . ( 1 )概念描述 ( Concep t D e sc rip tion) 概念是对 一个相对 较大数据集合总体特征的总结 . 概念描述指的是对含有大量 数据的数据集 合 进 行 概 述 性 的 总 结 并 获 得 简 明 、准 确 的 描 述 ,对整个数据集合形成一个总体性 、全面性的认识 . 概念描 述可分为特征性描述和区别性描述 ,前者描述某类对象的共 同特征 ,后者描述不同类对象之间的区别 . ( 2 )关联分析 (A s

文档评论(0)

小教资源库 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档