Chapter 6.資料採擷簡介.ppt

  1. 1、本文档共71页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Part II 資料採掘技術篇 第六章 資料採掘介紹 6.1 資料採掘概述 6.2 資料採掘分類 6.3 資料採掘系統 6.4 資料預先處理 6.5 資料採掘與資料倉儲 6.6 資料採掘的應用和發展趨勢 習題 資料採掘和資料倉儲作為決策支援新技術在近十年 來得到了迅速的發展。在過去的數十年中,我們產 生和收集了大量的資料,希望電腦自動智慧地分析 資料庫中的大量資料以獲取訊,是資料採掘產生並 發展的強大動力。 6.1 資料採掘概述 資料庫中的知識發現(Knowledge discovery in database,KDD)是一個從資料庫中採掘有效的、新 穎的、潛在有用的和最終可了解的模式的複雜程 序。 在KDD定義中: 資料是一組事實的集合,它可以來自不同的資料來源,可以是規則資料,也可以是非規則資料。 模式是關於資料子集的某種語言描述的表達式或某種可應用的模型,又稱為知識。 模式必須是有效的、新穎的、潛在有用的和最終可了解的,分別用可信度、新穎度、可用度和簡單度對其進行評估。 KDD程序是一個複雜程序,其步驟如圖6.1所示。 研究問題欄。包括掌握應預先了解的有關知識和確定資料採掘任務。 選擇目標資料集。根據上一步驟的要求選擇要進行採掘的資料。 資料預先處理。將上一步驟的資料進行整合、淨化、變換等,便資料變成可以直接應用資料採掘工具進行採掘的高品質資料。 資料採掘。根據資料採掘任務和資料性質選擇合適的資料採掘工具採掘模式; 模式解讀與評估。去除無用的或冗餘的模式,將有趣的模式以客戶能了解的方式表示,並儲存或交付給客戶; 應用。運用上述步驟得到的有趣模式 (或知識)來指導人的行為。 KDD程序是一個互動的迭代的程序。 KDD涉及資料庫、機器學習、統計學、高性能計算、模式識別、資料視覺化等眾多技術的科際整合(Interdipcilinary Integration)。 KDD己經獲得了越來越多的應用與推廣。 資料採掘(data mining,DM)是KDD程序中對資料真正應用演算法採掘知識的那一個步驟,是KDD程序中的重要關鍵。 6.2 資料採掘分類 6.2.1 概述 根據採掘的資料來源類型分類 資料庫根據資料模型分類,可以分為: 關聯式資料庫 物件導向資料庫 物件-關聯式資料庫 演繹資料庫等 根據面向的應用領域,可以分為: 交易資料庫 空間資料庫 時間資料庫 多媒體資料庫等。 根據採用的採掘技術分類 資料採掘採用的採掘技術根據資料分析方法,可以 分為: 最近相鄰方法 個案推理方法 規則方法 決策樹方法 基因演算法 信念網路 統計方法 類神經網路等。 根據發現的知識類型分類 這種分類就是根據資料採掘任務或資料採掘功能進 行分類發現的知識類型可以分為兩大類: 分析資料來源中資料後得到的反映資料特性的描述性知識。 分析資料來源中資料後得到的用於進行預測的預測性知識。 6.2.2 描述性採掘 特徵與比較描述 概念描述通常是指對某類物件的內涵進行描述,並 總結這類物件的有關特徵。概念描述分為特徵性描 述和比較描述,前者描述某類物件的共同特徵,後 者描述不同類物件之間的區別。 關聯規則採掘 顧名思義,關聯分析的目的就是為了採掘出隱藏在 資料之間的相互關係,即從資料中採掘出滿足一定 條件的相依性關係。 舉一個簡單例子,希望發現納稅評估級別與納稅人 一般資訊 (納稅人編碼、地區碼、行業類別、納稅人 類型、申報月份、本期納稅額等資料 )間是否有相關 及如何相關,則可以用關聯規則進行分析,經採掘 得出以下幾條規則: < 地區代號=01,行業類別=03,納稅人類型=01><納稅評估級別=A或B),支援度=5%,信賴度=65%。 < 地區代號=02,行業類別=06,納稅人類型=04><納稅評估級別=D),支援度=6%,信賴度=71%。 < 地區代號=06,行業類別=05,納稅人類型=01><納稅評估級別=E),支援度=10%,信賴度=55%。 群集分析 群集如同通常所說的“物以類聚,人以群分”,是把 一組個體按照相似性歸類成若干類別,它的目的是 使屬於同一類別的個體之間的“距離”盡可能的小。 6.2.3 預測性採掘 資料分類 分類要解決的問題是為一個事件或物件歸類。在使 用上,既可以用此模型分析已有的資料,也可以用 它來預測未來的資料。 資料分類演算法的工作方法是透過分析已知分類資 訊的歷史資料總結出一個預測模型。這裡用於建構 模型的資料稱為訓練集,通常是己經掌握的歷史資 料。 數值預測 數值預測是首先運用分析,由預測屬性取值已知的 資料物件所組成的訓練資料集,建構描述資料物件 特徵與預測屬性之間的相關關係的預測模型,然後 利用預測模型對預測屬性取值未知的資料物件進行 預測。

文档评论(0)

神话 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:5203223011000000

1亿VIP精品文档

相关文档