- 1、本文档共71页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Part II 資料採掘技術篇第六章 資料採掘介紹6.1 資料採掘概述6.2 資料採掘分類6.3 資料採掘系統6.4 資料預先處理6.5 資料採掘與資料倉儲6.6 資料採掘的應用和發展趨勢習題 資料採掘和資料倉儲作為決策支援新技術在近十年 來得到了迅速的發展。在過去的數十年中,我們產 生和收集了大量的資料,希望電腦自動智慧地分析 資料庫中的大量資料以獲取訊,是資料採掘產生並 發展的強大動力。 6.1 資料採掘概述 資料庫中的知識發現(Knowledge discovery in database,KDD)是一個從資料庫中採掘有效的、新 穎的、潛在有用的和最終可了解的模式的複雜程 序。 在KDD定義中: 資料是一組事實的集合,它可以來自不同的資料來源,可以是規則資料,也可以是非規則資料。 模式是關於資料子集的某種語言描述的表達式或某種可應用的模型,又稱為知識。 模式必須是有效的、新穎的、潛在有用的和最終可了解的,分別用可信度、新穎度、可用度和簡單度對其進行評估。 KDD程序是一個複雜程序,其步驟如圖6.1所示。 研究問題欄。包括掌握應預先了解的有關知識和確定資料採掘任務。 選擇目標資料集。根據上一步驟的要求選擇要進行採掘的資料。 資料預先處理。將上一步驟的資料進行整合、淨化、變換等,便資料變成可以直接應用資料採掘工具進行採掘的高品質資料。 資料採掘。根據資料採掘任務和資料性質選擇合適的資料採掘工具採掘模式; 模式解讀與評估。去除無用的或冗餘的模式,將有趣的模式以客戶能了解的方式表示,並儲存或交付給客戶; 應用。運用上述步驟得到的有趣模式 (或知識)來指導人的行為。 KDD程序是一個互動的迭代的程序。 KDD涉及資料庫、機器學習、統計學、高性能計算、模式識別、資料視覺化等眾多技術的科際整合(Interdipcilinary Integration)。 KDD己經獲得了越來越多的應用與推廣。 資料採掘(data mining,DM)是KDD程序中對資料真正應用演算法採掘知識的那一個步驟,是KDD程序中的重要關鍵。 6.2 資料採掘分類6.2.1 概述 根據採掘的資料來源類型分類 資料庫根據資料模型分類,可以分為: 關聯式資料庫 物件導向資料庫 物件-關聯式資料庫 演繹資料庫等 根據面向的應用領域,可以分為: 交易資料庫 空間資料庫 時間資料庫 多媒體資料庫等。 根據採用的採掘技術分類 資料採掘採用的採掘技術根據資料分析方法,可以 分為: 最近相鄰方法 個案推理方法 規則方法 決策樹方法 基因演算法 信念網路 統計方法 類神經網路等。 根據發現的知識類型分類 這種分類就是根據資料採掘任務或資料採掘功能進 行分類發現的知識類型可以分為兩大類: 分析資料來源中資料後得到的反映資料特性的描述性知識。 分析資料來源中資料後得到的用於進行預測的預測性知識。 6.2.2 描述性採掘 特徵與比較描述 概念描述通常是指對某類物件的內涵進行描述,並 總結這類物件的有關特徵。概念描述分為特徵性描 述和比較描述,前者描述某類物件的共同特徵,後 者描述不同類物件之間的區別。 關聯規則採掘 顧名思義,關聯分析的目的就是為了採掘出隱藏在 資料之間的相互關係,即從資料中採掘出滿足一定 條件的相依性關係。 舉一個簡單例子,希望發現納稅評估級別與納稅人 一般資訊 (納稅人編碼、地區碼、行業類別、納稅人 類型、申報月份、本期納稅額等資料 )間是否有相關 及如何相關,則可以用關聯規則進行分析,經採掘 得出以下幾條規則: < 地區代號=01,行業類別=03,納稅人類型=01><納稅評估級別=A或B),支援度=5%,信賴度=65%。 < 地區代號=02,行業類別=06,納稅人類型=04><納稅評估級別=D),支援度=6%,信賴度=71%。 < 地區代號=06,行業類別=05,納稅人類型=01><納稅評估級別=E),支援度=10%,信賴度=55%。 群集分析 群集如同通常所說的“物以類聚,人以群分”,是把 一組個體按照相似性歸類成若干類別,它的目的是 使屬於同一類別的個體之間的“距離”盡可能的小。 6.2.3 預測性採掘 資料分類 分類要解決的問題是為一個事件或物件歸類。在使 用上,既可以用此模型分析已有的資料,也可以用 它來預測未來的資料。 資料分類演算法的工作方法是透過分析已知分類資 訊的歷史資料總結出一個預測模型。這裡用於建構 模型的資料稱為訓練集,通常是己經掌握的歷史資 料。 數值預測 數值預測是首先運用分析,由預測屬性取值已知的 資料物件所組成的訓練資料集,建構描述資料物件 特徵與預測屬性之間的相關關係的預測模型,然後 利用預測模型對預測屬性取值未知的資料物件進行 預測。
文档评论(0)