- 1、本文档共44页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
料探勘的主要模型料分分模型使用一或多入的值一或多出目的值分模型可助已知的果例如客是否流失料集群集群模型分具有似入的在不知道特定果的情下例如想在用分成相似的子群在客群中利益群集群模型很有用料模型可找中的模式其中一或多一或多其他相模型在多果非常有用例如了品的客也了品和再稽核一次以定料品器重新命名或移除位出依有位生新位出算式建器中的函再分再分定新值本入料行抽建立模型及分析步分割取矩分析等分割分成分模型取符合件的矩定列直矩出果分析比正率和率料探勘使用介料分和模型料集群和模型估料探勘基料和料探勘流程使用和
資料探勘的主要模型 資料分類(Classification) 分類模型使用一個或多個輸入的值來預測一個或多個輸出目標的值。分類模型可幫助組織預測已知的結果,例如顧客是否購買、流失。 資料集群(Clustering) 集群模型將數據劃分為具有類似輸入的記錄。在不知道特定結果的情況下,例如想將潛在用戶分成幾個相似的子群組,在客戶群中識別利益群體時,集群模型會很有用。 資料關聯(Association) 關聯模型可找岀數據中的模式,其中一個或多個實體與一個或多個其他實體相關聯。關聯模型在預測多個結果時非常有用,例如,購買了產品X 的顧客也購買了產品Y 和Z。 再稽核一次以確定資料品質 【過濾器】節點:重新命名或移除欄位 【導出】節點:依現有欄位產生新欄位 【導出】節點:運算式建構器中的函數 【再分類】節點:再分類設定新值 【樣本】節點:對匯入資料執行抽樣 建立模型及分析步驟 分割區、C5.0、選取、矩陣、分析等節點 【分割區】節點:分成訓練區測試區 【C5.0】節點:分類模型 【選取】節點:選擇符合條件的紀錄 【矩陣】節點:設定橫列直欄 矩陣輸出結果 【分析】節點:比較正確率和錯誤率 * * 資料探勘與Modeler使用介紹 資料分類-C5.0和CRT模型 資料集群-K-means和模型評估 4 2 3 1 SPSS Modeler資料探勘實務基礎 資料關聯-Apriori和Sequence 資料探勘流程 Modeler使用和資料稽核 建立模型及分析步驟 4 2 3 1 1.資料探勘與Modeler使用介紹 資料預處理和遺漏值 資料探勘 何謂資料探勘?資料探勘的流程 何謂資料探勘? 資料探勘是從大型資料中探索岀有興趣及有價值的問題,使用自動或半自動的方法,對大量資料加以分析,找出有意義的關係或法則。 資料探勘的目的乃是「從大量資料中挖掘有價值的資訊,供管理人員做為決策參考,開創新商業契機」 資料探勘的演進 資料庫 資料倉儲 資料探勘 資料 資訊 知識 資料操作員 資料分析師 管理決策者 專家系統 知識庫系統 決策支援系統 Stages in the CRISP-DM Process 資料探勘的流程 CRISP-DM的全名為Cross-Industry Standard Process for Data Mining(資料探勘交叉產業標準程序)。 處理的流程共計分為商業理解、資料理解 、資料預備 、塑模 、評估 、部署等六個階段。 六個階段形成一個迴圈 (circle) 的過程,在處理的過程中隨時都可以修正,並適時回饋以修正探勘的內容。 資料探勘的流程 商業理解(business understanding):商業理解包括決定商業目標、形勢評估、決定資料探勘目標,及制訂一個專案計畫。 資料理解(data understanding):這個部分需要瞭解資料來源是什麼,這些資料來源的特徵是什麼。包括收集原始資料、描述資料、探索資料,及證實資料的質量。 資料預備(data preparation):將資料來源分類後,需要準備用於探勘的資料。準備過程包括選擇、清理、重構、整合及格式化資料。 資料探勘的流程 塑模(modeling):這是資料探勘中最引人注意的地方,這個部分包括選擇模型技巧、產生測試計畫,及塑模和模型評估。 評估(evaluation):一旦選擇了模型,就應準備好對資料探勘的結果是否達到商業目標作評估。包括評估結果、回顧資料探勘過程,及確定接下來的步驟。 部署(deployment):這個部分著重於將新知識融會到每天的商業運作過程中,從而解答最初的商業問題。包括計畫發佈、監控與維護、產生最終報告,及回顧整個專案。 Modeler使用介紹 Modeler操作介面、資料來源、 資料品質、資料稽核 Modeler操作介面 Modeler資料來源 資料庫:藉由ODBC介面的連結,讓應用程式能夠和多種形式的資料庫連結並取得資料 變數檔案:是處理無限制欄位的ASCII格式檔案,大多以逗號區隔 固定檔案:處理有固定起訖位置欄位的ASCII格式檔案 Excel:可以從Microsoft Excel 的任何版本中導入資料 Statistics 檔案:將 SPSS的.sav資料集匯入 SAS檔案:可將所選擇的SAS 4種版本資料集匯入 變數檔案SmallSampleComma.txt 資料品質 資料的品質對使用者來說非常重要,因為輸入何種品質的資料,將造成何種結果的輸出,這正是我們所說的 GIGO (garbage in garbage out)這種狀況 開始分析資料之前,首先可用【表格】節點來預先檢視資料的品質或內容,可用滑鼠左鍵加上鍵盤的「Alt」鍵,來連結兩個節點,再按執行鈕 【表格】節點 表格輸出至螢幕 表格輸出至檔案 資
文档评论(0)