视觉化技术平行座标.ppt

  1. 1、本文档共39页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
视觉化技术平行座标.ppt

(C) Vipin Kumar, Parallel Issues in Data Mining, VECPAR 2002 (C) Vipin Kumar, Parallel Issues in Data Mining, VECPAR 2002 什麼是資料的探索? 資料探索的主要目的在於 幫助選擇適當的前處理方式以及資料探勘的技術 協助解決資料探勘的問題 人們可以利用視覺化的方式來發現樣式以及進行結果的解釋 與探索性的資料分析(Exploratory Data Analysis,EDA)領域相關 由John Tukey所發展的統計方法 資料探索使用的技術 Tukey 所發展的EDA 強調視覺化 將分群分析和異常偵測皆視為資料探索技術 分群分析和異常偵測是資料探勘的重要研究領域,而非僅視為資料探索 本章將資料探索的重點放在 統計彙總 視覺化 線上分析處理(OLAP) 鳶尾花(Iris )資料集 有許多的資料探索技術是利用鳶尾花資料集進行說明 有三種主要的類別: Setosa Virginica Versicolour 有四種屬性 萼長 萼寬 花瓣長 花瓣寬 彙總統計 彙總統計屬於量化的資料 包括資料的次數、資料的落點和資料的分佈 範例:資料的落點 - 平均數 資料的分佈 - 標準差 次數和眾數 屬性值的次數是指在資料集中該值所發生次數的百分比 眾數是指具有最高次數的屬性值 百分位數 具順序性的資料,其百分位數(percentiles)是很有用的資訊 對順序性屬性或是連續值屬性 x 而言,其值 p 介於0到100之間,x 的第 p 個百分位數為 xp。如第50個百分位數是x50%,表示其所有 x 值的50%小於x50% 資料的落點:平均數及中位數 對連續型資料,平均數和中位數是兩個最常見的彙總統計公式 平均數對於具有離群值的資料很敏感 資料的分佈:全距及變異數 全距是指最大值和最小值間的差距 變異數和標準差是最常用來衡量一組資料分佈的方式 平均數易受離群值所影響,但因變異數也要用到平均數,所以也不適用於具有離群值的資料上 視覺化 資料的視覺化是要用圖形或是表格的方式來呈現資料,一個成功的視覺化圖表就是能夠清楚的呈現資料的特性、以及資料間或是屬性間的關係,而且可以輕易的讓人看圖釋義 視覺化的圖表通常可以用來解釋氣象、經濟及選舉的預測結果,就是可以利用圖形來解釋資料 資料探勘的視覺化技術有時稱為視覺化的資料探勘(visual data mining) 範例:海平面溫度 下圖為 1982 年海平面的溫度 圖形彙整了25萬筆資料 表示法 將資訊映射至視覺化圖形 將物件、屬性及關係映射至視覺化物件、屬性及關係,也就是分別對應至圖形上的點、線、面 物件的三種表示方法 若物件只有一個類別屬性,則其物件通常是根據屬性值歸成一個區塊,而這些類別將用表單或是一個區域來表示 若物件有很多屬性,那麼其物件將用表單的行、列或者是線來表示 物件通常是用二維或三維空間來呈現,而其樣本點通常會用圓圈、方形符號來表示 圖形的安排 以視覺化方式安排 可以很清楚的呈現物件型態 範例: 選取 選取某些要刪除、或是不重要的物件或屬性 選取包含選擇屬性的子集合 選取包含選擇物件的子集合 視覺化技術:直方圖 直方圖 :通常用來顯示單一屬性的分佈情形 範例:鳶尾花屬性的直方圖(分別有10和20個箱子) 二維直方圖 將每個屬性分成兩個區間,再將其區間的資料視為兩個維度 範例:顯示花瓣長和花瓣寬的二維直方圖 從中可以發現什麼? 視覺化技術:盒狀圖 盒狀圖 J. Tukey 發明 另一種呈現單一數值屬性分佈的作法 下圖是萼長的盒狀圖,在箱子的最底層及最上層分別為第25及第75個百分位數,而中間的線則為第50個百分位數。上方及下方的線分別為第10及第90個百分位數。離群值則用「+」來表示 盒狀圖的範例 盒狀圖可以用來比較不同物件類別間屬性的差異 視覺化技術:散佈圖 散佈圖 用來呈現兩個屬性間的關係 可用來偵測非線性關係 二維或三維圖形可用來表示額外的屬性,但資料愈多,視覺化圖形會愈複雜,更不易解釋 鳶尾花資料的散佈圖 視覺化技術:等高線圖 等高線 對於三維度資料而言,二維度屬性是指平面上的位置,第三維是連續值,像是氣溫等,這時就可以用等高線圖來將平面分成不同區域,第三個屬性的值(如溫度或海拔高度)大都相等。常見的等高線圖範例是顯示陸地的海拔高度 等高線範例 視覺化技術:矩陣(高維度資料) 矩陣 其圖形可以視為一個點矩陣,每個陣列上的元素都是一個顏色或是亮度,所以資料矩陣上的元素都是圖形上

您可能关注的文档

文档评论(0)

wendang_12 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档