- 1、本文档共29页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Data mining a diabetic data warehouse课件.ppt
簡介 資料的儲存 醫-病關係的過程 管理、診療、醫療、檢測、醫藥等 非常大量且複雜 糖尿病資料倉儲 預測病患的病情發展 找出高危險群 選擇本篇 具清楚的流程步驟 問題描述 糖尿病患占全美人口5.9%,且逐年增長 可能源於 肥胖 缺乏運動 經濟問題 每年花費成本約10億美金 佔醫療及保險預算的大部分比例 問題描述(cont’) 健康及醫療問題 併發症多(盲眼、腎衰竭、截肢) 死亡率高 2-4倍的心臟病發 病患生產嬰兒較易有殘缺 2-3倍的新生兒死亡率 問題描述(cont’) 現有成果 減少盲眼率達九成 減少至少五成的洗腎及截肢治療 努力方向 改善醫護的成果 減少支出(省錢) 問題描述(cont’) 路易司安那州 全國第二差的健康指標(3.53%) 最高的糖尿病患死亡率(38.7/0.1M) 紐奧爾良 其所屬的一城市 最胖的城市(38%的成人) 資料來源 Integrated healthcare system 三級醫院、診所、健康計畫、研究所、研究部門 內容 到2001八月有30383個病患 42個月期間,病人平均有23.8個月的資料 但期間外的資料不納入 資料來源(cont’) 共10個資料表 管理及診療、醫療、檢測、醫藥五大項 僅取用管理、診療及檢測的部分資料 資料取得 了解資料的用途 了解如何取得 可能未能取得的資料 BMI、家族病史、病發時間、體重控制及運動習慣 資料轉換 必須要適當的轉換 在單一的資料表 稱為data mining data table 平面檔(flat file) 本研究 使用SQL取出 儲存 使用於CART 資料轉換(cont’) 步驟 檢視關聯資料庫中的資料表並選擇匯出的欄位 決定取得關聯資料厙中的哪些資料的交集(取關聯) 定義data mining data table的安排(layout) 詳列要包含及排除病患的規範,會決定資料的數量,例如紀錄的最大、最小值、每一病患的紀錄數等等 資料的粹取,包括了剔除可辯識病患的資料 檢查data mining data table,確保它具有客觀的意義 資料轉換(cont’) 篩選原則 每一病患歸為同一列 多個欄位聚合成匯總的資訊(減少sparse) 病患至少兩次診療及兩次檢測 資料轉換(cont’) Comorbidity index 合併症指數 17種類,記次 HgbA1c 血糖控制指標 取平均 分界點9.5 Data Mining Mining方法 使用Salford System的CART來建分類樹 每個節點只用一個變數來切割 使用Gini來看亂度 為了防止overfitting,把資料隨機切分為test(7950)以及learning(7953) 從learning產出的tree去與test sample進行預測,由其正確率看是否有overfitting現象 Data Mining 目標 Predictor variable:age, sex, ER, OV, CMI, lipid ( 體脂肪 ), HTN (高血壓 ), CV ( 心血管疾病 ), eye ( 視網膜 ), ESRD ( 腎衰竭 ) Target variable:HgbA1c(糖化血色素) average(9.5) 找出糖尿病患者中,哪些比較會有較差的血糖控制(HgbA1c 9.5) 血糖控制是控制糖尿病的基本步驟 變數權重 由CART來看10個變數中,哪些是最重要的分類變數 第一個中間節點是用AGE來切割(65.6) Class=1 代表是對於血糖控制較差的人(HgbA1C 9.5) Node1~12代表中間節點,Node-1~-13代表葉節點(TN) 原本learning sample中,控制較差的人有13.2%(1052/7953) 經過第一個節點切割後變成19.4%(775/3987) Age=55.231 19.4% Age=65.581 13.2% Terminal Node Classfication error 控制較差的病人在learning以及test皆有四分之一的估計誤差 增加變數可能可以減少其誤差 服用的藥物 BMI值 Classfication error in learning 07/16/96 ... 07/16/96 ... 07/16/96 ... 07/16/96 ... 07/16/96 ... 07/16/96 ... 07/16/96 ... 07/16/96 ... 07/16/96 ... 07/16/96 ... 07/16/96 ... 07/16/96 ... 07/16/96 ... 07/16/96 ... 07/16/96 ... 07/16/96 ... 07/16/96 ... 07/16/96 ..
文档评论(0)