- 1、本文档共24页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
生物信息学数据挖掘教程教案.ppt
生物信息学数据挖掘 ;主要内容;生物信息数据库;专门数据库目录网站;生物信息学中心;KDD(Knowledge Discovery in Database) ;KDD的基本过程;数据挖掘(data mining) ;数据挖掘的功能;CRISP-DM是Cross-Industry Standard Process for Data Mining的简称,中文翻译为“数据挖掘的跨行业标准过程”;数据挖掘的经典案例;在电信行业
加拿大BC省电话公司要求加拿大Simon Fraser大学KDD研究组根据其拥有的十多年的客户数据,总结、分析并提出新的电话收费和管理办法,制定既有利于公司又有利于客户的优惠政策。
竞技运动中的数据挖掘
美国著名的国家篮球队NBA的教练,利用IBM公司提供的数据挖掘工具临场决定替换队员。
电子商务的关联销售 、客户类别销售分析
;
① 理解数据和数据的来源(understanding)。
② 获取相关知识与技术(acquisition)。
③ 整合与检查数据(integration and checking)。
④ 去除错误或不一致的数据(data cleaning)。
⑤ 建立模型和假设(model and hypothesis development)。
⑥ 实际数据挖掘工作(data mining)。
⑦ 测试和验证挖掘结果(testing and verification)。
⑧ 解释和应用(interpretation and use)。;典型的数据挖掘系统结构;进行数据挖掘常用技术算法;进行数据挖掘常用技术算法;Apriori 算法该算法是由Agrawal 等在1993 年提出的,是最经典的产生关联规则频繁项目集的算法,是一种宽度优先的多趟扫描算法. 在Apriori 算法中,项目是按字典排序,Lk记为频繁k - 项目集构成的集合,Ck记为候选k - 项目集构成的集合.
下面是Apriori 算法的伪代码:
输入: 事务数据库D,最小支持度minsup;
输出: D 中的频繁项目集L;
( 1) L1 = { Frequent 1 - itemsets} ;
( 2) for ( k = 2; Lk - 1≠; k + + ) do begin
( 3) Ck = apriori - gen ( Lk - 1
) ; / /从Lk - 1
产生新的候选k - 项目集/ /
( 4) for all transactiona t ∈ D do begin
( 5) Ct = subset ( Ck
,t
) ; / /产生t 中的候选子集/ /
( 6) for all candidates c ∈ Ct do
( 7) c. count + + ;
( 8) end
( 9) Lk = { c ∈ Ck │c. count≥minsup} ;
( 10) end
( 11) L =∪kLk
;;Apriori - gen 是以频繁( k - 1) - 项目集Lk - 1
为自变量的后选生成函数. 该函数返回所有频繁k - 项目
集的超集,分连接???剪枝2 步执行:
函数Apriori - gen ( Lk - 1
) :
( 1) insert into Ck
;
( 2) select p[1],p[2],…p[k - 1],q[k - 1];
( 3) from Lk - 1p,Lk - 1q;
( 4) where p[1]= q[1],p[2]= q[2]2,…,p[k - 2]= q[k - 2],p[k - 1]< q[k - 1]; / /连接( join) / /
( 5) For all itemsets c ∈ Ck do
( 6) For all ( k - 1) - subset s of c do
( 7) If ( s ∈ Lk-1
) then
( 8) delete c from Ck
; / /剪枝( prune) / /
( 9) end;
( 10) end;
( 11) answer = ∪ { c ∈ Ck
} ;
;运用Apriori 算法挖掘数据库D 的过程;数据挖掘在生物信息学中的应用;( 4) 路径分析: 发现在不同阶段的致病因。
引起一种疾病的基因不止一个, 不同基因在疾病的不同阶段发挥作用。利用路径分析、演变分析等找到在不同阶段的致病遗传基因序列, 可开发不同阶段的治疗药物,从而取得更有效的治疗效果。
( 5) 生物数据可视化和可视的数据挖掘。
由于生物数据的复杂性和高维性, 既不能以数字公式表示, 也不能以逻辑公式表示, 可借助各种可视
您可能关注的文档
- 班组长管理实战系列课程(ppt 77)培训资料.ppt
- 班组长经验交流会(张际涛)更改教学教材.ppt
- 班组长训练教材教程教案.ppt
- 班长基础管理和沟通技巧培训知识研讨.pptx
- 班队会看图猜成语教材课程.ppt
- 球阀的结构原理(详细)教学讲义.ppt
- 理实一体化教学与课程开发教学讲义.ppt
- 理性看待母婴传播传染病教学教材.ppt
- 理想前途教育主题班会研究报告.ppt
- 理想气体的热力性质教材课程.ppt
- 人教版九年级英语全一册单元速记•巧练Unit13【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit9【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit11【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit14【单元测试·提升卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit8【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit4【单元测试·提升卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit13【单元测试·基础卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit7【速记清单】(原卷版+解析).docx
- 苏教版五年级上册数学分层作业设计 2.2 三角形的面积(附答案).docx
- 人教版九年级英语全一册单元速记•巧练Unit12【单元测试·基础卷】(原卷版+解析).docx
文档评论(0)