生物信息学数据挖掘教程教案.ppt

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
生物信息学数据挖掘教程教案.ppt

生物信息学数据挖掘 ;主要内容;生物信息数据库;专门数据库目录网站; 生物信息学中心;KDD(Knowledge Discovery in Database) ;KDD的基本过程;数据挖掘(data mining) ;数据挖掘的功能;CRISP-DM是Cross-Industry Standard Process for Data Mining的简称,中文翻译为“数据挖掘的跨行业标准过程”;数据挖掘的经典案例;在电信行业 加拿大BC省电话公司要求加拿大Simon Fraser大学KDD研究组根据其拥有的十多年的客户数据,总结、分析并提出新的电话收费和管理办法,制定既有利于公司又有利于客户的优惠政策。 竞技运动中的数据挖掘 美国著名的国家篮球队NBA的教练,利用IBM公司提供的数据挖掘工具临场决定替换队员。 电子商务的关联销售 、客户类别销售分析 ; ① 理解数据和数据的来源(understanding)。 ② 获取相关知识与技术(acquisition)。 ③ 整合与检查数据(integration and checking)。 ④ 去除错误或不一致的数据(data cleaning)。 ⑤ 建立模型和假设(model and hypothesis development)。 ⑥ 实际数据挖掘工作(data mining)。 ⑦ 测试和验证挖掘结果(testing and verification)。 ⑧ 解释和应用(interpretation and use)。;典型的数据挖掘系统结构;进行数据挖掘常用技术算法;进行数据挖掘常用技术算法;Apriori 算法该算法是由Agrawal 等在1993 年提出的,是最经典的产生关联规则频繁项目集的算法,是一种宽度优先的多趟扫描算法. 在Apriori 算法中,项目是按字典排序,Lk记为频繁k - 项目集构成的集合,Ck记为候选k - 项目集构成的集合. 下面是Apriori 算法的伪代码: 输入: 事务数据库D,最小支持度minsup; 输出: D 中的频繁项目集L; ( 1) L1 = { Frequent 1 - itemsets} ; ( 2) for ( k = 2; Lk - 1≠; k + + ) do begin ( 3) Ck = apriori - gen ( Lk - 1 ) ; / /从Lk - 1 产生新的候选k - 项目集/ / ( 4) for all transactiona t ∈ D do begin ( 5) Ct = subset ( Ck ,t ) ; / /产生t 中的候选子集/ / ( 6) for all candidates c ∈ Ct do ( 7) c. count + + ; ( 8) end ( 9) Lk = { c ∈ Ck │c. count≥minsup} ; ( 10) end ( 11) L =∪kLk ;;Apriori - gen 是以频繁( k - 1) - 项目集Lk - 1 为自变量的后选生成函数. 该函数返回所有频繁k - 项目 集的超集,分连接???剪枝2 步执行: 函数Apriori - gen ( Lk - 1 ) : ( 1) insert into Ck ; ( 2) select p[1],p[2],…p[k - 1],q[k - 1]; ( 3) from Lk - 1p,Lk - 1q; ( 4) where p[1]= q[1],p[2]= q[2]2,…,p[k - 2]= q[k - 2],p[k - 1]< q[k - 1]; / /连接( join) / / ( 5) For all itemsets c ∈ Ck do ( 6) For all ( k - 1) - subset s of c do ( 7) If ( s ∈ Lk-1 ) then ( 8) delete c from Ck ; / /剪枝( prune) / / ( 9) end; ( 10) end; ( 11) answer = ∪ { c ∈ Ck } ; ;运用Apriori 算法挖掘数据库D 的过程;数据挖掘在生物信息学中的应用;( 4) 路径分析: 发现在不同阶段的致病因。 引起一种疾病的基因不止一个, 不同基因在疾病的不同阶段发挥作用。利用路径分析、演变分析等找到在不同阶段的致病遗传基因序列, 可开发不同阶段的治疗药物,从而取得更有效的治疗效果。 ( 5) 生物数据可视化和可视的数据挖掘。 由于生物数据的复杂性和高维性, 既不能以数字公式表示, 也不能以逻辑公式表示, 可借助各种可视

您可能关注的文档

文档评论(0)

youngyu0329 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档