多重假设检验中FDR的控制与估计方法.docVIP

下载本文档

188
0
约1.33万字
约 7页
2018-01-13 发布于江西
举报
版权申诉

多重假设检验中FDR的控制与估计方法.doc

1、本文档共7页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

多重假设检验中FDR的控制与估计方法

多重假设检验中 FDR 的控制与估计方法* 哈尔滨医科大学卫生统计学教研室( 150081) 刘晋张涛李康△ 近年来，基因组学、蛋白组学和代谢组学等高通量检测技术得到迅速发展〔1 － 4〕，由此产生变量数目巨大的数据( 如 m ＞ 2 000 ) ，而样品数目较小( 如 10 ≤n ≤ 100) ，用传统的统计检验方法对生物标志物进行鉴别会产生大量的假阳性结果( 如检验水准取 α = 0. 05 或 α = 0. 01 等) ，存在阳性发现错误率 ( false discovery rate，FDR) 问题。对于多重检验，若规定检验水准为 α，则对于 m 次检验，至少犯一次假阳性错误的概率为法对其进行检验，即对每一个假设都在显著性水平 α / m 下进行检验，保证 FWER = P ( V ≥1 ) 小于或等于事先给定的 α 检验水准。这种传统方法的主要问题是: V ＞ 0 这一条件过于严格地控制了假阳性结果，使得多重检验效能降低，同时 FWER 的实际意义也不够直观和容易理解。KFWER 定义为 P ( V ＞ K ) 的概率，即为拒绝真实无效假设的个数大于等于 K 的概率，在一定程度上克服了传统检验方法的缺点。实际中，更多需 αm = 1 － ( 1 － α) ，当 m 增加时，αm 趋于 1。多重检验要的是估计多重检验为阳性结果时，其中可能包含有 m 阳性发现错误率( FDR) 的控制及估计方法对分析高维数据具有重要的意义，譬如研究中选择了 50 个潜在的生物标志物，如果能够估计出其中有多少具有研究价值的标志物其意义不言而喻。理论和实际应用表明: 传统的多重检验方法，如 Bonferroni 法、sidak 法等不能有效地解决高维微阵列海量数据的多重检验问题，从而使这一问题成为近年国外统计学方法研究中的热点之一〔5〕。研究主要集中在两个方面: 一是对阳性发现错误率的控制，二是对阳性发现错误率的估计。本文主要在这两个方面介绍其统计学方法的研究进展。 FWER 控制面临的问题多少假阳性结果。 FDR 的提出与定义 1995 年 Benjamini 和 Hochberg 首次提出了 FDR 的概念，并给出了在多重检验中对它的控制方法( 简称 BH 方法) 〔7〕。然而，当时组学海量数据尚未大量出现，开始并未受到重视，甚至因为考虑了 64 个假设检验而受到质疑〔7〕。数年之后，伴随着微阵列检测技术的发展、海量数据的大量出现使得 FDR 有了应用。目前为止，Benjamini 和 Hochberg 的文章引用次数已经达到上万次，FDR 的理论和应用研究也在不断走向成熟。FDR( false discovery rate) 的定义如下: E( V / R) ，R≠0 在多重检验中，需要对整体的错误率进行控制，目 FDR = ? 0，R = 0 ( 1) 前广泛使用的错误测度指标是族错误率( family wise error rate，FWER) ，其他的一些错误测度还包括 K 族错误率( K family wise error rate，KFWER) 〔6〕、平均比较错其中 E( ·) 为数学期望。同理，我们可以得到假阴性发现率( false negative discovery rate ，FNDR) 的定义: E( T / W ) ，W ≠0 误率( per-comparison error rate，PCER) 〔6〕、平均族错误 FNDR = ? 0，W = 0 ( 2) 率( per-family error rate，PFER ) 〔6〕等。为说明这些指标的意义，给出表 1。表 1 多重假设检验四种结果的频数真实情况不拒绝 H0 拒绝 H0 合计 FDR 的含义是阳性检验结果中判断错误的比例。 FDR 具有以下优点: ① 可以灵活调整其取值，作为假设检验错误率的控制指标，其控制值可以根据需要灵活选取，而传统的假设检验( FWER) 的取值则较为固 H0 为真 H1 为真合计 U V m0 T S m1 W R m 定，通常定为 0. 05; ②FDR 的意义明确，可以作为筛选出的差异变量的评价指标，而 FWER 则主要是用来控制Ⅰ类错误的。FDR 与 FWER 两者的关系: 当所有无 FWER 定义为拒绝真实无效假设的个数大于等于 1 的概率( 记作 P ( V ≥1 ) ) ，对此通常使用 Bonferroni * 国家自然科学基金资助( △通讯作者: 李康，E-mail: liking@ ems． hrbmu． edu． c