• GWAS研究中case和control的比例是有讲究的?


    GWAS研究中,表型分两种。第一种是线性的表型,如果身高、体重、智力等;第二种是二元的表型,比如患病和未患病,即通常所说的case和control。对于表型是线性的样本来说,是不存在case和control比例不平衡的情况的,但是对于表型是二元的样本,比如疾病和对照组(健康人群),case和control比例失衡,可能会出现N多的假阳性结果。具体看看下面的例子。

    例子1:case和control比例在稍微正常的情况下,比如冠心病(coronaryartery disease,case:control =1:12, N = 408,458),此时,用什么模型计算关联分析结果都OK.

    下面分别用三个不同算法(BOLT-LMM, SAIGE-NoSPA 和 SAIGE)计算的GWAS结果,从图下可以看出,当case和control的数量比例不是严重失衡的情况下,这个时候用哪种方法结果都没有区别。

    例子2:case和control比例在比较失衡的情况下,比如结直肠癌 (colorectal cancer , case:control = 1:84, N = 387,318),此时,BOLT-LMM和SAIGE-NoSPA显然出现了很多假阳性位点,而SAIGE模型下的GWAS结果则比较正常

    例子3:case和control比例在严重失衡的情况下,比如青光眼(glaucoma, case:control = 1:89, N = 402,223),此时,BOLT-LMM和SAIGE-NoSPA显然出现了很多假阳性位点,而SAIGE模型下的GWAS结果则比较正常。

    例子4:case和control比例在极其严重失衡的情况下,比如甲状腺癌(thyroid cancer, case:control = 1:1,138, N = 407,757),此时,BOLT-LMM和SAIGE-NoSPA显然出现了非常多的假阳性位点,而SAIGE模型下的GWAS结果则比较正常。

    综上,说了这么多,是想告诉大家当手头的case和control比例差别比较悬殊的时候,不要一上来就跑GWAS,而是先考虑一下你的样本适合的模型。像这篇文章里的SAIGE模型就很适合case和control比例严重失衡的情况。

    SAIGE的具体用法请参照:

    https://github.com/weizhouUMICH/SAIGE

    图片出处及参考文献:https://www.nature.com/articles/s41588-018-0184-y

  • 相关阅读:
    《剑指offer》39题—数组中出现次数超过一半的数字
    常见排序算法实现
    剑指offer题目分类
    腾讯2019实习面试题
    Word2vec资料
    Hello World投票以太坊Dapp教程-Part1
    以太坊开发框架Truffle学习笔记
    linux查看端口进程占用情况
    重置fedora root密码
    docker挂载本地目录的方法总结
  • 原文地址:https://www.cnblogs.com/chenwenyan/p/10621131.html
Copyright © 2020-2023  润新知