• GWAS后续分析:多基因风险评分(Polygenic Risk Score)的计算


    一、什么是多基因风险评分

    传统的GWAS研究只计算单个SNP位点与表型之间的关联性,再用Bonferroni校正,通过给定的阈值,筛选出显著的SNP位点。

    这样会存在两个问题,第一、Bonferroni校正非常严格,很多对表型也有贡献的位点会因为达不到阈值而被过滤掉。第二、单个位点对表型的解释度是很低的,尤其是对于高血压这种多基因控制的表型,用一个个单独的位点解释高血压患病风险,就显得很单薄。

    因此,开发一个能让我们直观的感受,患某种疾病的风险多高的工具,显然是非常有必要的。

    ​为了更好理解多基因风险得分(PRS)的概念,我画了一个图,假如翠花的多基因风险评分处于第二个柱形图那里,那么我们就会认为翠花得某种疾病的风险比普通人要低。

    ATLIIK.png

    二、多基因风险得分的公式

    多基因风险得分的公式如下:

    ATX39S.png

    PT表示P值的阈值;

    i表示符合该阈值下的SNP的数量,i = 1, 2, ..., m;

    βi表示SNP的效应值,在GWAS当中,如果是线性表型,该值为β,如果是二元表型,该值为OR;

    Gi,j 表示SNP的基因型,分别用{0,1,2}显示;

    三、怎么计算多基因风险评分

    目前计算PRS的主流软件有PRSice,截止目前为止,引用率有366次。

    下面详细讲讲如何应用PRSice计算多基因风险得分。

    1、PRSice安装

    进入下载链接。选择所需的系统,以下安装以Linux系统为例。

    wget https://github.com/choishingwan/PRSice/releases/download/2.1.11/PRSice_linux.zip
    

      

    2、解压PRSice

    unzip PRSice_linux.zip
    

      

    解压完以后,出现以下几个测试文件:

     AoBWUU.md.png

    3、测试是否安装成功

    输入命令

    ./PRSice_linux
    

      

    如果安装成功,则会出现如下的界面:

    ATL7GD.png

    4、使用PRSice计算多基因风险得分(PRS)

    对于二元表型,使用以下代码

    Rscript PRSice.R --dir . --prsice ./PRSice_linux --base TOY_BASE_GWAS.assoc --target TOY_TARGET_DATA --thread 1 --stat OR --binary-target T
    

      

    对于连续型变量的表型,使用以下代码

    Rscript PRSice.R --dir . --prsice ./PRSice_linux --base TOY_BASE_GWAS.assoc --target TOY_TARGET_DATA --thread 1 --stat BETA --beta --binary-target F
    

      

    四、生成文件结果解读

    跑完上面的命令后会生成以下文件:

    PRSice.best,PRSiceBARPLOT.png,PRSiceHIGH-RES_PLOT.png,PRSice.log ,PRSice.prsice,PRSice.summary

    下面一个个的讲解这些文件包含哪些重要的信息。

    PRSice.prsice文件

    PRSice.prsice的文件格式如下:

    ATOpi8.png

    PRSice.prsice文件包含:在给定不同阈值的P值以后,符合要求的SNP数量(Num_SNP),SNP的解释度(R2),回归系数

    PRSice.best文件

    PRSice.best文件格式如下:

    ATOeoV.png

    文件包含FID,IID,是否回归,PRS值。这个文件计算的是每个个体最优的PRS值。

    PRSice.summary文件

    PRSice.summary文件内容如下:

    ATORfS.md.png

    包含表型,P的阈值,PRS的解释方差,所有变量的解释方差,协变量的解释方差,回归系数,P值,该阈值下的SNP数量。 这个文件给出的是该表型下最优的模型。

    PRSice_BARPLOT.png图片

    PRSice柱状图显示的是不同P值阈值(横轴)下的多基因风险得分(纵轴),柱状图最高的点表示模型最优,如该图显示的是P值阈值为0.4463时,模型最优,该表型的多基因风险得分为0.052,P值为4.7*10-18

    ATjibn.png

    PRSiceHIGH-RESPLOT.png图片

    这张图显示的是,在该模型下,最佳的P值阈值为绿色最高点处,此时P值的阈值为0.4463

    ATjNxe.png

    参考文献:

    https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3605113/

    https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1987352/

    https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3912837/

  • 相关阅读:
    手机模式input框输入框收起键盘失焦后强制让页面归位
    造一个智能语音音箱!!!太简单了【语音智能管家】
    教你搭建一个花卉识别系统(超级简单)
    【语音智能管家】之语音唤醒(附演示视频)
    conda 安装GPU——CUDA
    筹划了几年,我终于开始实现了---语音智能管家
    我爬取了爬虫岗位薪资,分析后发现爬虫真香
    最近爆火的帅小伙丁真在AI面前颜值多少分?
    生物信息学云论坛第十三场报告会
    生物信息学云论坛第十二场报告会
  • 原文地址:https://www.cnblogs.com/chenwenyan/p/10686136.html
Copyright © 2020-2023  润新知