• LD SCore计算基因多效性、遗传度、遗传相关性(the LD Score regression intercept, heritability and genetic correlation)


    这篇文章是对之前啊啊救救我,为何我的QQ图那么飘(全基因组关联分析)这篇文章的一个补坑。

    LD SCore除了查看显著SNP位点对表型是否为基因多效性外,还额外补充了怎么计算表型的遗传度和遗传相关性。

    1 下载、安装ldsc

    git clone https://github.com/bulik/ldsc.git

    cd ldsc

    2 安装ldsc依赖的环境

    conda env create --file environment.yml

    source activate ldsc

    3 测试是否安装成功

    如果安装成功,输入./ldsc.py -h代码会出现如下图:
     
    ellmcV.png

    输入./munge_sumstats.py -h代码会出现如下图:
     
    ell1AJ.png

    4 准备summary文件summary.txt

    summary.txt为关联分析的summary数据,包含rs编号、染色体编号、位置、A1(效应等位基因)、A2(无效等位基因)、效应值(OR或BETA)、P值,如下图所示:

    elql40.png

    5 将summary文件转换为ldsc格式

    munge_sumstats.py --sumstats summary.txt --N 17115 --out scz --merge-alleles w_hm3.snplist

    这里的N指的是研究的样本数量;

    scz是输出的文件名;

    w_hm3.snplist是被纳入分析的SNP,包含三列:包含rs编号、位置、A1(效应等位基因)、A2(无效等位基因)# 这一步可有可无#

    如果想把所有的SNP位点纳入分析,那么采用这个命令: munge_sumstats.py --sumstats summary.txt --N 17115 --out scz

    这一步会生成scz.sumstats.gz的文件;

    6 将基因型数据按染色体分开

    for q in $(seq 1 22); do plink --bfile file --chr $q --make-bed --out chr$q done

    这个步骤会生成22个plink格式文件(bed,bim,fam),每一个文件代表一条染色体。

    eljBee.png

    7 计算LD

    for q in $(seq 1 22); do ldsc.py --bfile chr$q --l2 --ld-wind-cm 5 --yes-really --out chr/$q done

    生成的文件如下所示:

    e3pIpj.png

    8 计算回归截距和遗传度(the LD Score regression intercept and heritability)

    ldsc.py --h2 scz.sumstats.gz --ref-ld-chr chr/ --w-ld-chr chr/ --out scz_h2

    scz.sumstats.gz为步骤5生成的文件

    chr/ 为步骤7生成的LD文件路径

    scz_h2为回归截距和遗传度的输出文件

    9 查看回归截距(LD Score regression intercept )

    less scz_h2.log

    输出文件最底部:

    Intercept: 1.0252 (0.0075)

    截距为1.0252

    关于回归截距怎么看,请看之前发过的推文:啊啊救救我,为何我的QQ图那么飘(全基因组关联分析)

    10 查看遗传度(heritability)

    less scz_h2.log

    输出文件最底部:

    Total Observed scale h2: 0.7153 (0.0386)

    遗传度为0.7153

    11 计算遗传相关性(genetic correlation)

    ldsc.py --rg trait1.sumstats.gz,trait2.sumstats.gz --ref-ld-chr chr/ --w-ld-chr chr/ --out trait1_trait2

    trait1.sumstats.gz为表型1的ldsc格式文件;

    trait2.sumstats.gz为表型2的ldsc格式文件;

    chr/ 为步骤7生成的LD文件路径

    trait1_trait2为表型1和表型2的遗传相关性输出文件;

    12 查看遗传相关性(genetic correlation)

    less trait1_trait2.log

    输出文件最底部:

    Genetic Correlation: 0.6561 (0.0605)

    表型1和表型2的遗传相关性为0.6561

  • 相关阅读:
    Mysql主从同步延迟问题及解决方案
    elasticsearch 查询过程
    RPC(Remote Procedure Call):远程过程调用
    windows
    设计模式
    Linux Safe
    AS
    开机启动
    springboot打包部署
    【Linux】Linux 常用命令汇总
  • 原文地址:https://www.cnblogs.com/chenwenyan/p/11321272.html
Copyright © 2020-2023  润新知