之前我写过一篇文章群体遗传分析分层校正,该选用多少个PCA?,里面提到可以通过EIGENSTRAT软件确定显著的主成分,后续就可以将显著的主成分加入协变量中。
这篇文章主要是讲如何通过EIGENSTRAT软件确定显著的主成分。
1下载安装EIGENSTRAT
1.1 下载
下载地址:https://data.broadinstitute.org/alkesgroup/EIGENSOFT/EIG-6.1.4.tar.gz
wget https://data.broadinstitute.org/alkesgroup/EIGENSOFT/EIG-6.1.4.tar.gz
1.2 安装
tar zxvf EIG-6.1.4.tar.gz
2 PCA计算
可以用plink计算PCA,也可以用EIGENSTRAT。
PLINK计算PCA比较简便,个人比较推荐PLINK。
之前已经介绍过怎么用PLINK计算PCA了,这里就不再赘述。
3 确定显著PCA数量
下面讲一下怎么用EIGENSTRAT确定多少个PCA被纳入协变量中。
3.1 如果是用EIGENSTRAT计算得到的PCA
用EIGENSTRAT计算得到后缀为.eval
的文件后,使用如下命令:
/bin/twstats -t twtable -i pca.eval -o eigenvaltw.out
3.2 如果是用PLINK计算得到的PCA
用PLINK计算的PCA得到后缀为.eigenval
的文件后,使用如下命令:
/bin/twstats -t twtable -i pca.eigenval -o eigenvaltw.out
3.3 结果解读
假定生成的eigenvaltw.out如下:
这张图里前三个PCA的P值小于0.05,说明做关联分析的时候要把前三个PCA加入协变量中。