TOC
什么是Mendelian randomization?研究背景?名称的由来?设计的初衷是什么?
Mendelian randomization的基本原理?
Mendelian randomization的应用场景?实例分析
什么是Mendelian randomization?研究背景?名称的由来?设计的初衷是什么?
基本背景
医学科研中,随处可见“关联性”研究。毫不夸张的说,关联性研究构成了医学科研的基础,比如经典的研究吸烟和肺癌的关系,以及十年前十分火热的全基因组关联研究(GWAS)。这些研究虽然“流于表面”,但为后续的机制探索和功能研究提供了最初的证据。随着医学科研的日渐深入,关联性研究开始饱受诟病,其中最大的槽点莫过于相关性并不等于因果关系。association != causality
正是由于这个原因,关联性研究提供的证据有限,有些时候由于“混杂因素”的存在,极有可能出现“虚假关联”。比如说,你小时候在院子里种了一棵桃树,随着时间的推移,你的个子在长,桃树也在变高,如果你说“我长桃树也长”是有关系的,这就落入了虚假关联的陷阱,因为在这里,时间是一个混杂因素。
基本问题
既然相关性不等于因果性,那么如果去探索医学科研中的“暴露”与“结局”之间的因果性呢?
队列虽好,却是可望不可及的。而更加省时省力的病例对照研究,受限于其研究设计,只能得到相关系,而无法得到因果性。为了解决这一问题,统计学家们就设计了孟德尔随机化(Mendelian Randomization, MR)。
Mendelian randomization的基本原理?
名称由来
简单来说,MR是基于最基本的孟德尔遗传规律,即亲代的等位基因会随机分配给子代,而基因型决定表型(疾病当然也是一种表型)。
方法特点
此处基因型AA和aa决定了某种我们感兴趣的表型(可以看作是“暴露”,比如血液中维生素D的含量),“暴露”又进一步影响了我们关心的结局。由于基因型是先天的,在时间上必然领先于结局发生的时间,且它不受后天的环境等各种混杂因素的影响,因此能够作为研究暴露和结局因果关系的有力工具!
MR最大的优点在于遗传变异都是可以直接测量的,比如通过SNP芯片或者全基因组测序,而且不受外界环境的影响。遗传变异与“暴露”的因果关系一般是经过明确证实的。
基本的数学原理
待续~
Mendelian randomization的应用场景?实例分析
Circulating vitamin D concentration and risk of seven cancers: Mendelian randomisation study
这是发表在BMJ上的一篇MR研究,研究的是血清中循环维生素D含量与7种不同肿瘤的关系。我们以结直肠癌为例。其基本的思路大致如下:
我们的目的是研究X与Y的因果关系,即维生素D含量与结直肠癌的关系,此处我们不直接测量X(VitD含量),而是测量Z(SNP rs2282679和rs10741657)。Z已经明确证实与X相关(rs2282679与维生素D结合蛋白含量相关,rs10741657影响维生素D3向25(OH)D转化)。此处,需要测量的Z是几种不同的SNP,这些SNP一般是前人通过GWAS研究得到的,我们通过测量Z,观察Y,就可以得到X和Y的关系。但是,大家可能有个疑问,即便得到了X和Y的关联,如何去量化它呢?
方法有很多,其中最简单直接的是采用基因评分法。简单来说,就是以前人得到的SNP和X的关联(即OR值)作为每一个SNP的权重,然后构建一个X和Y之间的加权线性回归模型。或者使用Wald比值法先进行单个SNP的关联分析,然后再利用meta分析的思路将所有研究的SNP进行综合。不过这两种方法都要求所有SNP之间是完全独立的,连锁不平衡的SNP需要剔除掉。
MR的原理并不复杂,但是在实际操作中,还是需要注意几点,其中最重要的是找到合适的基因变异作为工具变量。该工具变量必须与我们关心的“暴露”明确相关且不能与混杂因素相关。此外,还要注意的是工具变量只能通过一条途径影响结局,即我们关心的“暴露”这条途径,而不能通过其他途径影响结局。
参考:
没有队列,也可以有“因果”——省时省力省钱的孟德尔随机化了解下 - 超级科普,本文部分copy了该文章。
MendelianRandomization: Mendelian Randomization Package - 有R包,跑一遍教程,理解程度会有本质提升。
A robust and efficient method for Mendelian randomization with hundreds of genetic variants - NC