Hasegawa-Kishino-Yano (HKY) mode
长谷川-岸野-野野(HKY)1985替换模型
Jukes-Cantor模型假设所有替换率均相等,这也意味着四个核苷酸碱基的固定频率均相等。这些假设在生物学上不是很合理,因此我们不妨考虑一个更现实的替代模型,以放松其中的一些假设。例如,我们可以允许固定频率,π,这是不均相等的,并允许转换和颠换的比率不同, κ。这对应于长谷川等人提出的替代模型。(1985),由以下瞬时速率矩阵指定:
对角线 · 项等于相应行中元素的负和。
使用该文件mcmc_JC.Rev
作为HKY分析的起点。
请注意,我们向模型添加了两个新变量。我们可以pi
为固定频率定义一个变量,该变量是从平面Dirichlet分布得出的
pi_prior <-v(1,1,1,1)
pi〜dnDirichlet(pi_prior)
狄利克雷分布是一组连续多变量概率分布,是多变量普遍化的Β分布。
为了纪念德国数学家约翰·彼得·古斯塔夫·勒热纳·狄利克雷(Peter Gustav Lejeune Dirichlet)而命名。
狄利克雷分布常作为贝叶斯统计的先验概率。当狄利克雷分布维度趋向无限时,便成为狄利克雷过程(Dirichlet process)。
狄利克雷分布奠定了狄利克雷过程的基础,被广泛应用于自然语言处理特别是主题模型(topic model)的研究。
Dirichlet分布的概率密度函数
维度K ≥ 2的狄利克雷分布在参数α1, ..., αK > 0上、基于欧几里得空间RK-1里的勒贝格测度有个概率密度函数,定义为:
x1, ..., xK–1 > 0并且x1 + ... + xK–1 < 1,xK = 1 – x1 – ... – xK–1.
在(K − 1)维的单纯形开集上密度为0。 归一化衡量B(α)是多项Β函数,可以用Γ函数(gamma function)表示:
在概率论中,Β分布也称贝塔分布(Beta distribution),是指一组定义在 {displaystyle (0,1)} (0,1)区间的连续概率分布,有两个参数 {displaystyle alpha ,eta >0} alpha ,eta >0。
B分布的概率密度函数是:
由于pi
是随机变量,因此我们需要指定一个步骤以提议对其进行更新。从Dirichlet分布得出的变量的一个好的移动是把mvBetaSimplex
。此移动随机从单纯形中获取一个元素,从Beta分布中为其提出一个新值,然后重新缩放单纯形的所有值以再次求和为1。
move.append(mvBetaSimplex(pi,weight = 2))
move.append(mvDirichletSimplex(pi,weight = 1))
第二个新变量是 κκ,它指定转换率与转换率之比。κκ 参数必须是正实数,并且是自然选择,因为先验分布是对数正态分布:
kappa〜dnLognormal(0.0,1.0)
同样,我们需要为此新的随机变量指定一个移动。一个简单的扩展步骤就可以完成任务。
moves.append(mvScale(kappa))
最后,我们需要使用以下fnHKY
函数创建HKY瞬时率矩阵 :
Q:= fnHKY(kappa,pi)
HKY85,Hasegawa,Kishino和Yano 1985年的模型[13]可以认为是结合了Kimura80和Felsenstein81模型中的扩展。即,区分的速率之间 的转换和颠换(使用κ参数),它允许不相等的基础频率( { displaystyle pi _ {A} neq pi _ {G} neq pi _ {C} neq pi _ {T}} { displaystyle pi _ {A} neq pi _ {G} neq pi _ {C} neq pi _ {T}})。[费尔森斯坦(Felsenstein)在1984年使用不同的参数化方法描述了一个类似(但不等价)的模型;[14]后一种模型称为F84模型。[15 ]
费率矩阵
如果我们用每个点的预期更改数来表示分支长度ν,则:
其他状态组合的公式可以通过替换为适当的基本频率来获得。
来源:
https://revbayes.github.io/tutorials/ctmc/
https://en.wikipedia.org/wiki/Models_of_DNA_evolution