【基于R语言群体遗传学】-12-超显性与次显性

欢迎先看前面的博客，再继续进行后面的内容：

群体遗传学_tRNA做科研的博客-CSDN博客

当杂合子的适应度超出纯合子的范围时，二倍体能够展现出更多令人着迷的选择实例。这种形式的一种是杂合子优势，或称为“超显性”，其中杂合子的适应度甚至高于任何一种纯合子。超显性的经典例子是在疟疾高发地区，人类镰状细胞贫血的血红蛋白等位基因。在疟疾猖獗的地区，由于改变的红细胞增加了对疟疾的抵抗力，杂合子具有适应度优势。然而，纯合子患有贫血症，尽管有抗疟疾能力，但总体适应度成本较高。这似乎导致了一个稳定的平衡，其中等位基因频率通过选择保持在一定水平。如果它的频率上升到足够高的水平，以至于产生更多的纯合子，适应度成本会导致更少的这些等位基因被传递下去。如果它的频率较低，就会产生杂合子，并且由于平均适应度优势，该等位基因的频率会增加。让我们看一下Allison（1956）的数据，该数据收集了坦桑尼亚600多名个体的血红蛋白S的血红蛋白基因型数据。让我们在哈代-温伯格预测下验证观察到的和预期的比例。

# 定义观察到的各基因型数量
AA <- 400
AS <- 249
SS <- 5

# 计算总个体数
n <- AA + AS + SS

# 计算等位基因S的频率
p <- (SS + AS/2) / n

# 根据哈迪-温伯格定律计算期望的各基因型数量
EAA <- n * (1-p)^2
EAS <- n * 2 * p * (1-p)
ESS <- n * p^2

# 打印观察到的和期望的基因型频率
print(paste("Observed:", AA/n, AS/n, SS/n))
print(paste("Expected:", EAA/n, EAS/n, ESS/n))

# 将观察到的和期望的基因型数量放入向量
geno <- c(AA, AS, SS)
expe <- c(EAA, EAS, ESS)

# 计算哈迪-温伯格平衡的卡方统计量G
G <- 2 * sum(geno * log(geno/expe))

# 打印卡方统计量G
print(paste("G:", G))

# 计算G统计量的P值，判断是否符合哈迪-温伯格平衡
pvalue <- pchisq(G, df=1, lower.tail=FALSE)

# 打印P值
print(paste("P-value:", pvalue))

与我们之前看到的血红蛋白S数据不同：【基于R语言群体遗传学】-6-表型计算等位基因频率、最大似然估计方法-CSDN博客

基于我们的似然比检验，这些值与哈代-温伯格预测相差很大。考虑到我们对杂合子潜在适应度优势的了解，预期维持这种等位基因频率的杂合子适应度优势的大小是多少？我们可以通过设置等位基因的平均适应度相等来计算这个平衡点。让s代表频率为p的导致镰状细胞的等位基因，a代表常见的血红蛋白等位基因，有三种基因型适应度：wss、wsa、waa。s等位基因要么与自己配对，频率为p，适应度为wss，要么与a配对，频率为1−p，适应度为wsa。这给出了平均等位基因适应度为：

同样可以得到a等位基因的适应度为：

继续推导：

得到杂合子适应性：

Allison（1956）估计在坦桑尼亚穆索马，wss的阈值为0.2。如果我们设waa的相对适应度为1，并假设观察到的等位基因频率处于平衡状态（p = 0.199），我们可以计算假设的杂合子适应度。

p
w_ss <- 0.2
w_aa <- 1
(w_sa <- (p*(w_ss+w_aa)-w_aa) / (2*p-1))

那么，如果疟疾能够被有效地根除，我们会期待发生什么呢？使用我们估计的杂合子抵抗疟疾所带来的适应度优势，即使在面对等位基因在纯合子中配对时带来的重大健康成本，让我们看看s等位基因的多个起始等位基因频率的影响。然后，让我们看看如果我们去除疾病带来的压力会发生什么。我们可以重新利用我们之前编写的FitFreq函数。

# 设置初始等位基因频率
init_p <- p

# 定义适应度值
w_ss <- 0.2 # 纯合隐性基因型的适应度
w_aa <- 1   # 纯合显性基因型的适应度
w_sa     # 杂合基因型的适应度

# 定义模拟的代数
gen <- 50

# 创建适应度场景列表
w <- list(c(w_ss, w_sa))

# 创建初始等位基因频率矩阵
p <- matrix(c(0.01, 0.1, 0.2, 0.5, 0.9))

# 生成迭代序列
iter <- seq_along(p)

# 循环模拟每一代的变化
for(i in 1:(gen-1)){
  # 更新等位基因频率矩阵
  p <- cbind(p, lapply(iter,
                       function(i, y, n) {FitFreq(y[[1]], n[[i]])},
                       y=w, n=p[,ncol(p)]))
}

# 绘制图形，设置x轴和y轴的标签及范围
plot(x=NULL, xlab="Generations", ylab="Allele frequency",
     xlim=c(1,2*gen), ylim=c(0, 1))

# 绘制第一种适应度情景下的等位基因频率变化曲线
for(i in 1:nrow(p)){
  lines(1:gen, p[i,], lwd=2, col="blue")
}

# 创建第二种适应度情景
w <- list(c(w_ss, 1))

# 重置等位基因频率矩阵为初始频率
p <- matrix(init_p)

# 重新生成迭代序列
iter <- seq_along(p)

# 再次循环模拟每一代的变化
for(i in 1:gen){
  # 更新等位基因频率矩阵
  p <- cbind(p, lapply(iter,
                       function(i, y, n) {FitFreq(y[[1]], n[[i]])},
                       y=w, n=p[,ncol(p)]))
}

# 绘制第二种适应度情景下的等位基因频率变化曲线
for(i in 1:nrow(p)){
  lines(gen:(2*gen), p[i,], lwd=2, col="red")
}

从结果图中，我们可以看到，如果失去适应度优势（即如果疟疾在很大程度上被根除），并且杂合子的适应度与普通纯合子相等，s等位基因预计将在另外50代中从0.2下降到约十分之一（1/10）的平衡频率，即约0.02，患贫血症的SS纯合子的比率将从4%（1/25）下降到两个数量级，即0.04%（1/2500）。

杂合子优势的反面是次显性：杂合子的适应度低于任何一种纯合子。这种形式的常见例子是在染色体重排中，例如相互易位，其中两条非同源染色体交换片段。对于平衡易位的双杂合子个体，其一半的配子是不平衡的，受精后会导致来自部分非整倍体的有害基因剂量效应。一个有用的近似是，杂合子的适应度是纯合子的一半，以模拟动态。

次显性平衡可以使用与超显性情况相同的公式和逻辑来计算：

让我们计算我们的平衡等位基因频率：

w_ss <- 0.9
w_sa <- 0.5
(p_eq <- (1- w_sa)/(w_ss-2*w_sa + 1))

如果我们的平衡等位基因频率略高于50%，让我们看看从起始等位基因频率在0.1到0.9范围内，我们可以预期什么样的等位基因频率轨迹。

# 定义模拟的代数
gen <- 20

# 创建适应度场景列表
w <- list(c(w_ss, w_sa))

# 创建初始等位基因频率矩阵，频率从0.1到0.9，步长为0.1
p <- matrix(seq(0.1, 0.9, 0.1))

# 生成迭代序列
iter <- seq_along(p)

# 循环模拟每一代的变化
for(i in 1:(gen-1)){
  # 更新等位基因频率矩阵
  p <- cbind(p, lapply(iter,
                       function(i, y, n) {FitFreq(y[[1]], n[[i]])},
                       y=w, n=p[,ncol(p)]))
}

# 绘制图形，设置x轴和y轴的标签及范围
plot(x=NULL, xlab="Generations", ylab="Allele frequency",
     xlim=c(1,gen), ylim=c(0, 1))

# 绘制不同初始频率下的等位基因频率变化曲线
for(i in 1:nrow(p)){
  lines(1:gen, p[i,], lwd=2, col="blue")
}

# 创建一个新的等位基因频率矩阵，初始频率为平衡频率 p_eq
p <- matrix(p_eq)

# 再次循环模拟每一代的变化
for(i in 1:(gen-1)){
  # 更新等位基因频率矩阵
  p <- cbind(p, lapply(1,
                       function(i, y, n) {FitFreq(y[[1]], n[[i]])},
                       y=w, n=p[,ncol(p)]))
}

# 绘制平衡频率下的等位基因频率变化曲线，使用虚线表示
lines(1:gen, p, lwd=2, lty="dashed", col="blue")

从这个结果中，我们可以看到，起始等位基因频率低于我们的平衡频率的很快就会趋向灭绝，而那些起始略高于平衡频率的则有望在不久之后增加到接近固定。与超显性不同，次显性平衡是不稳定的，等位基因频率倾向于远离它，而不是趋向它。因为稀有等位基因最常以杂合子的形式出现，次显性转化为稀有等位基因的不利，稀有等位基因倾向于丢失，即使较罕见的纯合子比另一种更适应。同样，超显性被认为是稀有等位基因的优势，因为稀有等位基因倾向于存在于杂合子中，导致稳定的多样性。这说明了受倍性和适应度差异约束的进化轨迹如何被困在适应性较低的局部适应度“高峰”上的一个例子。在种群遗传学的早期，人们推测广泛的超显性可能解释了为什么物种中存在如此多的遗传变异。然而，这些假设在很大程度上已经不再受欢迎，现在大量的遗传变异被认为是在选择上是中性的。