2023-12-06发表2023-12-06更新生信

群体遗传研究——选择信号

已经12月6号了, 感觉分析还没做啥, 无语了…

最近在做核心亲本的分析, 首先是对群体进行分析; 除了经典在一开始的我自称的群体结构/遗传背景”三板斧”(即发育树/NJ, 群体结构/admixture, 和主成分分析/PCA), 再就是对群体内的选择信号的分析了. 这里基于以下知乎博主的内容群体遗传研究——选择信号 - 知乎 (zhihu.com), 总结提炼了一下个人的想法, 以供自己参考.

看看一些名词的定义

选择信号

定义: 生物在自然选择或人工选择过程中，由于选择作用在基因组上留下的遗传多态性降低、连锁不平衡等选择印记。

个人理解: 基因组呈现在我们面前的时候其实是一个”已经完成进化选择”的结果; 但是我们可以根据大量基因组数据, 总结整理出一些规律, 这些规律隐藏暗示着”这里曾经有过选择”.

选择性清除 (选择扫荡) selective sweep

定义: 受选择基因座位的遗传多样性随着选择作用的发生而降低，并且由于相邻基因间的高度连锁不平衡，多态性一并降低的过程。

搭车效应 Hitch-Hiking

定义: 受到正向选择作用的基因座位不仅本身基因频率会升高，并且会借助连锁不平衡的作用使得附近位点的基因频率一并升高的现象。

个人觉得选择扫荡和搭车效应其实讲的是同一个事情的不同方面、不同侧重点; 一个是讨论因为选择+LD导致的多态性降低, 另一个是表现为一些abnormal的基因频率升高.

不同的检测方法对应的不同的检测原理

基于等位基因频率

等位基因的频率的改变是选择效应的直接作用体现. 如果某基因不造成选择效应, 也就是处于”什么位置上什么等位基因型ok”的中性状态, 这样的话该位点会存在广泛的遗传多样性. 当不符合这一点时, 可以认为该位点为选择信号.

基因频谱(site-frequency spectrum, SFS): 某种等位基因在基因组上某个目标区域内出现的频繁程度。

所有应该这种分析方法是单群体内使用.

代表性的检测方法: Tajima’s D, Fu andLi’sD, Fay and Wu’sH, CLR, Hp

Tajima’s D检验的目的是区分随机演变的DNA序列(“中性”)和在非随机过程中演化的DNA序列，包括定向选择或平衡选择。

Tajima’s D的计算原理:多态位点数量和平均非匹配数量的差值。

D=0时，符合中性假设，群体未受到选择; D<0时，受到定向向选择; D>0时，受到平衡选择。

基于连锁不平衡(LD)

本质是基于前文中的选择扫荡(Selective Sweep)中提到的”多态性降低”, 因此在Selective Sweep之后可以找到不同长度的扩展单倍型纯合(Extended Haplotype Homozygosity).

该方法的基本原理是:在中性条件下，基因组很难形成长范围的连锁不平衡的单倍型，因为新突变需要经历漫长的遗传漂变才能达到较高频率，而在漫长的时间里会发生大量基因重组事件，使得这种连锁不断被打破。而当群体处于正向选择作用下时，致因突变及其连锁位点在正选择的作用下，在短时间内会达到较高频率，形成大片段的纯合单倍型。扩展单倍型纯合度检验正是基于这样的特征来筛选受选择基因。

代表性的检测方法: EHH, XP-EHH, iHS, nSL, OmegaPlus

可以看出来, 这也是一个群体内进行的分析咯

基于群体分化

这种分析方法需要提供两个不同分化目标的群体. 两个群体因为环境不同or人工选择目标不同, 有着不同的进化方向, 因此在同一个基因座上, 会存在等位基因Allele的频率差异, 那么这就是选择信号.

同一物种不同群体之间由于环境不同或选择目标不同，其基因组等位基因频率会表现出歧化选择的效应。这种现象在相同基因座位不同等位基因均受到选择时表现尤为明显，即选择加速群体分化。因此，基于群体分化的方法，不同群体同一等位基因频率存在的差异程度大于两个群体处于中性条件下的期望时，就推断该位点存在选择作用。

代表性的检测方法: Weir and Cockerhan’s Fst, LSBL, di

基于基因组杂合度

当基因组上特定区域受到选择时，由于“选择性清除”作用的存在，该区域及其连锁的区域表现为多态性降低，同时纯和度增加。因此对基因组的杂合度进行检测，可以推断出基因组中受到选择的区域。基因组上受选择程度越高，则杂合度程度越低。

代表性的检测方法: θπRatio, ROH

新方法:XP-CLR

XP-CLR 是陈华老师、Nick Patterson 和 David Reich 在 2010 年发表的方法，全称叫 the cross-population composite likelihood ratio test（跨群体复合似然比检验），是一种是基于选择扫荡（selective sweep）的似然方法。

选择扫荡可以增加群体之间的遗传分化，导致等位基因频率偏离中性条件下的预期值。XP-CLR 利用了两个群体之间的多基因座等位基因频率差异建立模型，使用布朗运动来模拟中性下的遗传漂移，并使用确定性模型来近似地对附近的单核苷酸多态性（SNPs）进行选择性扫描。

该方法利用已有的数据集通过极大似然法估计等位基因频率等群体参数，然后预测等位基因频率在中性模型下的”失真”程度进而判断是否有选择发生。极大似然法估计群体参数的一个明显缺点就是过度依赖现有的数据集，可能会造成假阳性的选择信号，作者利用成对SNP连锁不平衡的方法，降低了可能存在连锁的SNP的权重。

类似于, 初始化为中性条件, 然后使用布朗运动”尽可能”达到现在的偏差, 判断这一过程是否存在选择.

#群体选择信号 xpclr iHS