徐书华团队合作建立重构复杂混合历史新方法HierarchyMix

发布时间:2024-01-24浏览次数:10

20240122日,生物信息学专业期刊Briefings In Bioinformatics在线发表了复旦大学生命科学学院徐书华教授团队和北京交通大学倪旭敏副教授团队题为“Reconstructing complex admixture history using a hierarchical model”的研究成果。该项工作提出了一种新方法HierarchyMix,相对于传统方法通常只能推断人群基因交流中两种祖源的情形,HierarchyMix可重构多至四种祖源的复杂遗传混合历史,并应用于我国西北及中亚地区人群的复杂历史研究。

我国西北及中亚地区位于欧亚大陆中心,涉及多种文化、民族和宗教,对促进欧亚大陆经济、文化以及遗传交流起着十分重要的作用。该地区的人群长期受到迁移、隔离以及不同祖源人群混合事件的影响,形成了丰富的遗传地貌。先前的研究表明,我国西北及中亚地区的混合人群中主要包含西欧、南亚、东亚以及西伯利亚四种祖源,其混合历史呈现出较为复杂的“混合之混合”模式,即西欧人群与南亚人群发生混合形成一个初始混合人群,东亚人群与西伯利亚人群发生混合形成另一个初始混合人群,之后这两个初始混合人群进一步发生基因交流,形成当今的我国西北及中亚混合人群。然而,现有的方法和工具均无法对如此复杂的混合模式进行有效的重构和解析。

该项研究首次提出了“层级混合模型(Hierarchical admixture modelHA model)”以描述复杂遗传混合模式,并开发了HierarchyMix方法对人群复杂混合历史进行重构和解析。HierarchyMix方法主要考虑两类混合模型:层级混合模型和次序混合模型(Sequential admixture modelSA model)(1)。这两类模型的不同之处在于层级混合模型为四个祖先人群先两两混合分别生成两个初始混合人群,之后两个初始混合人群进一步发生基因交流形成近期混合人群,而次序混合模型则为每一个祖源人群依次发生遗传混合,从而形成最终的混合人群。由于两类模型中每个祖源群体都只贡献了一次主体混合,混合人群基因组中祖源片段长度分布服从单一指数分布,因此无法直接通过祖源片段长度分布模式来区分这两类模型。幸运的是,团队研究发现不同的混合模式,混合人群基因组中祖先间跳转数量分布在不同遗传混合历史过程中存在差异(2)。

因此,HierarchyMix方法综合考虑祖源片段长度分布和祖先间跳转数量分布信息进行混合历史推断,其计算框架主要可以分为以下三部分(3)。首先,结合混合人群基因组中祖先间跳转数量分布信息,利用贝叶斯信息准则进行最优混合模型的选择。其次,在最优混合模型下,结合混合人群基因组中祖源片段长度分布信息,利用极大似然法对混合时间和混合比例进行参数估计。最后,结合以上结果重构混合历史,输出适用于该混合人群的最优混合模型及参数。

系统的计算模拟结果表明,HierarchyMix方法在不同混合模式下进行模型选择以及参数估计均有较高的准确性,且在应对各类数据噪声时也表现出良好的稳健性。在应用于真实数据分析中,主要以我国西北及中亚地区的两个典型混合人群新疆维吾尔族人群和哈萨克斯坦人群为例,展示了HierarchyMix方法的实际应用价值。结果表明,新疆维吾尔族人群和哈萨克斯坦人群的混合模式均为层级混合模型,即西欧人群与南亚人群之间发生混合,东亚人群与西伯利亚人群之间发生混合,随后这两个形成的初始混合人群之间进一步发生基因交流,最终形成现今的混合人群。这与之前通过更为繁复的分析得到的研究结果保持一致。

总体来讲,HierarchyMix方法的提出为重构人类复杂混合历史提供了新的思路和工具。随着基因组测序技术的进一步发展,世界范围内的高质量基因组数据迅速大规模累积,在带来新的机遇的同时也一定程度上给现有统计方法和算法工具的适用场景提出新的挑战。无论如何,计算方法的不断改进有望为深入探究现代人类在宏大时空框架下的分化、融合与适应性进化历史提供更多可能,并为进一步解析人类起源与演化中更深层次的基础理论问题提供了新的视角。

北京交通大学毕业生张拾硕士、中国科学院大学毕业生张瑞博士和苑锴博士为该研究的共同第一作者,复旦大学徐书华教授与北京交通大学倪旭敏副教授为共同通讯作者。此外,北京交通大学在读研究生杨路、中国科学院大学毕业生刘畅博士和北京交通大学刘玉婷副教授也参与了该项工作的完成。该研究获得了国家重点研发计划、国家自然科学基金委、英国皇家学会牛顿基金、北京市自然科学基金等多项基金的资助。


论文链接:https://academic.oup.com/bib/article/25/2/bbad540/7584785?login=false


1. 层级混合模型与次序混合模型


2. 不同模型下祖源片段长度分布和祖先间跳转数量分布差异及模型选择


3. HierarchyMix算法流程示意图