徐书华团队完成土家族单亲源基因序列从头组装并论证族群特异性参考基因组构建的必要性和应用价值

发布时间:2022-02-18浏览次数:1362


2022217日, 国际学术期刊Cell Systems在线发表了复旦大学生命科学学院徐书华教授团队的研究成果“Haplotype-resolved de novo assembly of a Tujia genome suggests the necessity for high-quality population-specific genome references”。为了论证构建族群特异的参考基因组的必要性和应用价值,研究团队利用长读长(long-read sequencing)等新一代测序技术,从头组装(de novo assemble)了一个高质量的土家族基因组(TJ1);通过系统性数据分析和评估表明,相比于通用的人类参考基因组,族群特异性参考基因组能够显著提升遗传变异检测的准确度与灵敏性,更高效地揭示群体间的遗传结构与遗传差异,更全面地判别医学疾病相关的低频罕见变异,更精准地辅助遗传诊断(图1)。该研究从方法学和技术层面阐明了族群特异性参考基因组对遗传学研究以及个性化医学应用的重要性。

1. 研究的整体构架

基因组中蕴含的遗传密码决定了物种及个体间的差异,是表型世代传承和生物演化的根源。国际人类基因组计划(HGP)在2003年完成了第一个参考基因组,并长期以来作为通用的人类参考基因组广泛应用在生物学与医学研究中。目前通用的人类参考基因组(GRCh38)是由20个志愿者的DNA序列拼凑而成,其中欧裔族源成分约占57%,非裔占37%,亚裔占6%,如此低的亚裔族源比例无法全面地代表亚洲人群的基因组结构和遗传多样性。长读长测序技术的发展为从头组装高质量的参考基因组提供了技术支持,为数不多的几个亚洲人群基因组的从头组装体(de novo assembly)已公开,包括汉族NH1HX1、日本人JG1、韩国人AK1以及研究团队此前与国内合作者共同发布的藏族ZF1等。这些组装体为生物学研究提供了东亚人群基因组的参考资源。然而,关于族群参考基因组构建的价值和必要性仍然存在较多争议,其中更有不少理论和技术问题尚未得到解决。举例来说,在我国是否各民族都有必要构建参考基因组,抑或可借用既有的汉族参考基因组作替代?少数族群的参考基因组对遗传学以及更广泛的生物医学研究的价值究竟有多大?如何构建以及如何充分发挥这些族群特异参考基因组的优势?

围绕这些问题,研究团队利用了多种技术测定并组装了一个土家样本可区分亲源的染色体水平高质量参考基因组(TJ1)。之所以选取TJ1作为研究目标,是因为土家族是遗传关系上最接近汉族的少数民族(图1A,该研究背后的逻辑是:如果土家族特异的参考基因组的构建都具有充分的价值,则说明其他与汉族遗传关系更远缘的少数民族更有必要构建自身的参考基因组。利用TJ1已经解析单亲源的两套染色体(TJ1.p0TJ1.p1)及已公开的其它基因组资源(GRCh38NH1ZF1等;图1B),研究团队系统评估了族群特异性参考基因组在遗传变异检测、群体遗传分析以及医学应用中的影响与作用。

遗传变异检测方面,TJ1相较其它参考基因组能显著提升土家样本短读长测序(short read sequencing)的比对质量;更准确更灵敏地检测出单核苷酸变异(single nucleotide variation)与基因组结构变异(structural variation),尤其是对后者的提升最为明显(图1C),并在单亲源序列解析中作出更精准的推断。研究团队同时也提出了族群特异性参考基因组的“最佳实践”分析流程(best practice),基于族群特异性参考基因组构建泛基因组图(pan-genome graph)是其中重要一环,最终支撑遗传变异检测及深度分析和应用。

群体遗传学分析方面,TJ1能更好地代表土家样本中优势等位基因(major allele),更精细地体现土家与汉族之前的遗传差异,从而为全基因组关联分析与法医学等领域提供更有信息量的祖源信息位点(ancestry informative marker)。此外,族群特异性基因组有助于自然选择的检测,比如研究中发现了在乳糖耐受相关的基因LCT以及与HBV相关的基因UBXN8上的遗传变异可能在土家族中受到自然选择,而这些信号无法通过使用通用的参考基因组检测到(图1D)。

医学应用方面,TJ1能更灵敏和广谱地捕获医学相关基因上的罕见或低频遗传变异(图1E);实际上,待测群体和参考基因组的遗传关系与遗传变异的检测准确性和灵敏度呈正相关。此外,研究团队还发现族群特异参考基因组能减少遗传诊断的假阳性从而避免误诊。

最后,研究团队也指出,不仅族群的遗传背景在参考基因组的构建与应用中是关键因素,而且族群组装体的测序组装质量也非常重要。通过分析发现,低质量的族群参考基因组在实际应用中存在误判风险,其表现甚至可能不及通用的人类参考基因组的效果。因此,该论文支持和呼吁构建高质量的族群参考基因组。

本研究工作由复旦大学徐书华团队青年研究员楼海一博士、中国科学院上海营养与健康研究所博士生高扬、谢波和王亦民作为共同第一作者主要实施和完成。楼海一博士与徐书华教授为该文共同通讯作者;复旦大学生命科学学院为第一单位与通讯单位;复旦大学附属中山医院与人类表型组研究院为通讯作者单位。

该项工作得到了国家自然科学基金委、人类表型组上海市市级重大专项、中国科学院、英国皇家学会牛顿基金、国家重点研发计划、上海市科委等多项基金的资助,同时得到贝瑞基因公司的技术支持。

原文链接:https://www.sciencedirect.com/science/article/pii/S2405471222000412?dgcid=author

微信扫码查看原文