徐书华团队发布人类主要组织相容性复合体基因数据库和分析平台PGG.MHC

发布时间:2022-11-03浏览次数:2104

2022112日,国际知名学术期刊《核酸研究》(Nucleic Acids Research)在线发表了复旦大学生命科学学院/人类表型组研究院徐书华教授团队开发的人类主要组织相容性复合体(MHC)基因数据库和计算分析平台PGG.MHChttps://www.pggmhc.org/pggmhchttps://pog.fudan.edu.cn/pggmhc),论文题为“PGG.MHC: toward understanding the diversity of major histocompatibility complexes in human populations”PGG.MHC收录了来自世界多个族群的53,254个个体的全基因组测序数据(WGS/全外显子组测序数据(WES/芯片数据,整合了其MHC基因型和单倍型频率信息,并在此基础上提供了一体化的查询、可视化、数据分析平台。

位于人类基因组6p21位置的主要组织相容性复合体(MHC)区域,包含了多个人类白细胞抗原(HLA)基因,这些HLA基因在细胞内外抗原呈递过程中起着重要作用。大量研究表明HLA基因与自身免疫疾病、传染病(如近三年肆虐全球的新冠)、癌症、精神类疾病等多种复杂遗传病有关。除此之外,在器官移植中,供体和受体的HLA-A, B, DR三个位点的相容程度与器官移植后的免疫排斥反应密切相关。作为人类基因组上多态性最高的基因家族,HLA基因在不同族群和地理区域表现出高度的多样性——显著的族群差异和地理分化。研究不同族群、不同地域的HLA基因型和单倍型多样性分布特征和规律对于群体遗传学、精准医学等领域有着重要的意义。研究团队致力于提供一个准确可靠的全球族群HLA基因型和单倍型频率的数据集和相应的分析平台,从而为HLA的分析以及相关疾病和表型的研究提供技术支撑。

准确的HLA基因分型和标准化的基因型频率、单倍型频率计算是可靠的参考数据集的基础,而现有的数据库和公共数据集采用的HLA基因分型方法的族群、地理位置划分具有高度的异质性。此外,高分辨率的HLA分型结果如三位基因型分辨率(图1)对大部分族群尤其是东亚地区的族群仍然十分稀缺。因此,亟需建立一个高质量的HLA参考数据集。研究团队整合了目前最为可靠的HLA分型软件,自主开发了一套规范化、高精度的HLA基因分型流程。分析验证显示,该分型流程在一位基因型分辨率上达到了100%的分型准确度,在两位基因型分辨率上达到了92%以上的分型准确度。值得一提的是,对于WGSWES样本,研究团队还提供了三位精度的分型结果。截至论文发表,PGG.MHC数据库共收录了来自世界66个国家的190个族群的53,254个个体的HLA基因型数据,并提供了45,761条基因型频率条目。此外,该工作还首次构建了101个世界人群和33个中国省份人群的HLA单倍型图谱。

1 HLA命名原理图

研究团队致力于提升PGG.MHC的功能和使用体验,提供了直观、友好的查询界面(图2),为用户检索、浏览、筛选和下载数据提供了便利。在此基础上,PGG.MHC还提供了多层次、多样化的可视化展示功能(图3),一方面,PGG.MHC提供了在全球、洲级区域和中国省市等多个层次的基因型频率可视化,使得用户可以快速识别HLA基因型在各族群中的分布模式,并便于用户进一步建立基因型频率的分布模式与疾病、表型的关联。另一方面,PGG.MHC使用桑基图可视化了族群的HLA单倍型结构,直观地展示了丰度最高的HLA基因单倍型,有助于用户从单倍型层面认识族群的遗传结构。此外,PGG.MHC还特别提供了两个实用的HLA在线分析功能,一是基于参考数据集对用户上传的基因型数据进行HLA基因型推断,以便于用户进行目标变异的精细映射的下游分析。值得一提的是,研究团队将两个基于东亚人群的新构建的参考数据集嵌入到基因型推断分析功能中,为东亚人群的HLA分析提供了丰富的材料和信息。二是进行HLA基因型和表型的关联分析,研究团队特别提供了选择PGG.MHC中族群作为参考人群的接口,有助于用户在关联分析中针对性地匹配参考数据以便更好控制族群遗传背景异质性在统计分析中混杂效应。

2 PGG.MHC查询界面示意图

3 PGG.MHC功能模块

简要地讲,PGG.MHC提供了高质量的HLA基因型和单倍型多样性数据信息,在数据层面对数据来源、HLA分型流程和数据整合各步骤严格把关,保证了频率数据的高可靠性;在数据库功能方面,提供了直观而丰富的数据可视化界面和实用的HLA相关数据分析工具。

复旦大学人类表型组研究院硕士研究生赵晓涵和王宝楠、中国科学院上海营养与健康研究所博士研究生马森为本文共同第一作者。复旦大学生命科学学院硕士研究生江雪彤作为关键成员参与了该工作。徐书华教授为本文通讯作者。该研究工作得到了国家基金委基础科学中心、国家自然科学基金、中国科学院先导专项、英国皇家学会牛顿基金、人类表型组上海市市级重大专项等基金的资助。


原文链接:https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkac997/6793798#378569020