上海生科院(人口健康领域)研究人员发布首个全球人群基因组多样性和祖源信息数据库

文章来源:上海生命科学研究院  |  发布时间:2017-11-09  |  【打印】 【关闭

  

113日,《核酸研究》(NAR)在线发表了上海生科院(人口健康领域)计算生物学研究所徐书华课题组的研究成果“PGG.Population: a database for understanding genomic diversity and genetic ancestry of human populations。该研究分析了涵盖全球范围107个国家的356个人类族群的基因组多样性和祖源信息,并发布了开放获取的专门数据库——“PGG.Population” (群体基因组学·族群,网址:https://www.pggpopulation.org/)。PGG.Population是迄今唯一在基因组水平专门解析人类族群遗传关系和祖源信息的公开数据库,同时也是目前收集族群数量最大的群体基因组数据库,为研究人员、临床医生及学生和公众理解不同人群的遗传背景提供一个查询和分析平台。

人类族群多样性的形成是一个迁移、隔离、分化、再接触和交流的复杂演化过程。同时,长期对特定环境的适应也可能影响特定的性状以及基因组局部区域的多样性变化。相对来讲,人群的基因组多样性在很大程度上决定了其表型多样性——这也是族群特异性的表型可以世代传承的原因。因此,要真正理解人类不同族群在肤色、体质以及疾病等性状上的差异,最终需要回到基因组、追溯人群的演化历程。众多大型国际计划(比如人类单倍体型图计划和千人基因组计划)以及我国此前完成的各类全基因组关联研究(GWAS) 都集中于关注常见主体人群。而对各地少数族群(大多是土著人群)的研究还很缺乏。一些研究者逐渐意识到,在一个人群研究中的困惑,往往在另一个人群的研究中找到答案。对比了青藏高原人群的基因组,我们才了解为何平原人群无法像藏族人那样舒适地生活在高原上。专家认为,这就是多样性的魅力,也是进化留给我们的财富。

PGG.Population 正是在这样的大背景下建立起来。研究人员通过测序或者收集众多人类群体基因组研究数据,对每个族群的基因组重新整合与分析(包括人群的地理语言归属等基本信息、Y染色体与线粒体谱系、群体间亲缘关系、群体遗传结构、遗传混合以及自然选择印记等),同时建立了数据库,以开放获取的方式向公众展示每个族群的基因组多样性与祖源信息。截止目前,该数据库包括7122个个体的基因组数据,覆盖来自107个国家的356个族群的,每个族群都有自己的“故事” 。该数据库以理解每个人群的基因组多样性与遗传背景为主,同时对其他研究领域也具有重要的学术意义和应用价值。人类群体基因组数据库建设任重道远。全世界有超过2000多个族群,而该库目前只包括世界族群的1/6强。 课题组正在收集或产生更多的来自不同族群基因组数据,以覆盖更多的族群,以期用于全面探索亚洲人群尤其是东亚、东南亚族群的演化历史和自然选择等遗传和演化问题。同时可供遗传学、语言学、体质人类学、医学等行业参考和使用,应用于生物医学等多个领域的研究。此外,研究者们同时希望公众通过访问和查询该数据库对人类基因组多样性和人群祖源等方面的知识和信息有更广泛和深入的理解。

该工作是上海生科院(人口健康领域)计算生物学研究所徐书华课题组博士研究生张超、高扬(上海科技大学)完成,研究人员陆艳、邓恋以及博士研究生刘姣姣(上海科技大学)、冯启迪、田垒、薛者等参与了该项工作。该项工作得到了中国科学院战略性先导科技专项(B类)、国家自然科学基金委重大研究计划及国家杰出青年科学基金、中科院青年促进会、上海市科委等多项基金的资助,同时得到国家遗传与发育协同创新中心支持。

原文:https://academic.oup.com/nar/article/doi/10.1093/nar/gkx1032/4584633?guestAccessKey=8e67351f-3e57-4f29-a3a5-2e73152d2eb2

 PGG.Population数据库网站主界面