技术与资讯 > 资讯服务 > 行业资讯

十二位分子遗传学家万字长文,烛照遗传学和基因组学的未来

2020-09-29


文丨张文叁

前 言  

笔者曾在原上海生命科学研究院“Bio2000”课程上听过饶毅老师两节生物课。饶毅老师每次都从孟德尔的豌豆实验讲起遗传学的诞生,进而回顾DNA双螺旋的诞生以及富兰克林女士的贡献与遗憾。在课上,饶毅老师曾点评沃森的为人,赞赏克里克的才华。这么多年过去,我仍然记忆犹新!

在德国学习的时候,我的遗传学老师、著名植物生理学家Thomas Schmülling教授给了我一本名为Griffiths Introduction to Genetic Analysis(《格里菲思遗传分析导论》)的遗传学教材,里面用整整一章节介绍了孟德尔这位超越时代、孤独前进的遗传学之父八年来精巧灵妙、耗尽心血的实验,为1864年以后的遗传学研究点亮了灯塔。

图:格雷戈尔·孟德尔;位于捷克布尔诺的豌豆试验田;Griffiths Introduction to Genetic Analysis

如今,随着20年前人类基因组计划的完成,DNA测序和基因组学技术快速发展,遗传学由此跨进新的时代。Nature Genetics Review期刊创办20周年之际,该期刊编委会邀请了十二位现代分子遗传学家,就遗传学和基因组学领域面临的主要挑战和机遇进行探讨,为广大研究者指点迷津,烛照莘莘学子的书案。

为示本篇文章的指导意义,我们首先简要介绍这十二位卓越的科学家:

Amy L. McGuire为美国贝勒医学院生物医学伦理Leon Jaworski席位教授和医学伦理及卫生政策中心主任。这位科学家获誉甚多,2014她年被邀请在tedMed演讲“人类精神中不存在基因组中”。2020年,她当选为哈斯丁中心(人类第一所生命伦理研究中心)研究员。她的研究侧重于探讨新兴技术的伦理和卫生政策问题,以及基因组学研究,并且她尤其关注个性化医学和新的神经科学整合领域。

Stacey Gabrielz自Broad研究所2012年成立以来一直担任研究所主任职务,她带领研究所在基因组学取得了重大研究成果。她是该研究所的首席科学家,在服务于科研外,还负责该研究所的行政管理事务。她是公认的基因组学技术和多项基因组项目的领导者和执行者,包括Hapmap基因组计划,1000人基因组计划,人类癌症基因组图谱计划,美国国家心脏、肺和血液研究所的全外显子组测序项目以及tOPMed计划。

Sarah a. tishkoffc为美国宾夕法尼亚大学David and Lyn Silfen讲席生物学副教授,同时在该校医学院和科学与艺术学院也有教职。她是美国科学院院士,曾获得NIH科学先锋奖、David and Lucile Packard奖、Burroughs/wellcome Fund奖和人类遗传学Curt stern奖项。她的研究主要关注非洲人群基因变异、人类进化历史、非洲人群适应环境和表型变异的遗传因素以及非洲人群感染性疾病的易感性的遗传基础。

Ambroise Wonkam为非洲人类遗传学协会的主席,是一名医学遗传学教授。他担任GeneMaP(非洲人口遗传医学研究中心) 主任,同时任南非开普敦大学健康科学学院副院长。他成功领导众多NIH和Wellcome Trust- Funded基金会资助的项目。在过去的十年中,Wonkam教授专注于镰状细胞病临床变异研究、听力障碍遗传学研究等。2014年他被授予英国医学遗传学会奖。

Aravinda Chakravarti为纽约大学医学院的医学教授和人类遗传学和基因组学中心主任, Muriel G.和 George W.Singer神经学和生理学讲席教授。他是美国科学院院士、美国国家医学科学院院士和印度国立科学院院士。他参与过人类基因组计划,国际人类基因组单体型图计划(Hapmap)和1000人基因组计划等。他的研究关注多因素诱发疾病的分子生物学机理。2013他被美国人类遗传学会授予威廉·艾伦奖,2018年他被人类基因组计划组织授予 Chen Award奖。

Eileen e.M.Furlong为欧洲分子生物学组织(EMBO)成员和EMBO理事会的成员,并担任该机构基因组生物学部门主任。她同时是欧洲科学院和欧洲研究委员会(ERC)高级研究员。她领导团队剖析基因组调控的基本原则以及基因如何在胚胎发育期间决定细胞命运,包括增强子如何在3D核内发挥组织协调功能。她的研究结合了遗传学、单细胞测序基因组学、细胞成像和生物信息学,可应用于复杂的多细胞生物学研究。

Barbara Treutlein为苏黎世联邦理工学院生物科学和工程系发育生物学副教授。她领导的小组使用和发展单细胞测序技术,结合基于2D和3D培养的干细胞系统来研究人体器官如何发展和再生,如何调节细胞命运。她获得了多个奖项和荣誉,包括Friedmund Neumann先灵葆雅基金会奖、国际干细胞研究学会授予的Susan Lim博士杰出青年科学家奖、EMBO授予的青年科学家奖。

Alexander Meissne为德国马克斯·普朗克学会(MPI)的成员,目前是柏林马克斯普朗克分子遗传学研究所主任。他曾领导哈佛大学基因调控生物学系,并且是干细胞与再生生物学系访问科学家。加入MPI之前他是哈佛大学终身教授和Broad研究所的高级副研究员,在次期间他主导进行表观基因组学计划。2018年他被选为EMBO成员。他领导团队使用基因组学技术研究发育生物学和疾病生物学以及表观遗传学。

Howard Y. Chang为斯坦福大学癌症基因组学研究中心的弗吉尼亚 D K路德维希讲席教授,也是霍华德·休斯医学研究所的研究员。他是一名生物物理学家,专注于破译非编码基因组中隐藏的信息。他最负盛名的研究包括LncRNAs的基因调控,开发新的表观基因组学研究技术。他是美国科学院院士、美国医学科学院院士和美国艺术与科学院学院士。

Núria López-Bigas为西班牙巴塞罗那庞培法布拉大学副教授、ICREA生物医学研究所副研究教授。她在2015年获得了ERC(欧洲研究委员会)奖项,并在2016年当选EMBO成员。她的研究被授予著名的德银萨瓦德尔生物医学研究奖,获誉加泰罗尼亚国家青年研究人才和人类前沿科学项目授予的职业发展奖。她的研究主要集中在识别癌症的驱动突变基因,不同肿瘤类型中信号通路,以解析基因突变导致癌细胞突变的累积。

Eran Segal为魏茨曼科学研究所计算机科学和应用数学系教授,领导一个多学科实验室,在机器学习领域积累了丰富经验,在计算生物学和变异分析的的高通量基因组数据的分析方面贡献卓越。他的研究侧重于微生物学、营养和遗传学、及其对健康和疾病的影响,旨在开发基于大数据分析的人类个性化医疗。他已经发表了150多篇文章,他的工作获得了许多奖项和荣誉,包括Overton奖和迈克尔·布鲁诺奖项,当选为EMBO成员和以色列青年学院成员。

Jin-soo Kim为韩国大田基础科学研究所基因组工程中心的主任。他获得过众多奖项,包括2017年Asan医学奖、2017年 Yumin科学奖,2018年他被Nature杂志评选为东亚地区十大科学明星奖,2019年亚太地区生物化学家和分子生物学家联合会授予他科学和研究卓越奖。自2018年Kim教授就一直是全球论文高引科学家之一,他领导团队致力于在生物医学研究发展中利用和革新基因组编辑工具。

正 文  

01

Amy L. McGuire
实现基因组学研究的真正公平

对于遗传学和基因组学领域来说,21世纪的第一个10年是一段生物学快速发现、变革性技术快速发展和测序成本直线下降的时代。21世纪初,我们通过人类基因组计划这项划时代的国际合作项目,绘制了人类全部基因组。此后我们通过十多年的努力,花费数十亿美元,实现了个人基因组测序成本直线下降。

在随后的十年中,即21世纪的第二个10年,这个领域转向解析生物学研究产生的大量基因组数据、个人的环境因素、生活方式、其他非遗传因素。铺天盖地的宣传,使我们回忆起过去10年是人类了解自身生物学的精致以及复杂性。然而,医学领域的蓝图由遗传风险预测被精准医学取代,精准医学涵盖遗传、环境和生活方式,以上因素都致力于在恰当的时间利用恰当的药物治疗符合条件的疾病患者。

当我们开启21世纪的第三个10年,我们现在面对的前景是不仅仅能够更准确地预测疾病风险和基于遗传和非遗传因素调整现有治疗方法,而且我们也有可能利用基因编辑技术,完全治愈、甚至消除一些疾病。

这些进步引出了许多伦理和政策问题,包括对于隐私的担忧和歧视、人们了解科学研究成果的权利、消费级基因检测和受检测者知情权等。许多重大投资是为了获取更好地理解临床基因检测的风险和利益,而关乎人类基因编辑的伦理已经在科研界展开了激烈辩论。许多著名科学家和生物伦理学家呼吁暂停人类生殖细胞系编辑,直到它被证明是安全有效的,直到能够获得广泛的社会共识。

面临这些重要问题,我们需要继续探索,但随着技术广泛利用,基因组测序在过去的20年里开始被应用到常规临床护理。我们也面临着最困难的和最基本的挑战之一:在基因组学、医学、社会阶层不平、和其他一些特权阶层导致的不利的因素。基因组学的未来必须是基因组学本身!无论种族、地理或贫富!

这个大胆的目标——实现基因组学真正公平,需要多方面的解决方案。COVID-19时下在全球肆虐,不成比例的疾病和死亡负担在不同种族和少数民族产生。最近美国掀起的抗议警察虐死黑人弗洛伊德事件,再次敲响了我们反种族歧视运动和要求种族公平权益的警钟。

为了实现基因组学的真正公平,我们需要改变,而改变需要谦卑。我们必须积极倾听和互相学习,我们必须要团结起来和承认人类是命运共同体,这需要勇气和改变!

为实现基因组学研究更公我们能做些什么呢?我在此提出三个领域方面的建议,我们应该集中注意力来解决这个重要的问题。首先,我们必须确保在基因组学研究的公平。我们检查核对了2016年进行的2511项全基因组关联分析(GWAS)的研究,大约3500万个样本,但是81%来自欧洲人,只有5%来自非亚洲少数人种。这产生了一个“信息不对等“的问题,降低少数人种临床基因组解释的可靠性。美国国立卫生研究院(NIH)已扩大投资致力于努力提高基因组多样性研究,为了实现基因组学公平目的,但这些研究必须严密关注那些弱势群体和赢得那些曾经被奴役的黑人群体的信任。至少,需要提高参与度、提高透明度、改革问责制、致力于创造机会、促进和支持基因组学的人们的公平,包括之前没有参与到基因组研究地区的科学家和临床医生。

其次,通过分析2018年美国疾病控制和预防中心行为风险因素监测系统,发现与非老龄化白人相比自我识别的种族或少数民族非老龄化人群相比,后者更少的可能去看医生,这是由于看病成本造成的。这一结果反映出卫生保健在美国延续不公平,导致更大社会阶层不公的核心问题。即使社会和经济因素控制,在获得遗传服务方面种族差异固存。大规模持续的研究需要更好地理解并积极解决这个多种因素造成的困扰,包括种族歧视问题,不信任,种族偏见,缺乏知识支撑的遗传测试,还有滥用基因信息的隐忧。

最后我们面临的最艰巨挑战是,我们必须努力去实现更公平的从基因组学发展到医学获益。在慢性疾病和早产儿死亡,许多种族和少数民族与白种人相比,发病率和死亡率不同。性别,性取向,年龄,残疾状况,社会经济地位和地理位置,也存在差异。人类健康状况是深受社会、经济和环境因素影响的。因此,尽管我们提供了更多公平的机会获得基因组服务,确保更公平在基因组研究参与是必要的第一步,但是这还远远不够。基因组学真正的公平,它必须运行在一个卫生保健系统健全和公正的社会!

02

Stacey Gabriel进行种群规模的测序

20年前,我完成了博士学位,克隆了一个RET基因——有几百个患巨结肠疾病的患者携带这个基因的致病性变异。这项工作需要根据基因序列设计引物,进行测序,测到RET基因组的20个外显子,当时用到的是一代测序。对整个人类基因组进行测序是在我们那个时代被称之为最疯狂的梦想!

由于技术的重大进展和遗传学家,工程师,流行病学家和临床医生等的辛勤工作,基因组测序已经取得了很大进展;世界各地大规模的基因组测序正在如火如荼的进行。为寻找致病基因,全外显子组测序(WES)或全基因组测序(WGS)技术,正在帮助不少家庭和个人鉴定致病基因、对成千上万种孟德尔遗传疾病和一些复杂的疾病的诱发突变进行鉴定。

但真正的基因组测序的承诺是实现真正大样本大规模测序,最终实现数以百万计的个人基因组测序规模,最后提供了一个查找致病基因变异的目录。基因组序列应该成为电子医疗记录的一部分,它将会是一个稳定、持久的信息来源,类似于个人测量体重、血压等,类似报告吸烟或饮酒史,类似报告家族病史等。

我们能学到什么呢?需要解决什么问题呢?有时相当小数量的基因组富集在可检索的目录里,这样启用了一种新的方式来利用和解释基因组数据,照此可瞥见未来。gnomAD10计划就是一个很好的例子——这个数据库包含来自15000例个人基因组和1250000个外显子组。依赖这个基因资源,发现种群内的遗传变异的频率是现成的。临床医生解释病人的基因组后可以问患者家庭是否已经存在过一个突变体。这项数据为评估遗传变异的功能提供一个起点,并且提出遗传变异缺失问题的能力也存在限制。再加上临床数据,建立大规模基因组数据,临床信息的数据库,将应用于更好评估多基因风险。更多的常规WGS将缩短诊断奥德赛疾病时间,患者父母会通过多轮基因测试确定未来的生育计划。更有效的临床试验可能利用到基因组信息。在卫生系统中如果有所有个人的基因组信息,临床试验可以更好的设计,更好的选择患者。这种基因组资源富集可以提供更有前途、更短时间、更小规模、代价更小的临床试验方案。

这些数据库也必须迅速建立在这样一种方式,代表的人数,代表实际的种族和民族多样性,不仅可作为储存样本数据集。比如一项欧洲人基因组数据,妨碍了程序风险预测工具对非白人种族个人风险预测,限制了发现人口特定的遗传关联分析,比如II型糖尿病(T2DM)病这个例子。

另外,我们必须解决重要的问题——数据共享,数据隐私和数据规模。共享基因数据和临床数据的关键是推动我们发现和理解如何使用这些数据做健康护理。建立信任,必须通过坚持建立和维护隐私的权利,保护隐私,禁止歧视。有一些通过建立数据平台和数据保护和共享的发展框架的项目正在取得进展,例如通过全球联盟基因组学和卫生的工作(GA4GH)。

几家大型生物银行已经建立数据银行并努力推向市场。英国生物库是一个先锋计划,包含基于500000个个人的基因型数据,健康问卷,身体测量并且可以链接到他们的医疗记录,其他类似工作也正在进行。

从2008年到2013年,测序成本成指数形式下降。测序成本变化曲线由美国国家人类基因组研究公开报道提供。2016年左右每M基因测序数据的成本一直保持平稳,徘徊在每M数据售价0.01美元,这意味着一个基因组价值1000美元。

全基因组测序可以定价在500美元到700美元的范围。然而大型项目(超过500000个样本)测序的成本价格却不是这样,大型项目却通常依赖于制药巨头或生物技术资金,从而限制数据共享。我相信,5倍到7倍地降低总成本是需要解锁更多的人口规模测序。最终基因组测序可以更广泛的应用于卫生保健系统。每个人基因组100美元,在美国代表成本不到1%的年度人均卫生保健支出。一个基因组序列就像一次投资,可以一次又一次地应用在个人整个寿命期。

我认为三个主要驱动因素将促使得到我们每个基因组的100美元成本,即创新、规模和竞争。

1. 创新:生成序列数据需要有多个技术领域成熟的创新。样品制备可以通过更有效的提取方法,减少所需的劳动力,或降低建库成本。减少数据处理成本的创新也需要逐步成熟。最近我们发现,优化计算能力可以降低创建一个测序文件的时间和成本的50% 。降低成本的样品制备和数据处理非常重要,它们代表的总成本的一小部分。大约70%的人类基因组的测序成本是测序试剂和仪器。

2. 规模:一个基因组测序的成本是固定成本,由测序中心或测序供应商承担。大规模测序可以变得更有效率、降低成本等,成本包括成本的人员、设备和设施。试剂的规模也会导致成本降低,虽然这个过程是根据严格控制和谨慎地接近整体市场动态。

3. 竞争:创新和规模只能做以上的事情。生成数据的成本(成本/ GB)占主导地位,因此必须大幅降低。当前市场需要利用其他方式来推动这一进步。目前,市场上短读长测序是缺乏可行性的,阻止了竞争,迫使流式细胞密度和机器产量增加,对降低成本产生很大压力。虽然长读长测序存在和发挥作用在特定应用程序中,如从头测序和结构变异,目前他们远离竞争和市场成本。因此,不适用于降低常规WGS的成本。

我们需要创新,并促进市场竞争。不自满于时下的测序技术。这可能包括特定类型的投资不仅仅是金融方面的,采用和审查新技术需要时间、创造力、信任和耐心。在5年的时间,我希望我们可以见证100美元基因组的时代,真正的大人口规模的数据库启动发现人类新的等位基因,丰富我们人类的知识;重要的是,基因组数据在卫生保健体系的常规使用!

03

Sarah Tishkoff以全球化的视看待人类进化学

过去10年见证了SNP芯片呈指数增长地利用,高覆盖率的全基因组测序(WGS)数据获益于基因测序技术的创新。现在可以生成成千上万人的WGS数据(例如GenomeAsia 100K和NIH TOPMed两个项目)。个人电子健康记录逐步增加利用生物银行数据(例如,the UK Biobank, the Million Veteran Project 和 BioBank Japan),正在促进人们进行复杂疾病的全基因组关联分析以及全表型组关联分析,绘制与表型的多效性关联的基因图谱。在这些遗传关联研究和其他研究中都应用了计算预测疾病的表型和风险的PRSs计算方法。

到2019年,近80%的个人基因组关联研究分析(GWAS)来自欧洲人,约10%来自东亚人,大约2%是非洲人,约1.5%是西班牙人,只有不到1%来自其它人种。在欧洲,也有一些存在极大偏差的基因组参考数据库,如gnomAD GTEx数据库。这些偏差限制了我们对不同种族人群遗传疾病风险因素的认识,并可能加剧健康不平衡。此外,使用欧洲人的数据估计的PRSs并不能准确预测非欧洲人的表型和疾病风险,尤其是在对非洲人群进行预测时表现最差。PRSs在不同种族中应用缺陷可能是由于基因的连锁不平衡的模式和单倍型结构(导致不同SNPs变异),等位基因频率差异,基因加基因效应,环境因素影响。遗传结构的复杂性可能在不同民族的疾病患者中也存在不同,这是由于不同的人种社会历史和其适应不同的环境。

尽管有一些倡议增加种族多元化的包容性人类基因组学研究(例如,NIH TOPMed和H3Africa 联盟),原住民仍然未被覆盖。更多的注意力应该确保少数民族和原住民基因组研究以尊重伦理道德的方式进行。这包括与原住民当地研究科学家建立合作伙伴关系,尊重民族风俗和文化问题,获得原住民社区和原住民个人的同意,并将成果回馈给原住民社区。此外,应该在有条件的原住民地区开展基因组研究研究教育和培训。

未来我们因该关注于利用开发工具和资源在低收入和中等收入人群的国家进行基因组数据测序并进行分析。我们要确保所有的人受益于基因组学革命,精准医疗的进步,以及基因编辑技术。因此,未来十年的挑战几个最大的挑战将是:

(1)增加人类基因组学研究中种族多元化的包容性;

(2)开发更多样化方法进行长序列读取技术来获取不同的参考基因组,单倍型,解释大量的可能存在于种群内部和群体间的结构变异;

(3)培训一个更多样化的基因组群体研究的科学家群体;

(4)发展更好的方法,准确预测跨种族表型和遗传风险,考量环境效应。

多元种族的融合,包括原住民,对重建人类进化史,理解适应不同环境和饮食的遗传基础至关重要。虽然过去有一些成功识别基因对适应当地环境起作用的效应的例子(例如,乳糖耐受性和镰刀与疟疾相关的细胞病(SCD)抵抗),鉴定多基因选择变得更为重要。

基因组的特征——多基因适应是以检测数以百计或成千上万的小基因座上等位基因频率的细微变化对复杂性状表型的影响能力为基础的,并且确定变异是人为人口统计学或自然选择的结果。一个更艰巨的挑战来自之前所描述PRSs问题,与变异相关的复杂的特征可能不能很好地跨越种族群体吗,不同的种群中遗传结构可能有所不同。此外,最近已经被证明未修正的人口分层会导致多基因的错误信号。例如,几项研究识别出多基因的特征适应整个欧洲人的身高(在北欧增加人身高的选择和减少了南欧人身高)。然而,最近研究显示这些结果是受人口结构的影响而且不能用标准方法纠正,特别是下面针对全基因组显著性水平SNP的方法。当这种分析重复了变异在欧洲人的祖先UK生物银行,这些重要的多基因适应影响将被擦除。因此,检测多基因适应特征的方法受人口结构影响是略微偏差的,并且受人口结构影响偏差将会愈加名下。这些研究纳入更多民族的人口在GWAS和更好的识别SNP标志也会受益。仍然存在的一个挑战是针对少数群体的GWAS研究中,其样本量较少。尤其是在些来自非洲人的GWAS研究,可以明显看到遗传多样性和极端表型差异。例如,在不到1600名非洲人中皮肤色素沉着的分布研究可以帮助鉴定影响肤色的的遗传新变异位点MFSD12。因此,基因组研究在未来必须优先考虑纳入少数民族群体!

GWAS和选择扫描存在一个挑战:那些确定的基因变异直接影响可变的表型。大多数变异发生在基因组的非编码区。开发高通量方法,比如大规模平行荧光素酶表达鉴定基因调控区域和高通量CRISPR筛选在体外和体内识别我们感兴趣的基因变异,未来将是非常有用的。并且还需要更好地在单细胞水平了解不同细胞类型特异性变异和基因调控,包括免疫系统刺激反应,药理学和营养学挑战。然而,这些方法仍然受制于获得有效细胞系。这对居住在偏远地区的原住民居特别具有挑战!改善诱导多功能干细胞(iPS细胞)分化成各种细胞类型和类器官将极大地促进功能基因组研究。非人灵长类iPS细胞和类器官的建立将为比较基因组学研究提供信息以确定人类特有的进化特征,比如大脑发育和认知。然而,iPS细胞可能并不准确反映了突变对发育表型的影响,因此需要我们在模式生物体内建立更有效率的技术。

目前可利用的研究人类进化的最大的革命性技术是测序和获取古老的目标基因型DNA样本。获得古代人的高覆盖率参考基因组的,像尼安德特人这样的原始人,欧亚大陆的丹尼索瓦人,可以确定这些古代人基因组中是否插入非非洲人基因片段。其中一些地区的研究比如对高海拔适应和免疫反应起到重要的作用。此外,已经在过去的3万年里古代欧洲人的遗传变异方面产生爆炸性的研究,演示一个更加复杂的欧洲的人种分化模型,以及最近的人类进化适应特性研究,相比以前考古研究或来自现代人的研究。因此最大的挑战是人类没有办法从热带气候的地区获取高质量的古DNA,比如从非洲和亚洲。虽然有项研究成功分析了15,000年前在非洲人古老的DNA样本,这一直为人类的迁徙以及人种杂交提供信息;难以获得更古老的非洲人参考基因组使得研究非洲人基因渗入非常难,即使目前所依赖的是统计建模方法。因此,未来10年基因组学面临最大的挑战将是是获得世界各地区有2万多年的历史的DNA样本基因组序列,使我们可以更好地理解世界各地的人口历史的复杂网络!

04

Ambroise Wonkam未来的前沿——非洲人基因组学研究 

为了充分发挥全球遗传医学的潜力,对非洲人基因组变异的研究是一项必要的科学工作,需要公平的获取途径,成为一个需要解决的重大挑战。研究非洲人基因组变异代表了医学遗传学的下一个前沿,主要有三个原因:祖先、生态、公平。

在此基础上生成一个“泛基因组”,从910个非洲人后裔基因组研究,发现至少有3亿个DNA变异(10%)是未在当前人类引用中找到,2-19%的非洲人的祖先基因组来源于研究古代人尼安德特人和现代人。尼安德特人的基因组约占当今欧洲人的基因组的2%,可以在其中富集相关基因的变异,例如皮肤病学的表型,神经精神疾病和免疫功能。一旦测序低质量DNA的技术瓶颈被突破,研究非洲古人类的基因组方法取得进展,这将对解码非洲人DNA变异和现代人特征和疾病做出重大的贡献。

由于现代非洲人30万到50万年的人类基因组历史,非洲人祖先是是世界上基因多样性资源最丰富的物种。相比之下,有一个极大的基因瓶颈存在,在非非洲人后裔种将导致更少的变异,自从约7万年以前人类走出非洲。当前PRSs的目标是预测基因遗传变异的个体患病风险,考虑到它的应用性和可转移性,表现出一定的偏差,因为大多数PRSs不考虑复等位基因或由于限制性或由于在非洲人中出现的频率很高。一个GWAS的基因易感性研究项目发现了一个非洲特有的以前从未报道的II型糖尿病T2DM重要位点,从而显示32个曾建立的位点的可转移性。此外,比如PCSK9基因无义突变在非洲人群常见,但是在欧洲人群则是罕见的,伴随40%含量的下降在血浆中低密度蛋白,这个结果支持PCSK9基因作为治疗血脂异常的靶点。在一项样本量最大、达到14345名非洲人的GWAS研究,展开了对34个复杂形状的荟萃分析,有几个位点展示了在人群中的有限的可转移性,进一步说明了与其它种族不像非洲人含有最多的基因组的变异。因此,非洲人的连锁不平衡较低,这使得克隆和鉴定致病基因变得相对容易。事实上,在大型GWAS中,只有2.4%的参与者是非洲人,他们占所有GWAS的7%。此外,对近1000例科萨血统非洲人精神分裂症患者进行了全外显子组测序,在多个基因种发现了非常罕见危害性突变,这一研究结果在一项针对5000例瑞典人的研究种得以重复。相比之下,科萨血统非洲人的研究结果产生了更大的影响,这显示了相同的数目病例和对照中,更大的基因非洲种群的变异更能表明检测基因型与表现型之间的关系。因此,基于基因分型和分析工具优化的利用,数以百万计的非洲人群基因组必须测序。

实现非洲基人因组的可利用,会提高我们对所有人口基因组变异和复杂的特质关联性的理解,包括对常见单基因疾病的研究。比如,一个大约有5000到7000年前起源的非洲人的SCD(镰状细胞疾病),不仅暗示了历史较近的人口迁移和非洲人和地中海人,和中东地区人种杂交事件;帮助我们理解基因变异和它对血红蛋白疾病的潜在影响。比如,类HBB基因家族的变异与胎儿血红蛋白含量高,这与较轻的镰状细胞疾病有关,因为胎儿血红蛋白水平受基因表达控制,未来这种疾病从检测到治疗可能都将依赖基因编辑技术。此外,增加我们对个体遗传变异的了解,可以对SCD的二级预防和治疗策略产生影响。比如,APOL1和HMOX1的共突变遗传导致的α型地中海贫血症与肾脏功能障碍,SCD病人中风与靶向基因关系则是贝叶斯模型;总体SCD死亡率是与患者的循环系统转录组水平相关。据估计,每年全球新出生的305,800名SCD患儿,大约75%来自非洲;如此非洲的SCD将成为理解多数常见单基因变异影响的一种模式,并有助于实施多层基因组医学。

探索非洲基因组多样性,会使我们发现更多新突变,和罕见单基因变异。的确,与其它种族比较,非洲人基因组内的等位基因和基因座异质性表现出重要的差异,例如GJB2基因的突变导致近50%先天性听力障碍疾病。在非洲欧亚混血儿几乎不存在,但有证据表明与听力损伤相关的新基因变异更有可能是先在非洲人比欧洲人或亚洲人种被发现。较高的生育率、血缘关系和区域遗传瓶颈将改善非洲人单基因疾病的变异发现,以及疾病和基因关系对的管理,将解决现有数据库偏差、推断的变异危害性,导致变异的错误分类这些问题。

05

Aravinda Chakravarti解码多因子表型

我们生活在基因组学技术和数据计算技术取得巨大进步的时代。我们生活在这样一个“遗传学”成为家喻户晓的词汇的时代,人们越来越善于理解它与个体生命之间的关系。毫不奇怪,遗传学研究方法正在被重新发明,重新发现,和重塑。我们比以前更能理解遗传学这门科学。

眼前,我们面对的遗传学最重要的难题是对“家庭成员相像”的复杂表型剖析,包括对于智力(遗传学存在的理由)和技术(疾病诊断和治疗)的原因两个方面。我们早就认识到家族内人们长相相似性来自于共有的等位基因,以及遗传关系的减弱,但是我们对这其中精确的分子组成和构成这种“相似”现象的原因知之甚少。在二十世纪之交,这是一个痛苦而尖刻的问题!孟德尔学派与生物统计学家展开了激烈的争论,直到1918年Ronald Fisher进行了统计分析,由于第一次世界大战,Ronald Fisher的书推迟了出版,这个观点被后来的科学家Altenburg和Muller用果蝇实验证实了。

Fisher的模型假设是无穷多的基因共同导致一个性状,具有共同遗传变异的性状在由两个等位基因组成的每个位点上,这两个等位基因在基因效应上只有微小的差异,Fisher的基因假设是与当时所知道的情况正好相反。在过去的一个世纪里,这种观点日渐成熟,人类表型的隔离分析告诉我们,除了一些主要基因对性状的影响,大部分性状变异是多基因造成的,还包括家庭特有和随机环境因素。今天,我们来自GWAS的证据,使用了来自成千上万的人测序数据关联许多性状和疾病,发现多数的多因子决定性状架构主要是等位基因上的小小差异造成的。这种泛孟德尔观点与泛多基因观点的替换是基因组学对遗传学最重要的一个的贡献。不幸的是,这种mapping没有成功弄清楚涉及的基因数量,没有弄清楚这些基因的“身份”,没有弄清楚基因型如何决定表现型。事实上,一些人已经得出结论,许多GWAS分析得到的基因座与每个表现型的生物学核心无关。因此,为了更深刻的理解,我们需要研发新的技术和方法去理解生物体的复杂性状而不仅仅是盲目增加GWAS的生物学样本。

然而,从GWAS中出现,呈现在我们面前的最重要的生物学问题是导致性状的变异不是位于基因编码区,而是位于调控元件中,多数由增强子造成。这一重要发现揭示了四个新的遗传学问题。第一,非编码调控机制是广泛存在的,这种非编码调控的程度是多少?又是如何影响表型的?第二,非编码调控影响许多基因的mRNA表达和蛋白表达,那么细胞时如何阅读这海量的变化并作为一种细胞内信号?第三,这种机制如何协调将应答反应翻译到细胞内进而影响生物体表型?第四,如果特定的环境因素影响生物体表型,那么异常调节的成份是什么?在我看来,我们需要回答这些问题的具体性状和真正了解多基因性疾病的生物学本质。最后,这些解释也必须回答为什么有的性状决定是符合是孟德尔遗传规律的,而其他不是。

未来需要我们重视四个领域:生物学里面的增强子和与之结合的转录因子,增强子上的遗传变异影响,调控大多数基因的基因调控网络,基因调控网络是如何引起胞内应答的?尽管有许多进步,调控特定基因的表达的增强子的数目仍然是未知的。有多少增强子在特定细胞类型表达,有多少是普遍存在?有多少是细胞固有的,多少是在特定细胞周期表达?它们对于调控基因表达是协同作用还是叠加作用?此外,同源转录因子是如何结合这些增强子,这种动态是如何调节的?这些细节包括基因的增强子对于评估性状的影响是非常重要的。增强子的序列变化是如何影响基因的活动?这些变异是否只影响增强子结合转录因子还是也影响转录因子与启动子的相互作用?增强子变异的作用是什么?在所有的细胞状态中都很明显还是只有一部分?只有一个增强器的变异就足够调控基因表达呢?或者多重更改多个元素是必要的吗?

其他关键问题包括那些基因与核心通路相关的性状,以及我们如何鉴定这些基因?研究表明基因是如何在基因调控网络中被调控的,由于GRN,一个基因的产物可能是下游基因必须的,比如基因间的反馈和负反馈调节。这些GRN由来自基因组,转录组和蛋白质组。就像我们在先天性巨结肠的研究一样,每个GRN由核心基因组成,是一个具备逻辑思维限制速率的细胞阶段,富集在基因的编码和增强子的疾病变异与疾病易感性随之而增加变异的数量,由于限制其速率的影响而产生的疾病。也就是GRN整合多基因的表达。最后,我们需要了解GRN是如何调节细胞属性和行为。我推测GRN中的速率限制步骤很重要,是广义细胞特性的监管者,细胞分化,细胞迁移,细胞增殖,细胞凋亡,细胞内GRN变异整合者。因此,基因组范围内的遗传变异影响增强子对许多基因的失调,但只有在它们不正常的时候GRN通过限速步骤来实现影响细胞和组织的生物学。这提供了人类的多基因疾病致病机制的理解。

人们理解生物学复杂性,需要改变研究方法,从反向遗传学转向正向遗传学,从全基因组学转向单细胞基因组学。我相信我们可以构建不同细胞类型的GRN,包括增强子、转录因子、以及它们之间的反馈和负反馈调节,最后定义变异对生物学功能的影响,进而影响表型。纵使这样,依然不够!我们要利用系统生物学的方法去测试复杂性状,生物学方法有向化学方法前进的迹象。作为遗传学家,我们合格吗?

06

Eileen Furlong增强子和胚胎发育

我的课题组工作处于基因组调控和动物的发育两个领域的交界处,过去的10年这两个领域都取得了许多令人兴奋的进展。发育生物学研究基本过程,比如组织和器官的发育,比如复杂性是如何通过细胞间通讯、细胞运动、和动力学联合行动出现的。在发现分化的细胞可以被重编程而变成类似胚胎干细胞的初始状态后,过去的10年见证了在体外细胞重编程和分化的爆发式研究,类器官研究是令人兴奋的延申。这些相当简单的系统可以做到自我组织和生成复杂性这一点是过去的5-10年一个意想不到的惊喜!围绕干细胞的研究,重新引起了人们对细胞在体内的可塑性的兴趣,也已经揭示了令人意想不到的细胞转分化和去分化程度。例如,在小鼠心脏中,在出生后的第一周内受损后,心肌细胞会去分化并增殖以再生心脏组织。我们对伴随细胞分化带来的分子变化的理解产生了巨大的进步,归因于二代测序技术在分辨率和灵敏度的跨越式改变。这导致了对胚胎干细胞,iPS细胞和胚胎的大量研究,基于基因组调节揭示新概念,通过测量转录本多样性,转录因子调控,染色质可及性和构象,染色质、DNA和RNA的修饰。未来的挑战将是将这些信息与细胞的物理特性联系起来,以及它们如何形成复杂的组织。解决胚胎研究工作中面临的挑战,新技术将会有所帮助,包括CRISPR基因编辑技术,光遗传蛋白质学,体内显微成像技术,再加上低投入,足以克服缺乏样本的难题。最近尤其令我兴奋的是单细胞测序技术的发展,虽然其处于早期阶段,但是这项技术为我们研究胚胎发育提供了新的方法和技术。许多新的见解已经出现,包括未知细胞类型的发现和已知细胞类