Karen Miga 加州大学圣克鲁兹分校

端粒到端粒组装完整的人类X染色体

以遗传学和基因组学进入了一个要求完整的、高质量基因组组装的“新纪元”作为演讲的开场,Karen介绍了一个超越人类参考基因组GRCh38连续性的全基因组从头组装,以及首个完整的、端粒到端粒的人类X染色体组装。

 首个人类基因组的组装是一项标志性的成就,在经历了近20年的不断提升后,现有的人类参考基因组(GRCh38)是当前最准确和完整的脊椎动物基因组。然而它并不是完整的,仍有368个未解的问题和102个缺口,并且尚且没有一个染色体是从头至尾完成的。例如,第21号染色体有大约30Mb的组装序列,却有约20Mb的缺失序列,这些尚未能够被探索的区域有可能与疾病相关联。这些“问题区域”包含了分段重复、基因家族、卫星阵列、着丝粒和rDNA,以及人群中未被鉴定的序列变异。

Karen的目标是完成这些剩余区域,生成第一个真正完整的人类基因组。

 生成完整组装最大的挑战,是跨越着丝粒上那些可以长达几百Kb、甚至是Mb的重复区域。那么高覆盖度、超长读长序列能不能用来解析这些区域,来完整人类基因组的组装呢?Karen表示,她所在的端粒到端粒联盟小组(Telomere-to-Telomere,T2T)成立的动力,是推进最高质量的基因组学的标准。

从2018年5月到2019年1月,Karen和她的同事利用长读长纳米孔技术,共使用94张MinION/GridION 测序芯片来测序CHM13细胞系。获得50x深度的基因组覆盖度,比对定位后的最长读长为1.04Mb。结合其它测序平台的长读长数据,这些超长的纳米孔读长被用于建立contig并进行处理(polish)和结构验证,使用比对软件Canu进行测序组装,最终获得的组装大小为2.94Gb, contig N50为75Mb。超越了contig NG50为56 Mb的人类参考基因组GRCh38完整性和连续性。

Open a chat to talk to our sales team