美丽与野兽:组装郁金香基因组

Tulips

自16世纪引入以来,郁金香已经成为荷兰的代名词。郁金香农业具有重要的经济意义,每年出口的郁金香球茎超过20亿株。然而,据未 Future Genomics Technologies 首席技术官 Hans Jansen 博士说:“郁金香育种并非完全没有问题,从种子到成为商业产品可能需要25年的时间”1。Jansen 博士团队的目标之一是识别那些具有抗病能力的性状,以对抗日益增长的农药使用。对郁金香的全基因组测序将有助于增强性状鉴定,并通过鉴定杂交株系种子中的特异性标记显著加快育种过程,而不需要等待一年多根据传统表型选择法进行。

基因组大小约 34 Gb,是人类基因组的十倍大,内容高度重复,Jansen 博士将郁金香基因组描述为“野兽”,这难以通过现有的短读长测序技术来处理1。为了应对这一挑战,Future Genomics Technologies 的团队利用 MinION 和 PromethION 提供的长测序读长对郁金香(Tulipa gesneriana (Orange Sherpa))基因组进行了测序。他们利用 MinION 和 PromethION 总共生成了203 Gb的数据(相当于6x的基因组覆盖度)。

该团队面临的下一个挑战,是重新组装测序读长以生成完整的基因组,这是由于大多数现有的组装工具不是专门为如此大的基因组设计的。

case study figure 3.PNG

图 1: 在人类NA 12878纳米孔数据集上使用郁金香-朱莉娅得到的组装指标,显示在使用大约15x的序列覆盖度时达到最佳。图片由荷兰 Future Genomics Technologies 的 Hans Jansen 博士提供。

传统的基因组组装工具通过将每个读长与所有其他读长进行比对来工作,对于大型基因组来说,这大大增加了组装工具所需的计算量和CPU时间。为了解决这个问题, 该团队设计了“郁金香-茱莉亚”(Tulipajulia)——长读长scaffolding组装工具“郁金香”(TULIP)的继任者,其工作原理是仅使用长纳米孔读长中的一些独特和信息丰富的部分进行比对,或者如Jansen博士 所述:“将该组装挑战分成几个较小、不太复杂的组装”1

该团队在人类NA12878纳米孔数据集上测试了这种新的组装工具,发现最优的基因组组装和N50指标可以在大约15x的序列覆盖度下获得(图1),组装可以在大约1-4小时内完成(图1)1

该团队计划先通过将郁金香-朱莉娅应用于郁金香基因组,使其进一步优化,而后再将该组装工具免费提供给其他研究人员。 尽管郁金香基因组仍在组装中,但初步结果足以让 Jansen 博士相信长读长纳米孔数据对大型植物基因组测序的价值。Jansen 博士在评论 PromethION 的性能时总结道:

“PromethION 是必需的,它可以生成大量稳定的数据,使我们可以更容易地研究任何基因组”。1

case study figure 4.PNG图 2:与 Marve l和 Canu 组装工具相比,郁金香-朱莉娅需要的 CPU 小时数要少得多。图片由荷兰 Future Genomics Technologies 的 Hans Jansen 博士提供。

本研究案例来源于植物白皮书。

下载植物白皮书

References

  1. Jansen, H. The beauty and the beast. Presentation. Available at: https://nanoporetech.com/resource-centre/talk/beauty-and-beast. [Accessed: 15 June 2018]