表征叶绿体基因组

Chloroplasts

叶绿体通过其在光合作用中的角色将二氧化碳和水转化成碳水化合物和氧气,不仅对植物生命来说必不可少,对地球上的所有生命来说也是极其重要。叶绿体含有自己的基因组,大约包括有130个基因,并参与光合作用和其他重要的代谢过程1,2。叶绿体基因组在物种内部和物种间呈现出巨大的差异,为了解系统发育和进化适应提供了大量信息2。最近,转基因叶绿体被用来增强植物的农艺性状或用于生产高价值的农业或生物医药产品2

单个contig 就覆盖了整个叶绿体基因组, 且几乎未检测到误差1

尽管叶绿体基因组相对较小 (120-160 kb), 但它包含一对长的反向重复序列 (10-30 kb)。 当使用短读长技术时,该反向重复序列可能会混淆测序数据以及组装工作1。此外,如果基因组结构不保守(例如鹰嘴豆叶绿体基因组仅包含一个反向重复区),或者如果参考组包含错误,通过与公开的参考组进行比对来组装叶绿体基因组可能会导致结果不准确。为了应对这一挑战,一个国际研究团队比较了使用短读长和长读长测序组装稀花桉(ucalyptus pauciflora;(雪桉))叶绿体基因组的方法1

稀花桉(E.pauciflora)是一种澳大利亚土生土长的植物,由于其耐旱和耐寒性而特别受到关注。该团队研究了序列覆盖度的影响和读长长度的影响,旨在建立一种优化的叶绿体基因组组装方法。

依据Mayjonade等人3发表的快速DNA提取方法,他们提取了高分子量DNA, 并通过MinION 完成了长读长的测序。

该团队发现,对于长读长纳米孔测序来说,使用Hinge组装工具,结合Racon和 Nanopolish在500x覆盖度下的数据优化,可以实现最佳组装效果1。最佳组装使用了一种结合至少20x以上覆盖度的长短读长的混合拼接方法,提供了跨越整个叶绿体基因组的单个contig,只有极少或无可检测到的错误。使用这种组装,该团队成功确定了稀花桉的叶绿体基因组长度为159,942 bp,包含131个已知功能的基因(图 1)。

研究人员在总结了他们的成果后得出结论:他们的方法将简单且经济高效的长读长数据与短读长数据相结合,为“以极低的成本生成多个高精度叶绿体基因组组装提供了一条清晰的途径”。

case study figure 6.PNG

图: 带注释的稀花桉叶绿体基因组。内环的灰色区域显示的是叶绿体基因组中的GC含量。图片由 Wang等人提供1

本研究案例来源于植物白皮书。

下载植物白皮书

References

  1. Wang, W. et al. Assembly of chloroplast genomes with long- and short-read data: a comparison of approaches using Eucalyptus pauciflora as a test case. bioRxiv 320085 (2018).
  2. Daniell, H., Lin, C.-S., Yu, M. and Chang, W.-J. Chloroplast genomes: diversity, evolution, and applications in genetic engineering. Genome Biology. 17:134 (2016).
  3. Mayjonade, B. et al. Extraction of high-molecular-weight genomic DNA for long-read sequencing of single molecules. Biotechniques. 61(4):203-5 (2016).