リファレンス品質の細菌ゲノムアセンブリを得るには多くの場合、純培養またはメタゲノムサンプルのシークエンス により得られたデータを使用します。これまではこの用途にショートリードシークエンス技術が選択されてきま したが、ライブラリのインサートサイズよりも長い反復配列を検出できないという制限があります。そのため、 そのようなサンプル由来のゲノムをアセンブリする目的で、Oxford Nanopore 社のプラットフォームなどのロング リードを作成できる技術が「最近になって選択肢として登場」しました 1 。
デンマークのオールボー大学を拠点とする Albertson 教授らは、 ナノポアシークエンスデータのみを用いてリファレンス品質の細菌 ゲノムアセンブリが得られるかどうかを調査しました1 。調査の結果、 以前はほぼ完全な細菌ゲノムアセンブリを得るのにショートリード またはナノポアデータのリファレンスポリッシングが選択される傾向 にありましたが、コストと複雑さが増すため望ましい選択肢では ないことが確認されています 1 。
同チームは、「純培養」(この場合はモックコミュニティー)と活性 汚泥サンプル由来のシークエンスデータを取得し、細菌ゲノムアセ ンブリでナノポアケミストリ R9 および最新の R10 の性能を評価し ました。
また、ショートリードポリッシングを用いてもコンセンサス配列が 大きく改善することはないと考えられる場合に、ナノポアのロング リードのみを用いてアセンブリした高品質ゲノムの作成を指すために、 「ほぼ完成した」ゲノムという用語を導入しています。同研究者らは、
図 1 新規細菌分離株アセンブリで 100 kb 当たりに観察された INDEL(さまざまなカバレッジ、ショートリードポリッシングを実施した場合と実施しない 場合)。報告者らは、ケミストリとして R10.4 を用いて取得したナノポアデータのショートリードポリッシングを実施しても、アセンブリ品質が著しく 改善することはなかったと述べています。画像の出典:Sereika et al. 1 。Creative Commons ライセンス(creativecommons.org/licenses/by/4.0) の下で公開。
ポリッシングを実施することなく、R10.4 データのみからほぼ完成 した細菌ゲノムを作成できることを確認しました(図 1)。これを達成 するのに必要としたカバレッジは約 40 倍でした。同チームはメタ ゲノムアセンブリを対象に性能を評価するため、活性汚泥サンプル をシークエンスしたところ、ケミストリとして R10.4 を用いることに より、ショートリードポリッシングを実施することなくほぼ完成した 微生物ゲノムを作成できるというほぼ同じ結論に達しています 1 。
Mycobacterium tuberculosis は結核の病原菌です。結核は今なお 致死率の高い感染症であり、2020 年には 150 万人が結核により 死亡しています 2。結核を効果的にコントロールする上で、薬剤耐性 M. tuberculosis が特に重大な脅威となっています2,3。
以前であれば、耐性の遺伝的基盤や結核感染を担うゲノム学的側面 の調査にはショートリードシークエンス技術が使用されていました。 しかし、M. tuberculosis のゲノムは GC 含量が多く反復性が高い ためにショートリードでは検出が困難です。例えば、変動が大きい GC リッチなpe/ppe 遺伝子は薬剤耐性と関連がありますが、 ショートリードを用いた場合にはゲノムに正確にマッピングするのが 困難であるため、多くの場合に解析の対象外となります。さらに、 このようなシークエンスプラットフォームには多くの資本コストと 集約化を必要とするため、結核の負荷が大きく所得の少ない多くの 地域では、全ゲノム解析の実施が難しい状況がありました 3。
それに対して、Oxford Nanopore 社のプラットフォームでは、あら ゆる長さのシークエンスリードを作成でき、in situ シークエンスに 適したポータブル型のものなど幅広い規模の機器を用意しています。 そのため、Oxford Nanopore 社の技術は結核ゲノム解析への 「応用に有望なプラットフォーム」であると認識されています 3。
"Oxford Nanopore 社の R10.4 を 用いれば、ショートリードポリッシング を実施することなく、40 倍の カバレッジで純培養またはメタゲノム 由来のほぼ完成した微生物ゲノムを 作成することができる1"
この現状を踏まえ、Gómez-González らがナノポア技術とショート リード技術により 10 株のクリニカルリサーチ用M. tuberculosis 分離株をシークエンスしたところ、マッピング後のカバレッジが ショートリードは 93.6 倍、ナノポアは 72.2 倍となりました3 。同チームは、ショートリードにより正確にアライメントすることができなかった 反復配列では、ナノポアのロングリードのカバレッジに改善が得ら れたことを明らかにしています。予測通り、ナノポアのロングリードで より多く大型変異体が検出されました(分離株全体で中央値 81 vs. 24)。また、すべてのサンプルペアで、一塩基多型(SNP)の 99% を両サンプルでコールでき、プラットフォーム間の差異はほとんど ありませんでした。リネージに関する予測結果はいずれも両プラット フォームで同じものになりましたが、ナノポアデータに絞って見て みると、ナノポアのロングリードではpe/ppe 遺伝子領域の検出に 成功したため、この領域の SNP を組み込んでリネージ解析を実施 することができました。こうして解析精度が向上したことは、「アウト ブレイク発生状況では特に有意義で、類縁性の高い分離株の感染 伝播解析を充実させられる可能性がある」と考えられます。また、 ロングリードにより反復配列をカバーできることから、M. tuberculosis の薬剤耐性機序について理解を深められる可能性が 示唆されました 3 。
To obtain reference-quality bacterial genome assemblies, data is often used from the sequencing of either pure cultures or metagenomic samples. Short-read sequencing has been the technology of choice for this application in previous years but has limited ability to resolve repetitive sequences that are longer than the library insert size. Consequently, technology capable of producing long sequencing reads, including the Oxford Nanopore platform, has 'recently emerged as the choice' for assembling genomes derived from such samples1.
Professor Albertson and colleagues, based at Aalborg University in Denmark, investigated whether nanopore sequencing data alone could be used to obtain reference-quality bacterial genome assemblies1. Their work noted that, in the past, there has been a preference to use either short-read or reference polishing of nanopore data to obtain near-complete microbial genome assemblies, yet this is an undesirable option as it adds cost and complexity1.
The team evaluated the performance of R9 and the more recent R10 nanopore chemistry in bacterial genome assembly, obtaining sequence data derived from 'pure cultures' (in this case, a mock community) and an activated sludge sample.
Figure 1. Indels observed per 100 kb in the de novo bacterial isolate assemblies, at different depths of coverage, with and without short-read polishing. The authors noted that short-read polishing of nanopore data obtained using R10.4 chemistry provided no significant improvement in assembly quality. Image adapted from Sereika et al.1 and available under Creative Commons license (creativecommons.org/licenses/by/4.0).
They introduced the term 'near-finished' genome to indicate the generation of a high-quality genome assembled with only long nanopore reads, for which the application of short-read polishing would not significantly improve the consensus sequence. They found that R10.4 data alone could generate near-finished bacterial genomes, without polishing (Figure 1). The depth of coverage required to achieve this was approximately 40-fold. To assess performance on metagenomic genome assembly, the team sequenced a sample of activated sludge; a similar conclusion was made — that R10.4 chemistry enabled the generation of near-finished microbial genomes, without short-read polishing1.
A notoriously challenging bacterial genome to sequence and assemble is that of Mycobacterium tuberculosis. M. tuberculosis is the pathogen responsible for tuberculosis (TB), which remains one of the deadliest infectious diseases, with 1.5 million human deaths attributed to TB in 20202. Drug-resistant M. tuberculosis is a particularly significant threat for effective TB control1,3. Genome sequencing of the pathogen has gained traction in recent years for both clinical research and epidemiological investigations. Such efforts have provided valuable insights into circulating strains, including mutations underlying drug resistance and virulence, and the dynamics of person-to-person transmission — conferring high-resolution analyses when compared with culture-based phenotyping or targeted sequencing assays2.
Previously, short-read sequencing technology was typically used to investigate the genetic basis of resistance and the genomics underpinning TB transmission. However, the genome of M. tuberculosis is challenging to resolve with short reads due to its high GC content and repetitive nature — including the highly variable and GC-rich pe/ppe genes associated with drug resistance, which are often excluded from analysis due to difficulties in accurately mapping these regions to the genome when using short reads. Furthermore, the high capital cost and centralisation associated with these sequencing platforms has limited access to whole-genome analysis in many areas with a high TB burden and lower income3,4.
In contrast, the Oxford Nanopore platform can produce sequencing reads of any length, and a scalable range of devices is available, including portable options suitable for in situ sequencing; the technology has therefore been recognised as a 'promising platform for cost-effective application' to TB genome analysis3. However, few studies have investigated the performance of nanopore sequencing for M. tuberculosis genome analysis for drug susceptibility prediction or outbreak investigation.
In light of this, Gómez-González et al. and Hall et al. compared the performance of Oxford Nanopore and short-read sequencing platforms for these applications3,4. Gómez-González et al. sequenced 10 M. tuberculosis clinical research isolates with both nanopore and short-read technology, obtaining 93.6-fold short-read and 72.2-fold nanopore depth of coverage, after mapping. The team highlighted the improved coverage of long nanopore reads in repetitive regions where short reads failed to accurately align. As expected, a higher number of large variants were detected with long nanopore reads, (median 81 versus 24, across the isolates); regarding single nucleotide polymorphisms (SNPs), for all sample pairs, >99% of SNPs identified were called in both samples, with few platform discrepancies. All lineage predictions were identical between the two platforms (Figure 2); however, looking specifically at the nanopore data, as the pe/ppe gene regions were successfully resolved with long nanopore reads, SNPs could also be incorporated from these regions for lineage analysis, which led to an improved resolution that 'would be of special interest in outbreak settings, where transmission analysis of closely related isolates can be potentially better established'. They also suggested that the ability to cover repetitive regions with long reads could contribute a better understanding of drug-resistance mechanisms in M. tuberculosis3.
Hall et al. aimed to establish whether nanopore sequence data could be used to reproduce equivalent transmission clusters and drug susceptibility profiles to those generated with short-read data4. To investigate this, the team obtained matched nanopore and short-read data from 151 isolates. The study found that isolate clustering was the same between the two platforms, and in terms of genotyping resistance-associated SNPs and INDELs, they obtained near-identical results, with a concordance of >99.99% between the two technologies4.
Figure 2. Phylogenetic trees representing the branching order for the M. tuberculosis clinical research isolates studied, showing equal branch lengths for the 10 pairs of sequenced isolates. Image adapted from Gómez-González et al.3 and available under Creative Commons license (creativecommons.org/licenses/by/4.0).
参考文献
Sereika, M. et al. Nat. Methods. 19, 823–826 (2022).
WHO. Tuberculosis. Available at: https://www.who.int/news-room/fact-sheets/detail/tuberculosis [Accessed: 23 August 2022]
Gómez-González, P.J. et al. Briefings in Bioinformatics. bbac256, https://doi.org/10.1093/bib/bbac256 (2022)