目次
Sequencing depth (read depth) シーケンス深度(リード深度)
シーケンス深度(リード深度ともいう)とは、ある実験においてゲノム中のあるヌクレオチドが読み取られた回数のことをいう。ほとんどのNGS(次世代シークエンサー)プロトコルでは、ゲノム(全ゲノムまたはターゲットパネル)は、数百塩基対の短い部分に分割される。これらは個別に読み取られ、バイオインフォマティクス的にオーバーラップまたはタイル化され、意味のあるエンドデータを構成する長い連続した配列が生成される。
結果だけを一見すると、各塩基位置を1回ずつ読めばよいように見えるが、どの断片がゲノムのどの位置なのかを正確にタイリングを行うには、信頼性の高い配列を並べるために、複数のリードが重なり合っている必要がある。シーケンスサイクルごとに各レーンの離散的な部分の静止画像を撮影しており、この離散的な領域をタイルと呼ぶのであるが、タイルのオーバーラップ領域では、各ヌクレオチドが2回以上読まれる必要がある。
シーケンス深度が高いほどよい理由とは?
リードを生成するライブラリの断片化のプロセスはランダムであるため、すべての領域がオーバーラップで表現され、隣接する領域にタイル化できることを知るためには、実際に多数の断片を生成する必要がある。すると、長い連続リードを正確に再構成するには、平均リード深度をかなり高くする必要がある。しかし、テロメアやセントロメアのような長い反復配列領域は特殊なケースであり、現時点のNGSプロトコルには特別な課題である。しかし、現実として臨床的に、これらの領域の塩基配列を決定することの重要性は今のところとう大きくない。
平均読み取り深度を比較的高くするもう一つの理由は、最終的な配列の正確さを担保するためである。実際の超並列短鎖シーケンス(MPS)反応のそれぞれにおいて、個々の塩基位置でのエラーは起こり得るのと、実際に可能性の話ではなくエラーは有限の割合で発生している。例えば99.9%の正確性であっても1000塩基に一つエラーが発生するという事である。タイリング処理では、実際には、わずかなミスマッチの頻度を考慮しても、個々のリードの最良のアライメントを使用し、タイリングされたリードの最も一般的な、またはコンセンサス配列を正しい配列とみなしている。リードのカバレッジが高いほど、このコンセンサス配列の統計的な強度は高くなり、どの位置でも正しいリードの方が個々のリードのエラーより多くなる。
NGSでは、どの程度の深さのリードが必要なのでしょうか?
まずはオーソドックスに、遺伝的に均一な入力材料がある場合を考えてみよう。とはいっても、検査の目的や使用するサンプルの種類によって異なる。例えば細菌学の世界では99%くらいの正確性があればよいので、デプスは浅くてよい。ヒトゲノムの場合、平均20程度のリードデプスが適当と考えられている。ただし、これは平均的な読み取り深度であり、この深さではゲノムのある領域が十分に表現されず、ある領域はより深く読み取られるということに注意しなければならない。生成されたコンセンサス配列に関連するバイオインフォマティクスデータの一部は、各塩基位置の確実性(品質)の尺度であり、エンドユーザーが各塩基位置の統計的確実性のレベルをある程度理解できるようにするものである。
遺伝的に不均一な領域がある場合はどうなるの?
次に、正常な細胞と腫瘍細胞が混在しているような、遺伝的に不均一な検査材料(サンプル)について考える。この場合、単純化して言えば、リードには、異質な位置に2つの共通ヌクレオチドコールが含まれ、その比率は、シーケンスライブラリーの生成に使用したサンプル中の2つの細胞タイプ(正常と癌)の比率に近似していることになる。つまり、サンプルが正常細胞10%、腫瘍90%の場合、リードは約10%が非変異ヌクレオチドで、約90%が変異ヌクレオチドとなる。しかし、癌細胞由来のゲノムがすべて変異しているわけではないので話はややこしくなる。つまり、癌細胞にも正常ゲノムが多くあるのだ。
バイオインフォマティクスは、特定の遺伝子位置を感知してマークできる。ある位置での2塩基目のコールの頻度が十分に高ければ、これは単なるランダムな配列決定エラーではなく、実際の遺伝子型の混合であることが示唆されます。このプロセスでは、一塩基多型に加えて、挿入や欠失(総称してコピー数変異、CNV)を検出することを可能とする。ある領域がゲノムの残りの大部分よりも多くのリードを生成しない(欠失している)、または多くのリードを生成する(挿入されている)ことを観察する。さらに、RNAベースのスタートライブラリー(RNA-Seq)アプリケーションを使用すると、個々の転写産物にマッピングできるリードの数を計算して比較することで、基盤となる遺伝子やその異なるアイソフォームの発現差を測定することができる。
ディープシーケンスのほうがいいの?
ディープシーケンスとは、サンプル(またはサンプルの遺伝子領域)を、20程度の読み取り深さよりもはるかに深く読み取るものをさす。こうすることで、ほぼ均質な集団の中から非常に稀な変異を検出することができ、しかも、こうした低存在量の配列変異をランダムな読み取りエラーと区別ることを可能とする。Deepシーケンスは、1塩基あたり100リードを超える深さまで可能である。
総リード数が一定であれば、同じ部位でより多くのリードが得られる(深さが増す)か、部位あたりのリード数は少ないが入力物質の広い範囲に分布する(カバレッジが増す)かのいずれかである。臨床的な疑問に答えるためにNGS検査をデザインする場合、この点を理解することで、デザインおよびバイオインフォマティクスツールを調整し、これら2つの間で最も意味のあるバランスを取る必要がある。
まとめ
プラットフォーム、リード数(デプス)、ある頻度における異質性を検出するために必要な能力、最終結果から求められる統計的強度などに関する決定はすべて、有効な検査戦略の開発において重要な役割を担うものである。