WGSベースのNIPT③:平均ビン値

平均ビン値とは?

NNIPT(新型出生前診断)では、胎児のDNA断片を計測して染色体異常の有無を見ています。この計算するときに使うのがシークエンサー、計算自体はプラットフォーム(ソフト)で行いここを欠く検査会社が開発しています。一つ一つの断片ではなくビンを使って計測しますが、平均ビン値という概念について説明します。

それでは,次に平均ビン値をみていきましょう.

ゲノム領域をタイルする多くのビンにわたり
ビン当たりの平均読取りを計算する
というと簡単に聞こえるんですけど,

サンプルの配列決定されたcfDNA断片を与えて,
スクリーニング感度および特異度を最大化するためには,
多くのアルゴリズムの改良が必要なのです.

特別なアルゴリズムケアが必要となることを理解するために,
WGSベースのNIPTがサンプリングの問題であることを思い出してください.

各ビンのシーケンスされた読み取り値は,
単に,母体の血漿中に存在する断片のサンプリングであり,
それら自体は,胎盤および身体の他の部位の
アポトーシス細胞からのサンプルです.

まったく他の事象のサンプリング問題と同様に,
WGSベースのNIPTでも,
観察されたビンあたりの平均読み取り値が,
基礎をなす通常は観察不可能な真の値との異なり,つまり誤差が存在るのです.

計算された1ビンあたりの平均読み取り値の誤差が大きすぎる場合,
誤った倍数性コールを引き起こし,
それによってNIPTの目標を下回ることになってしまいます.

誤差は,標準誤差,a/sqrt(N)として表すことができ,
aはビン当たりの読み取りの標準偏差,
Nはビンの数です.

Nは染色体の不変な性質であり,
選択されたビンのサイズですので,
観察されたビンカウント平均の誤差を決定するのは
ビン当たりの読み取りの標準偏差(a)となります.

そこで,WGSに基づいたNIPTアルゴリズムをうまく工夫するために,
理論的な最小値
にまで下げられるように,
その偏りを大きくするバイアスの原因を取り除くことです.
この偏りは,Poisson統計によると,
σ~sqrt(bin当たりの読み取り)となります.

WGSデータには複数のバイアス源があるのですが,
WGSデータを除去する方法やWGSの影響を軽減する方法が存在します.

特定のGC(グアニンシトシン)含量の断片の配列決定の傾向における試料間の差は,
その理論的最小値を超えてαを膨らませることができます.

このいわゆるGCバイアスは,3個の水素結合をもつG:C塩基対
2個の水素結合をもつA:T塩基対の熱力学の違いによって生じます.

GCバイアスは,DNA抽出,NGSライブラリー調製,
および配列決定自体を含む,NIPTワークフローの任意のレベルで
導入することができます.

WGSデータにおけるGCバイアスの発現を理解するために,
WGSがゲノム全体にわたって一様な読み取りサンプルを得ることを
期待されることを思い出してください.

しかし,読み取りの経験的分布は厳密に一様ではなく,
GC含量と部分的に相関するのです.
高い(~80%)または低い(~20%) GC含量を有するcfDNA断片は,
よく平均GC含量(40%-60%)を有する断片と比較して予想されるよりも
少なく読み取られるのです.

こうしたGCバイアスを補正するために,
アルゴリズムはまず,所与のGC含量をもつ観察された読み取り数と
全ゲノム中のそのような断片の数との比を計算することによって,
サンプル特異的にバイアスの程度を評価して補正する必要があるのです.

そして,観察された断片を,
それらの特定のGC含量および既知のGCバイアスによって
補正してスケーリングすることが可能となります.

例えば,GC含量が20%の断片が,
50%の相対効率で配列決定されることが観察された場合,
GC含量が20%の断片から観察された各読み取り値は,
1/0.5 = 2によってスケーリングすることになります.

また,ゲノムの冗長が多すぎると,
WGSカバレッジに不均一性が生じ,
NIPTの精度が低下することになります.

重複領域では,NGSリードアラインメントソフトウェアが断片の
真のゲノム起源を推測することは不可能となります.

つまり,たとえある領域が,
たとえばAlu領域のように何千にも及んでいたとしても
アライナーはたった一つの領域に由来するものとして
どんどん配列してしまいます.

すると.このビンがちょーとんでもなく増えちゃいますよね?
そして,そのほかのビンには配列されるはずだったものが
されないわけですから,リード数が低下しますよね?

なんてこった!!
そりゃ困ります~ (-_-;) といことで.

さあ.どうする???

最初から重複領域にフラグを立て,
マッピングされた読み取りがビン合計に向かって計数するのを禁止し,
次いで,マッピング可能な塩基のそのシェアの逆数によって
領域内で観察された読み取りをスケーリングする,というやり方をします.

例えば,75%マッピング可能な60の読み取りを有するビンは,
60/0.75=80
の読み取りを有するようにスケーリングするのです.

参考文献
[1] Fan HC, Quake SR. Sensitivity of noninvasive prenatal detection of fetal aneuploidy from maternal plasma using shotgun sequencing is limited only by counting statistics. PLoS One 2010;5:e10439.
[2]Benjamini Y, Speed TP. Summarizing and correcting the GC content bias in high-throughput sequencing.
Nucleic Acids Res 2012;40:e72.
[3]Johansson LF, de Boer EN, de Weerd HA, van Dijk F, Elferink MG, Schuring-Blom GH, et al. Novel algorithms for improved sensitivity in non-invasive prenatal testing. Sci Rep 2017;7:1838.
[4] Derrien T, Estelle J, Marco Sola S, Knowles DG, Raineri E, Guig6 R, et al. Fast computation and applications of genome mappability. PLoS One 2012;e30377:7.
[5]Thome CD, NP GDBDL, Benjamini Y, Speed TP, et al. Investigating and correcting plasma DNA sequencing coverage bias to enhance aneuploidy discovery. PLoS One 2014;9:e86993.