WGSベースのNIPT②:ビンの最適サイズとは?更新日06/05/2019
WGSベースのNIPT②
WGSベースのNIPT測定アルゴリズムにおけるリード密度は,
定型的には等しいサイズの重複しないbinを有する各染色体をタイルし,
ビン当たりの読み取りの数を数え,
調べたい場所の(例えば,微細欠失(微小欠失)または全染色体)にわたって
ビン当たりの読み取りを平均することによって評価されます.
( ,,`・ω・´)ンンン?
またまた専門的になり,
すっかりさっぱり嫌になってきたそこのあなたっ!!
わたしも同じくです.
お勉強しましょう!
ヒストグラムって知ってますか?
棒グラフのことです.
棒の1本1本のことをbinと言います.
そうすると,
ビンを平均化するすることが重要となります.
つまり,アルゴリズムを実行するにあたり
ビンサイズの決定と平均を計算する方法が大切となるのです.
ビンサイズの選択はどのようにするのでしょうか?
厳密に最適なビンサイズはありませんが,
重要な因子たちがビンサイズを決定するのに役にたちます.
ビンサイズ決定の鍵になるのは,
サンプルから得られる全リード数で,
数千万と見積もられます.
一般に総リード数およびビンサイズは反比例し,
読み取りの深さが深ければビンは小さくてよくなります.
理想的には,ビンは,異数性を示すスケールのシグナル偏差を,
本来データセットから除外されるべき,
たとえば母体のコピーナンバーバリアアーチントCNVのような生物学的事象
または
アラインメントミスのような分析上のファクトといった
大きな偽の偏差から明確に区別できるように
十分小さくすべきなのです.
たとえば,ビンが非常に小さく,
平均のビンの読み取り数がたったの2回と仮定してみると.
次世代シークエンサーNGSの読み取りの離散性は,
4回の読み取り値をもつビンを,
アライメントミスのようなアーチファクト,
胎児の染色体異数体,
または母体の染色体にCNVがある場合,
などを解釈するのが容易ではないですよね?
でも,平均で50個の読み取り値を有するより大きなビンでは,
異数性(例えば,55個の読み取り)と一致する偏位を,
母体CNVに起因する偏位(例えば,100個の読み取り)と区別することは,
はるかに単純になります.
前述の個々の読み取り値の離散化はビンのサイズにが大きくなるような
力を働かせますが,
局在化した異常なゲノム領域の存在(たとえば微細欠失(微小欠失)や単一遺伝子疾患の病的遺伝子の同定)は,
より小さなビンの使用を支持する力を強くします.
このような領域はゲノム全体にわたりまれなのですが,
WGSの基礎をなす重要な前提の1つ,
cfDNA断片が一様にサンプリングされるという前提からは
大きく逸脱しています.
実際には,少数の異常なビンは解析からは廃棄されるのですが,
これは,比較的小さなビンが多数のほうが有益である理由の一つとなっています.
別の理由を見るために,
異常で,正当な理由で囲んでいるビンを廃棄した5kbの断片について考えてみます.
もしビンが20kbなら,
異常のために失われる非異常シグナルは15kbしかないということになります.
しかし,もしbinが100kbなら,95kbの有効な配列が失われ,
大きなbinの使用によってシグナルが大幅に失われる可能性があることがわかります.
この議論を別の角度から検討しましょう.
たとえば,小さな異常領域が100kb毎に生じると仮定します.
ビンのサイズを200 kbに設定した場合ほとんどすべてのビンが異常となり
検査ができないですよね?
文献に記載されているほとんどのWGSベースのNIPTアルゴリズムは
50 kbのビンを使用しています.