WGSベースのNIPT⑤:リード密度の期待値更新日06/08/2019

リード密度の期待値


次は、リード密度の期待値についてお話ししましょう

μexpを計算する方法はたくさんあります.
たとえば,サンプル特異的に.
たとえば部位特異的に.
そして,サンプルと部位の特異性を両方活用して.

のころの初期WGSベースのNlPTでは,
例えばGC含量などの似た特徴を有する
いわゆる参照染色体が各染色体に割り当てられ,
基準染色体がダイソミーと仮定すると,
そのときの予想される読み取り密度は次のようになる.

サンプルjのなかの関心領域 i μexp.i.j

参照染色体κ の基準染色体密度  μobs.k.j

に等しいと仮定することができます.

しかし,この方法だと
ひとつのデータがだめならかごの中のすべてが
だめだと壊してしまう,という短所を持っています.

原理的には,μexp.i.jを計算する最もしっかりした方法は,
全てのサンプルにおける全ての関心領域を利用することです.

そのようなアプローチは,領域特異的な計算(例えば,
関心サンプル中のchr21を推論するためにバックグラウンドサンプル中の
chr21読み取り密度を使用する)の長所を利用する一方で,
サンプル特異的な効果(例えば,関心サンプルがバックグラウンドコホートから
逸脱する場合)も考慮します.

機械学習モデル(例えば,線形回帰)は,
この二重の目的を果たすことができます.

回帰モデルは参照染色体法の拡張と考えることができます.
後者は,参照染色体に対して1.0の重みを有効に使用したが,
前者は,chr1に対して0.12,chr2に対して-0.05,chr3に対して0.2の重みを使用し,
以下同様です.

ここで,重みは,サンプルを横切る対象の染色体に対して
最良の予測をもたらすように導かれる.

モデルがこの最適な重み付けを学習すると,
サンプルj内の他の領域に基づいて重み付け和を計算することによって,
関心サンプルj内の領域iに対する予測読み取り密度を予測することができるのです.

参考文献
[1] Sehnert AJ, Rhees B, Comstock D, de Feo E, Heilek G, Burke J, et al. Optimal detection of fetal chromosomal
abnormalities by massively parallel DNA sequencing of cell-free fetal DNA from maternal blood. Clin Chem
2011;57:1042-9.