目次
gnomAD(ゲノムアグリゲーションデータベース)とは、80万人以上の遺伝情報を集めた世界最大のヒトゲノム変異データベースです。そこから計算されるpLIスコアとLOEUFスコアは、いわば「その遺伝子は壊れることがどれだけ許されないか」を数値化した指標で、遺伝子検査で見つかった変化が本当に病気の原因なのかどうかを見分ける土台として、世界中の医療現場で使われています。
Q. gnomADやpLI・LOEUFって、ひとことで言うと何ですか?
A. gnomADは80万人以上のゲノムを集めた巨大データベース、pLIとLOEUFはそのデータから計算する「遺伝子の壊れにくさ(変異への不寛容さ)」の指標です。ある遺伝子が壊れる変化をほとんど受け付けていなければ、その遺伝子は生命にとって重要で、そこに見つかった変化は病気の原因である可能性が高いと判断する手がかりになります。
- ➤gnomADの正体 → 世界最大規模、最新版v4.1は807,162人分のゲノムを収載
- ➤pLIスコア → 0〜1の確率。1に近いほど「壊れることが許されない遺伝子」
- ➤LOEUFスコア → pLIの後継。低いほど制約が強い(pLIと向きが逆)
- ➤使い分け → なぜpLIからLOEUFへ主役が移ったのかを解説
- ➤臨床での役割 → ACMG/PVS1基準やCNV解釈での実際の使われ方
1. gnomADとは:80万人のゲノムが集まった巨大データベース
gnomAD(ゲノムアグリゲーションデータベース、Genome Aggregation Database)とは、世界中の研究から集められた膨大な数のヒトのゲノム情報を一か所にまとめた、世界最大規模のヒトゲノム変異データベースです。米国のブロード研究所(Broad Institute)を中心とする国際的な研究者連合によって構築・運営されています。
私たちのDNAには、一人ひとり無数の「個性」とも言える小さな違い(バリアント=変異)が存在します。その大半は健康に影響しない無害なものですが、ごく一部は重い病気の原因になります。問題は、遺伝子検査である変化が見つかったとき、それが「ただの個性」なのか「病気の原因」なのかを見分けるのが非常に難しいことです。gnomADは、たくさんの人のゲノムを集めることで「この変化は健康な人にもよくあるのか、それともほとんど誰も持っていないのか」を調べる、いわば巨大な照合台帳の役割を果たします。
💡 用語解説:バリアント(変異)とアレル頻度
バリアントとは、標準的なDNA配列(参照配列)と異なる部分のことです。「変異」とも呼ばれます。アレル頻度とは、集団の中でそのバリアントがどのくらいの割合で見られるかを示す数字です。多くの人が当たり前に持っている変化(アレル頻度が高い)は無害なことが多く、ほとんど誰も持っていない変化(アレル頻度が低い)は病気と関係する可能性が相対的に高くなります。gnomADはこのアレル頻度を高い精度で推定するための土台データを提供しています。
gnomADは、健康な一般集団のデータを表すことを目的としているため、重い小児疾患の患者さんとその第一度近親者(親・子・きょうだい)は除外されています。ただし、大人になってから発症するタイプの病気の患者さんは一般集団と同じくらいの頻度で含まれている可能性が残されている点には、専門家は注意を払っています。
ExACから始まり、v4.1で80万人規模へ
gnomADの歩みは、データ規模の劇的な拡大の歴史でもあります。前身であるExAC(Exome Aggregation Consortium)は約6万人のデータから始まりました。後述するpLIスコアは、このExACのデータをもとに初めて算出された指標です。
その後、データはgnomADプロジェクトへ引き継がれ、2023年11月に発表され修正を経てv4.1へと更新された最新版では、合計807,162人分に到達しました。これはv2とv3を合わせた規模の約5倍という急拡大です。この飛躍の大きな原動力となったのが、英国のUK Biobankから統合された416,555人分のエクソームデータ、そして非ヨーロッパ系の祖先を持つ約138,000人分のデータの追加であり、世界の多様性を反映したデータベースへと大きく前進しました。
| データセット | リリース年 | エクソーム数 | 全ゲノム数 | 主な特徴 |
|---|---|---|---|---|
| ExAC | 2016年 | 60,706 | 0 | pLIスコアの初期導入基盤 |
| gnomAD v2.1 | 2018年 | 125,748 | 15,708 | LOEUF・O/E比の導入 |
| gnomAD v3.1 | 2021年 | 0 | 76,156 | 全ゲノム特化、非コード領域の制約評価 |
| gnomAD v4.1 | 2024年 | 730,947 | 76,215 | UK Biobank統合、多様性の飛躍的向上 |
gnomADの各メジャーリリースにおける解析対象者数の推移。v4でUK Biobankデータの統合により、エクソーム解析数が飛躍的に増加していることがわかります。
2. 遺伝子制約(Gene Constraint)という考え方
pLIやLOEUFを理解するうえで欠かせないのが、「遺伝子制約(Gene Constraint)」という考え方です。これは、ある遺伝子が進化の過程で、どのくらい変異を許してきたか/排除してきたかを示す概念です。
💡 用語解説:純化選択(じゅんかせんたく)
生物にとって有害な変異が、世代を重ねるなかで自然に集団から取り除かれていく仕組みのことです。重要な遺伝子に有害な変異が起きると、その個体は子孫を残しにくくなり、結果としてその変異は集団に広がりません。逆に、壊れても大きな問題がない遺伝子では、変異がそのまま残りやすくなります。つまり「健康な人たちの中にどれだけ変異が見られないか」を調べれば、その遺伝子がどれだけ大切かを逆算できる——これが遺伝子制約の発想です。
制約を数値にするときの中心となるのが、「観察された変異の数(Observed)」と「期待される変異の数(Expected)」の比較です。期待される変異の数は、単純な遺伝子の長さだけでなく、3塩基の並び(トリヌクレオチド・コンテキスト)やメチル化の状態などを考慮した精密な確率モデルで予測されます。もし「実際に観察された変異の数」が「期待される数」よりずっと少なければ、その遺伝子は変異を強く拒んでいる=制約が強い、と判断できます。
3. pLIスコアとは:壊れることが許されない遺伝子を見つける
pLIスコア(Probability of Loss-of-Function Intolerance)は、2014年のSamochaらの論文、および2016年のLekらによるExACの論文で導入された指標です。日本語にすると「機能喪失変異への不耐性の確率」。ある遺伝子が、タンパク質を途中で壊してしまうような変異(機能喪失変異)を、どれだけ受け付けないかを0から1の確率で表します。
💡 用語解説:機能喪失変異(LoF・pLoF変異)
機能喪失変異(Loss-of-Function、LoF)とは、その名の通りタンパク質の働きを失わせてしまうタイプの変異です。具体的には、タンパク質づくりを途中で止めてしまうナンセンス変異や、設計図の読み枠をずらすフレームシフト変異、スプライス部位の変異などが含まれます。より詳しくは機能喪失型変異の解説ページをご覧ください。
遺伝子を3つのグループに分ける
pLIの根っこには、すべての遺伝子を機能喪失変異への耐性によって次の3つのグループに分けるという考え方があります。
- ➤ヌル(Null):2つあるコピーが両方壊れても平気な遺伝子。機能喪失の影響をほとんど受けません。
- ➤劣性(Recessive):片方だけ壊れても大丈夫だが、両方壊れると問題が出る遺伝子。
- ➤ハプロ不全(Haploinsufficient):2つのうち片方が壊れただけで重い問題が出る、最も制約の強い遺伝子。
pLIスコアは、その遺伝子が3番目の「ハプロ不全」グループに当てはまる確率を示しています。1に近いほど機能喪失変異を許容できず、極めて重要な遺伝子だということです。pLIが0.9以上の遺伝子は「機能喪失変異に非常に強い不耐性を持つ」とされ、病気の原因となる変化をふるい分ける強力な基準として広く使われてきました。
💡 用語解説:ハプロ不全(haploinsufficiency)
私たちは多くの遺伝子を父由来・母由来の2つのコピーで持っています。ハプロ不全とは、片方のコピーが壊れて働かなくなり、残り1つ(約50%の量)だけでは正常な働きを保てなくなる状態です。pLIが高い遺伝子は、まさにこのハプロ不全を起こしやすい遺伝子と重なります。詳しくはハプロ不全の解説ページをご覧ください。
どうやって計算する?——EMアルゴリズム
pLIの計算には、機械学習でよく使われる期待値最大化(EM)アルゴリズムという手法が用いられます。難しそうに聞こえますが、考え方はシンプルです。「各遺伝子が先ほどの3グループのどれに属するか」は直接は分かりません。そこで、データ(実際の変異の数)を最もうまく説明できるグループ分けを、計算を繰り返しながら少しずつ正解に近づけていきます。この反復の結果、各遺伝子が「ハプロ不全グループに属する確率」=pLIが決まります。
pLIの弱点:白黒つけすぎてしまう
広く使われたpLIですが、運用するうちに弱点も見えてきました。最大の問題は、本質的に「白か黒か」になりやすい二分法的な性質です。たとえばpLIが低い遺伝子があったとき、それが「本当に変異を許容する遺伝子だから低い」のか、それとも「遺伝子が小さくて期待される変異の数が少なすぎ、判断材料が足りないから低い」のかを、区別しづらいのです。この不確実性が、次に紹介するLOEUFへのバトンタッチを促しました。
4. LOEUFスコアとは:連続的に、より慎重に測る
LOEUF(Loss-of-Function Observed/Expected Upper bound Fraction)は、2020年のKarczewskiらによるgnomADの旗艦論文で導入された、pLIの後継ともいえる指標です。pLIの「白黒つけすぎる」弱点を解消し、より細やかに、より慎重に遺伝子制約を測れるようにした点が革新的でした。
💡 用語解説:信頼区間(しんらいくかん)の上限値
LOEUFは、機能喪失変異のO/E比に「90%信頼区間」という幅をつけ、その上限(いちばん大きい側の値)を採用します。信頼区間とは「真の値はだいたいこの範囲にあるだろう」という幅のこと。データが少ない遺伝子では、この幅が広くなって上限値も大きくなります。つまりLOEUFは「データが足りないときは強い制約があるとは言い切らない」という慎重さを、スコアそのものに組み込んでいるのです。
LOEUFが優れている3つの理由
- ✓直感的に読める:LOEUFが0.4なら「期待される機能喪失変異の最大でも40%しか実際には観察されていない」と、そのまま意味を読み取れます。
- ✓不確実性を抱え込む:小さい遺伝子でデータが少なければ上限値が大きくなり、「断言できない」という保守的な判断が自動で反映されます。
- ✓順位づけできる:すべての遺伝子を制約の強さで一列に並べられ、既知のハプロ不全遺伝子が上位(制約が強い側)に集まることが確認されています。
期待される変異数が少ない(遺伝子が小さい)場合は信頼区間が広がり、LOEUFが大きくなります。データ不足による誤った分類を、慎重に防ぐ仕組みになっています。
臨床で使われる閾値
gnomADの開発チームは、制約の強い遺伝子をふるい分ける一般的な目安としてLOEUF<0.35を推奨しています。さらに偽陽性をより厳しく減らしたい診断パネルなどでは、LOEUF<0.268というより厳格な基準が使われることもあります。
5. pLIとLOEUF、結局どう違う?使い分けは?
ここで最も間違えやすいポイントを押さえておきましょう。pLIとLOEUFは、スコアの向きが正反対です。pLIは1に近いほど制約が強い(壊れることが許されない)のに対し、LOEUFは値が低いほど制約が強いのです。
| 比較項目 | pLIスコア | LOEUFスコア |
|---|---|---|
| 登場時期 | 2014〜2016年(ExAC) | 2020年(gnomAD v2) |
| 値の範囲 | 0〜1 | おおむね0〜2程度 |
| 制約が強い= | 1に近い(高い) | 0に近い(低い) |
| 性質 | 二分法的(白黒つけやすい) | 連続的(グラデーション) |
| 一般的な閾値 | pLI ≧ 0.9 | LOEUF < 0.35(厳格には<0.268) |
現在は、より細やかな評価ができるLOEUFが主役になりつつあります。ただし、gnomAD開発チームは最新のv4.0に基づく制約指標はまだ実験的(ベータ版)な位置づけであると明言しており、安定した指標がすぐに必要な臨床診断の現場では、引き続き実績のあるv2.1.1の指標を使うことも検討するよう案内しています。新旧どちらの指標も、目的に応じて使い分けられているのが実情です。
6. ミスセンス変異への制約:Z-scoreとMPC
pLIとLOEUFは「タンパク質を壊す」機能喪失変異への制約を測るものでした。一方、gnomADはミスセンス変異(アミノ酸が1つ別のものに置き換わる変異)への制約を測る指標も提供しています。
💡 用語解説:ミスセンス変異
ミスセンス変異とは、DNAの1文字が変わることで、タンパク質を構成するアミノ酸が1つ別の種類に置き換わる変異です。機能喪失変異が「タンパク質を作るのをやめてしまう」のに対し、ミスセンス変異は「少し違う部品で作ってしまう」イメージ。影響は置き換わる場所や種類によって千差万別で、無害なものから重篤なものまであり、病原性の判断は機能喪失変異よりさらに難しくなります。
ミスセンスZ-scoreは、遺伝子全体がミスセンス変異をどれだけ拒んでいるかを示す統計量です。値が大きいほど(特に3.09を超えると)、期待よりミスセンス変異が明らかに少なく、強い制約を受けていると判断します。実際、Samochaらの研究では、自閉症スペクトラム障害や重度の知的障害の患者さんで、新生(de novo)ミスセンス変異が高いZ-scoreを持つ遺伝子に集まることが示され、発症メカニズムの解明に貢献しました。
さらに進んだ指標がMPCスコアです。遺伝子全体を一律に評価すると、タンパク質の中の特に重要な部分(機能ドメイン)を見落とすおそれがあります。MPCは遺伝子の中でも特にミスセンス変異が少ない「サブ領域」を特定し、その領域での制約の強さを病原性予測に組み込みます。近年は変異をタンパク質の3D立体構造にマッピングする手法も進み、立体的な視点から病原性をより正確に読み解けるようになってきています。
7. 臨床現場での使われ方:ACMG/PVS1とCNV解釈
pLIやLOEUFは、単なる研究上の数字ではありません。遺伝子検査で見つかった変化を「病的か」「良性か」と判定する公式ルールの中で、重要な証拠として組み込まれています。ここが、この記事の臨床的な核心です。
💡 用語解説:ACMG/AMPバリアント分類とは
米国遺伝・ゲノム学会(ACMG)と分子病理学会(AMP)が2015年に定めた、遺伝子の変化を分類する国際的な基準です。検査で見つかった変化を、病的(Pathogenic)/病的の可能性が高い(Likely Pathogenic)/意義不明(VUS)/良性の可能性が高い/良性の5段階に分類します。さまざまな証拠を点数のように足し合わせて判定する仕組みで、pLIやLOEUFはその証拠の一つとして使われます。
💡 用語解説:VUS(意義不明のバリアント)
VUS(Variant of Uncertain Significance)とは、現在の知識では「病気の原因か、無害か」を判断できない変化のことです。遺伝子検査では珍しくない結果で、患者さんやご家族を悩ませる原因にもなります。pLIやLOEUFのような制約指標は、こうしたVUSを病的・良性のどちらに振り分けるかを考える際の補強材料の一つになります。
PVS1基準と自動判定ツール
ACMG基準の中でも、PVS1(Pathogenic Very Strong 1)は、ナンセンス変異やフレームシフトなどの「ヌルバリアント」に対する最も強い病的証拠コードです。ただしPVS1を適用するには「その遺伝子で機能喪失が本当に病気のメカニズムになっているか」を確かめる必要があり、ここでLOEUFスコアが客観的な根拠として参照されます。実際、自動判定ツールのAutoPVS1は、対象遺伝子が機能喪失に不耐性であることの統計的根拠としてLOEUFを直接利用しています。
💡 用語解説:NMD(ナンセンス変異依存mRNA分解機構)
細胞には、途中で止まってしまう異常な設計図(mRNA)を見つけて壊す「品質管理システム」が備わっています。これがNMDです。途中終止コドンが、最後から2番目のエクソンの3’末端から50塩基以内などの特定の位置に現れると、このNMDが働かず短いタンパク質が作られてしまうことがあります。PVS1の判定では、このNMDが働くかどうかが厳密に評価され、働かない位置の変異は証拠の強さが一段階下げられます。
CNV(コピー数変異)の解釈でも活躍
1塩基の小さな変化だけでなく、CNV(コピー数変異)という、より大きな染色体の欠失・重複を解釈する際にも、制約スコアは重要な証拠になります。ClinGen(臨床ゲノムリソース)の用量感受性ガイドラインでは、ある欠失が病的かどうかを補強する際に、pLI・LOEUF・sHET・pHaploといった予測ツールが用いられます。
8. よくある誤解
誤解①「pLIが高い=必ず発症する」
pLIやLOEUFは「その遺伝子がどれだけ大切か」を示すだけで、見つかった変化が必ず病気を起こすことを意味しません。あくまで判定を助ける証拠の一つです。
誤解②「pLIもLOEUFも値が高いほど危険」
逆です。pLIは高いほど、LOEUFは低いほど制約が強いのです。向きが正反対なので混同に注意が必要です。
誤解③「pLIとLOEUFは別々の証拠になる」
同じgnomADのデータが元なので、2つを独立した証拠として二重に数えてはいけません。CNV解釈での重要な禁止事項です。
誤解④「スコアは絶対的な真実だ」
これらは進化の足跡を確率的にとらえた指標です。発症年齢・重症度・遺伝形式などの文脈と合わせて解釈する必要があります。
9. 臨床遺伝専門医からのメッセージ
よくある質問(FAQ)
🏥 遺伝子検査の結果・遺伝カウンセリングについて
遺伝子検査の結果の読み解きや、見つかった変化の意味についてのご相談は、
臨床遺伝専門医が在籍するミネルバクリニックにお気軽にご相談ください。
参考文献
- [1] Karczewski KJ, et al. The mutational constraint spectrum quantified from variation in 141,456 humans. Nature. 2020;581(7809):434-443. [PMC7334197]
- [2] Lek M, et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 2016;536(7616):285-291. [PMC5018207]
- [3] gnomAD v4.0. Broad Institute (gnomAD News). 2023. [gnomAD]
- [4] gnomAD v4.0 Gene Constraint. Broad Institute. 2024. [gnomAD]
- [5] Samocha KE, et al. A framework for the interpretation of de novo mutation in human disease. Nat Genet. 2014;46(9):944-950. [PMC4222185]
- [6] Abou Tayoun AN, et al. Recommendations for Interpreting the Loss of Function PVS1 ACMG/AMP Variant Criteria. Hum Mutat. 2018;39(11):1517-1524. [PMC6185798]
- [7] Riggs ER, et al. Technical standards for the interpretation and reporting of constitutional copy-number variants: a joint consensus recommendation of ACMG and ClinGen. Genet Med. 2020;22(2):245-257. [PMC7313390]
- [8] ACGS Best Practice Guidelines for Variant Classification in Rare Disease. 2024. [ACGS]



