目次
DECIPHER %HI(ハプロ不全予測指標)は、遺伝子の片方のコピーを失っただけで病気を起こしやすいかどうかを、0〜100%のパーセンタイル順位で表したスコアです。数値が低い(10%未満)ほどハプロ不全を起こしやすく、染色体微小欠失(CNV)が見つかったときに「どの遺伝子が病気の犯人か」を絞り込む臨床判断の羅針盤として、世界中の遺伝医療現場とACMG/ClinGenガイドラインに組み込まれています。
Q. DECIPHER %HIとは何ですか?まず結論だけ知りたいです
A. 遺伝子の片方のコピーを失ったときに病気を起こしやすいかどうかを予測するスコアで、ゲノム全体に占めるパーセンタイル順位として表現されます。数値が低いほど用量感受性が高く(ハプロ不全を起こしやすく)、%HI ≤ 10% は染色体欠失の病原性評価で「病的方向」の証拠として扱われます。
- ➤指標の定義 → Huang ら(2010)がPLoS Geneticsに発表したアルゴリズム由来の予測値
- ➤読み方 → 0〜10%:用量感受性が高い/90〜100%:ハプロ不全を起こしにくい
- ➤臨床応用 → ACMG/ClinGen基準2Hで「pLI ≥ 0.9 & %HI ≤ 10%」で病原性0.15点を加算
- ➤他指標との関係 → pLI・LOEUF・sHet と相補的に組み合わせて使う
- ➤最新の動向 → 2022年以降は後継指標 pHaplo・pTriplo に主役を譲りつつある
1. DECIPHER %HI とは:指標の定義と背景
DECIPHER %HI(パーセント・ハプロインサフィシェンシー)は、ヒトのおよそ12,000以上のタンパク質コード遺伝子それぞれについて、「片方のコピーを失ったときに病気を起こす可能性がどの程度高いか」を計算機モデルで予測し、ゲノム全体での順位を0〜100%のパーセンタイル値で表した指標です。Huang らが2010年にPLoS Genetics誌で公開した予測モデルが基盤となっており、英国サンガー研究所が運営する希少疾患ゲノムデータベース「DECIPHER」のブラウザを通じて長く臨床現場に提供されてきました。
💡 用語解説:DECIPHERとは
DECIPHER(DatabasE of genomic varIation and Phenotype in Humans using Ensembl Resources)は、世界中の臨床遺伝センターから集まる希少疾患患者のゲノム変異と症状(表現型)を共有する無料のウェブプラットフォームです。40カ国以上から数万人規模の患者データが集積されており、未診断の症例を世界中で照合する仕組みとして欠かせない存在になっています。%HIはこのDECIPHER上で遺伝子ごとに色分け表示されてきました。
なぜこの指標が必要なのでしょうか。染色体微小欠失(マイクロデリーション)の領域には、通常数個から数十個の遺伝子が含まれます。患者さんの症状が「どの遺伝子の喪失」によって引き起こされているのかを絞り込むには、欠失領域に含まれる遺伝子ひとつひとつについて「片方失っただけで病気になり得るかどうか」を客観的に評価する必要があります。これを各遺伝子のパラログの有無や進化的保存性などから機械学習で推定するのが、DECIPHER %HIの役割です。
2022年には次世代の指標 pHaplo・pTriplo が登場し、DECIPHERのウェブインターフェースのデフォルト表示はそちらへ切り替わりました。しかし %HI は10年以上にわたり臨床ゲノム解析の標準ツールとして使われ続けており、過去の論文・ガイドライン・半自動CNV解釈システム(AutoCNV など)の中で、いまも現役の重要指標として参照されています。
2. ハプロ不全という生物学的基盤
私たちは父方・母方から1つずつ、合計2コピーの遺伝子を受け継いでいます。多くの遺伝子は、片方のコピーが壊れても、もう一方が補ってくれるため健康に問題は出ません。これを「ハプロ充足性(haplosufficient)」と呼びます。ところがゲノム上には数百〜数千個ほど、わずか50%の遺伝子量低下だけで重篤な発達障害や優性遺伝疾患を直接引き起こす遺伝子群が存在します。こうした遺伝子の特性を「ハプロ不全(haploinsufficient)」と呼び、DECIPHER %HIはこれを定量化する指標です。
💡 用語解説:用量感受性(dosage sensitivity)
「遺伝子の発現量(用量)」が正常な範囲から少しでも外れると正常に機能しなくなる性質のことを指します。ハプロ不全は「半分に減ると困る」用量感受性、対する「トリプロ感受性」は「1.5倍に増えると困る」用量感受性です。マスター転写因子や発生関連遺伝子など、厳密な量管理を必要とする遺伝子で目立つ性質です。
ハプロ不全が起きる分子メカニズムは、リサーチによれば次の3つの要素が複合的に作用しています。
- ➤遺伝子量の閾値効果:シグナル伝達経路や発生段階で、タンパク質の絶対量が厳密な閾値を超えなければ下流反応が始まらないとき、半分に減るだけで反応が破綻します。
- ➤巨大分子複合体の化学量論的破綻:複数のサブユニットからなるタンパク質複合体では、1つのサブユニットの供給が半減すると複合体の組み立て効率が著しく低下します(バランス仮説)。
- ➤翻訳緩衝機構の限界:細胞は本来、過剰なタンパク質を分解して用量を補正する仕組みを持っていますが、HI遺伝子はこの緩衝機構を強く受ける遺伝子群でもあり、わずかな逸脱でも症状が出ます。
ハプロ不全遺伝子の「生物学的バイアス」
ハプロ不全遺伝子(HI)と充足遺伝子(HS)は、ゲノム上で根本的に異なる特徴を持っていることがHuangらによって示されました。下の図はその主要な対比をまとめたものです。
特に注目すべきは 「パラログによる機能補償」 の有無です。HS遺伝子は、進化の過程で複製された類似遺伝子を持っていることが多く、片方を失ってもパラログが代役を務めることで細胞は守られます。ところがHI遺伝子は、こうしたバックアップを持ちません。だから片方失うと致命的になるのです。
3. %HIアルゴリズムの仕組み
DECIPHER %HIは、機械学習の中でも比較的シンプルな分類器である線形判別分析(LDA: Linear Discriminant Analysis)をベースに構築されました。線形カーネルのサポートベクターマシン(SVM)でも同等の性能が確認され、いずれも10分割交差検証で高いAUC値を達成しています。
教師データの選び方
機械学習モデルを訓練するには「正解の遺伝子セット」が必要です。Huangらは次のように教師データを構築しました。
- ●正例(HI遺伝子):過去文献で優性遺伝疾患の原因として確立されていた301遺伝子を厳選。
- ●負例(HS遺伝子):大規模な健常コントロール集団のCNVを解析し、複数の健常者で繰り返し機能喪失型(LoF)変異として欠失していた1,079遺伝子を選定。健常者で欠失が許容されているなら、その遺伝子は重篤なハプロ不全を起こさない、という強力なロジックです。
💡 用語解説:機械学習(machine learning)とは
人間がルールを一つ一つ書かなくても、コンピュータが大量のデータからパターンを自動的に学習する技術の総称です。「ハプロ不全が確実な遺伝子301個」と「健常者で欠失が許される遺伝子1,079個」を教師データとして与えると、コンピュータは両者を区別する特徴を学び、未知の遺伝子に対して「どちらに似ているか」を確率として出力します。これが %HIの正体です。
予測に使う特徴量
モデルには次の特徴量が組み込まれました。すべてHI遺伝子とHS遺伝子で統計的に有意な差を示すものです。
| 特徴カテゴリー | 具体的な特徴 | HI遺伝子の傾向 |
|---|---|---|
| 進化的保存性 | コーディング配列のdN/dS比、プロモーター変異許容性 | 極めて高い保存性 |
| 遺伝子構造 | 転写産物長、3’UTR長 | どちらも長い傾向 |
| 発現プロファイル | 発生初期の発現量、組織特異性 | 発生初期で高発現 |
| 機能的補償 | 類似配列パラログの有無 | パラログを持たない |
| ネットワーク位置 | タンパク質相互作用パートナー数、既知HI遺伝子との近接性 | ハブ的中心位置 |
重みの分析では、「タンパク質相互作用ネットワーク上で他の既知HI遺伝子にどれだけ近いか」が最も予測に貢献する特徴量でした。これは「悪さをする遺伝子はネットワーク上でも近所に集まっている」という直感的な発見でもあります。最終的にこのモデルは、ヒトゲノム上の12,443遺伝子に対してハプロ不全確率(p(HI))を割り当てました。
4. %HIの読み方とゲノムブラウザでの色分け
モデルが出す生のハプロ不全確率(0〜1)は、臨床医にとって直感的ではありません。そこでゲノム全体の順位で表現し直したのが %HI です。これは 「α-upper percentile」 と呼ばれる表現方法で、対象遺伝子よりもハプロ不全確率が高い遺伝子がゲノム全体で上位何%存在するかを示します。
🔴 高ランク(0〜10%)
数値が低いほど用量感受性が高い。
%HI ≤ 10% はDECIPHER/UCSCゲノムブラウザ上でマゼンタ系で表示され、欠失が見つかったら病原性候補として最優先で検討すべきレベルです。
🟢 低ランク(90〜100%)
数値が高いほどハプロ充足性が高い(病気にならない)。
ブラウザ上で緑系で表示され、欠失していても臨床的にあまり影響を与えないと推定される遺伝子です。
UCSCゲノムブラウザやDECIPHERのトラックでは、こうしたパーセンタイル値に基づいて遺伝子が直感的に色分けされてきました。患者さんのCNV欠失領域に複数の遺伝子が含まれているとき、赤い色調の遺伝子(%HI < 10%)を視覚的にスクリーニングし、病原性候補ドライバー遺伝子を素早く絞り込む。これが臨床現場での %HIの最も基本的な使い方です。
5. ACMG/ClinGenガイドラインでの臨床応用
DECIPHER %HIの価値は、基礎研究の計算ツールにとどまりません。米国臨床遺伝専門医協会(ACMG)とClinGen(クリニカルゲノムリソース)が2019年〜2020年に共同策定した「構成的コピー数変異(CNV)の解釈と報告に関する技術基準」(Riggs et al., 2020)に正式に組み込まれ、世界中の臨床ゲノム検査室で活用されています。
ポイント制スコアリングの全体像
このガイドラインは、約80項目の評価基準を統合した半定量的なポイント制スコアシステムを採用しています。集計ポイントに応じて、CNVは5段階に分類されます。
| 分類 | ポイント範囲 |
|---|---|
| Pathogenic(病的) | ≥ 0.99 ポイント |
| Likely Pathogenic | 0.90 〜 0.98 ポイント |
| VUS(意義不明) | 0.89 〜 -0.89 ポイント |
| Likely Benign | -0.90 〜 -0.98 ポイント |
| Benign(良性) | ≤ -0.99 ポイント |
セクション2H:%HIが力を発揮する場面
CNV欠失の評価のうち、もっとも迅速に高ポイントを得られるのが「セクション2:既知のハプロ不全遺伝子または良性領域との重複」です。ここに DECIPHER %HIが組み込まれています。下の図はその構造を示したものです。
📊 ACMG/ClinGen セクション 2 のスコアリング
右端の赤線はPathogenic閾値(1.00点)。基準2Hは0.15点と控えめだが、他の証拠と合算してVUSをLikely Pathogenicに昇格させる「決定的な一押し」になる。
💡 基準2H の実務上の条件
「2つ以上の独立した予測アルゴリズム」がハプロ不全と予測した場合に +0.15 点が加算されます。実務で最も標準的に用いられる組み合わせがこちらです。
① gnomAD pLI スコア ≥ 0.9
② DECIPHER HI index(%HI)≤ 10%
なぜ0.15点という「控えめな重み付け」なのか
0.15点という数値は、ACMG分類でいう「補助的(Supporting)」証拠レベルにあたります。計算機モデルによる予測値だけでは、機能的アッセイや家系内分離データに置き換わるものではないため、アルゴリズムの予測のみでPathogenic(≥0.99点)の閾値を超えることはガイドライン上不可能になっています。これは過剰診断を防ぐ意図的な設計です。
それでも0.15点は決して無力ではありません。たとえば表現型の合致度(セクション4)や、両親非罹患で新生突然変異(de novo)が確認されたケースなどで、VUSとLikely Pathogenicの境界線上にあるバリアントを「あと0.15点」で昇格させる決定的な一押しになる場面が、現場では実際に多々あります。
なお、欠失内の遺伝子破壊がNMD(ナンセンス変異依存mRNA分解機構)を引き起こす場合は、PVS1基準に従い最大0.90点が加算され、CNV単独でLikely Pathogenicまで到達できます。
6. 他の遺伝子拘束性指標との比較
DECIPHER %HIはCNV解釈で強力なツールですが、現在は大規模エクソーム/ゲノムシーケンスデータに基づく他の遺伝子拘束性(constraint)指標と組み合わせて使うのが一般的です。代表的な4つの指標を比較しましょう。
🔴 %HI(DECIPHER)
由来:Huang 2010
アプローチ:進化的・機能的特徴 + 機械学習(LDA/SVM)
カットオフ:≤ 10%(低いほど用量感受性高)
🔵 pLI(gnomAD)
由来:ExAC/gnomAD
アプローチ:大規模集団で観察されたLoF変異数と期待値の乖離
カットオフ:≥ 0.90(高いほど不耐性)
🟡 LOEUF
由来:gnomAD
アプローチ:LoF観察/期待比の90%信頼区間上限
カットオフ:< 0.35(低いほど不耐性)
🟢 sHet
由来:複数の集団遺伝学研究
アプローチ:ヘテロ接合性LoFに対する自然選択係数
カットオフ:1に近いほど感受性高
💡 用語解説:pLI(Probability of LoF Intolerance)とLOEUF
pLIは、約14万人規模の大規模集団データベース(gnomAD)の中で、ある遺伝子に「ランダムに発生すると期待されるLoF変異の数」と「実際に観察された変異の数」を比較する確率モデルです。pLI が 1.0 に近いほど、その遺伝子はLoF変異を許容しない(=病気になりやすい)ことを示します。
LOEUFは pLI の後継として開発された連続的指標で、観察/期待比の信頼区間の上限値を採用しています。0 に近いほど変異不耐性が強くなります。両者ともgnomADの遺伝子情報ページで確認できます。
pLI や LOEUFは大規模集団における塩基レベル変異の抑制圧を統計的に計算します。極めて頑健な手法ですが、小さい遺伝子では「ランダムに発生する期待変異数」自体が少なく、統計的な乖離を検出しにくいという構造的限界があります。
これに対し DECIPHER %HIは、進化的特徴・パラログの有無・ネットワーク中心性といった生物学的・構造的な属性に依拠しているため、配列レベルの情報が乏しい小規模な遺伝子に対しても補完的に予測ができるという独自の強みを持ちます。複数の指標が同時に「ハプロ不全」を示したとき(pLI = 1.0、LOEUF < 0.2、%HI < 1%など)、その遺伝子は真のHI遺伝子である確度が極めて高くなるのです。
7. pHaplo / pTriplo へのパラダイムシフト
2022年、Collinsらが Cell誌に発表した研究は、用量感受性予測の新時代を切り開きました。神経発達障害など54の表現型を含む約100万人規模の希少CNV(rCNV)データをメタ解析し、疾患関連の163の用量感受性セグメントを定義してドライバー遺伝子を統計的ファインマッピングで優先順位付けしたのです。
💡 用語解説:pHaplo(ハプロ不全確率)と pTriplo(トリプロ感受性確率)
pHaploは、ある遺伝子の欠失が疾患を引き起こす確率を0〜1で表した最新のスコアです。pHaplo ≥ 0.86は、強い拘束を受ける既知の機能喪失不耐性遺伝子と同等の病原性レベル(オッズ比2.7以上)を示します。
pTriploは、欠失ではなく重複(コピー数の増加)に対する感受性を表します。pTriplo ≥ 0.94は、重複でもタンパク質切断型変異と同等以上の強い疾患リスクを持つことを示します。これにより、DECIPHER %HIではカバーできなかった「重複の用量感受性」も評価できるようになりました。
何が変わったのか:アンサンブル機械学習
Collinsらは Extreme Gradient Boosting(XGBoost)、ランダムフォレスト、人工ニューラルネットワークなど、複数の高度な機械学習アーキテクチャを組み合わせたアンサンブルモデルを構築しました。Huangらの線形判別分析(LDA)と比べると、非線形な特徴量の複雑な相互作用を捕捉する能力が飛躍的に向上しています。
この結果、ヒトゲノムの18,641の常染色体タンパク質コード遺伝子すべてに pHaplo・pTriplo が割り当てられ、2,987遺伝子がハプロ不全、1,559遺伝子がトリプロ感受性と同定されました。さらに興味深いことに、911遺伝子は欠失と重複の両方に感受性を持ち(双方向性)、648遺伝子は重複にのみ特化して感受性を示すことが分かりました。たとえば発達遅滞に関連するANKRD11遺伝子は、これまで欠失(ハプロ不全)の原因とだけ知られていましたが、重複でも病態を引き起こす双方向性遺伝子であることが判明しています。
DECIPHER における %HIのレガシー化
pHaploの圧倒的な予測精度と、CNV効果量をより直接的に反映する設計を踏まえ、DECIPHERプロジェクトは2022年8月をもって、ウェブインターフェースのデフォルト表示を %HIから pHaploに切り替えました。現在DECIPHERの遺伝子概要ページでは、pLI・LOEUF・sHet と並んで pHaplo・pTriploが標準スコアとして表示されています。
ただし %HIは廃止されたわけではありません。過去の膨大な学術文献との互換性を保つため、また AutoCNV のような半自動CNV解釈システムや既存の臨床パイプラインで使い続けるため、データダウンロードページからは引き続き取得可能です。「現役の旧指標」として、今後しばらくは pHaploと併用される時代が続くと考えられます。
8. 臨床事例:%HIが診断を変えた瞬間
事例①:Phelan-McDermid 症候群(22q13.3欠失 / SHANK3)
22q13.3 領域の SHANK3 遺伝子のハプロ不全により発症する希少な神経発達障害です。重度の知的障害・著明な筋緊張低下・自閉スペクトラム症状を呈します。欠失サイズが2.7 Mbを超える大規模欠失では症状が劇的に悪化するため、SHANK3 以外に巻き込まれる近傍遺伝子の影響を客観的に評価する必要があります。ここで %HI、pLI、LOEUF、pHaploを組み合わせたスコアリングが、コモルビディティ(合併症)の予測根拠として活用されています。
事例②:22q11.2欠失症候群の非定型例(CRKL遺伝子)
ディジョージ症候群として知られる典型的22q11.2欠失とは別に、LCR22C-D 間の比較的稀な中央部欠失(約271 kb)では、心疾患よりも腎・尿路奇形が高頻度に見られます。この領域に含まれる7遺伝子のうちどれが病気を起こしているかを %HIや動物モデルから推測した結果、CRKL 遺伝子が尿路欠損の主要ドライバーであることが強く示唆されました。臨床表現型とCNVの因果関係を結ぶうえで、用量感受性スコアは不可欠だったのです。
事例③:7q21欠失と裂手・裂足奇形(SHFM1)
7q21領域の欠失は、ホメオボックス転写因子ファミリーのDLX5・DLX6を巻き込むと、四肢の形成異常である裂手・裂足奇形(SHFM1)を引き起こします。DECIPHER %HIを当てはめると、DLX5の %HIは 0.99%、DLX6は 3.97%と算出されます。いずれも10%を大きく下回るため、これらの遺伝子欠失が四肢奇形の原因であると確信を持って結論づけられます。SGCE遺伝子(ミオクローヌス・ジストニアの原因)も %HI 13%と高い用量感受性を示し、複合的な表現型の解釈に直結しました。
事例④:9q34欠失症候群(クリーフストラ症候群)
クリーフストラ症候群は9q34.3微小欠失またはEHMT1遺伝子変異によるハプロ不全で生じる、中等度〜重度の知的障害と特徴的顔貌を伴う常染色体顕性遺伝疾患です。1Mb以上の欠失では心疾患・腎異常・呼吸器感染症が重篤化する傾向があり、欠失内の他の遺伝子の用量感受性評価が臨床的意義を持ちます。
9. よくある誤解と注意点
誤解①「%HIが低い=必ず病気を起こす」
%HIはあくまで「ハプロ不全を起こしやすいかどうか」の予測値です。浸透率(その変異を持つ人が実際に発症する確率)の問題は別レイヤーであり、家系内分離や表現型評価と組み合わせて初めて臨床判断ができます。
誤解②「pHaploが出たから %HIはもう不要」
DECIPHERのデフォルトは pHaploに切り替わりましたが、過去10年以上の文献・既存の解釈システム・AutoCNVなどは依然 %HIを引用しています。両者を併用するのが現実的なベストプラクティスです。
誤解③「予測値だけで Pathogenic 判定できる」
ACMG基準では計算機予測のみで Pathogenic(≥0.99点)に到達することは構造的に防止されています。最大加点は0.15点で、他の証拠と合算してはじめて判定が動くという設計です。
誤解④「重複(duplication)にも %HIを使える」
%HIはあくまで欠失(loss)に対する用量感受性の指標です。重複(gain)の評価には pTriplo を別途参照する必要があります。両方の用量感受性を併せ持つ「双方向性遺伝子」も存在するため要注意です。
10. 臨床遺伝専門医からのメッセージ
DECIPHER %HIは「予測値だから不確実」と切り捨てられるべきものではなく、むしろ「臨床の経験知と機械学習を融合させた、臨床医にとっての強力な羅針盤」です。実際の遺伝医療の現場で、私たちが患者さんのCNV解析結果を読み解くとき、%HIや pHaploのような客観指標は、判断の妥当性を担保する重要な根拠になります。
同時に強調したいのは、こうした指標は「数値」だけを見て診断するためのものではないということです。患者さんの表現型、家系内分離、出生前か出生後かといった文脈、そして遺伝カウンセリングを通じたご家族との対話があってはじめて、数字に意味が宿ります。ミネルバクリニックでは、こうした計算機指標を活用しながらも、最終的な意思決定は常にご家族の価値観を中心に据える姿勢を貫いています。
よくある質問(FAQ)
🏥 CNV解釈・遺伝子検査結果のご相談について
DECIPHER %HIをはじめとする用量感受性指標、染色体マイクロアレイ(CMA)や全エクソーム解析の結果解釈について、
臨床遺伝専門医が直接対応するミネルバクリニックにご相談ください。
関連記事
参考文献
- [1] Huang N, Lee I, Marcotte EM, Hurles ME. Characterising and Predicting Haploinsufficiency in the Human Genome. PLoS Genet. 2010;6(10):e1001154. [PLoS Genetics]
- [2] Riggs ER, et al. Technical standards for the interpretation and reporting of constitutional copy-number variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics (ACMG) and the Clinical Genome Resource (ClinGen). Genet Med. 2020;22(2):245-257. [PMC7313390]
- [3] Collins RL, et al. A cross-disorder dosage sensitivity map of the human genome. Cell. 2022;185(16):3041-3055.e25. [PMC9742861]
- [4] DECIPHER v11.38: Mapping the clinical genome. Wellcome Sanger Institute. [DECIPHER]
- [5] DECIPHER FAQs (pHaplo/pTriplo and %HI legacy access). [DECIPHER FAQ]
- [6] Haploinsufficiency predictions for genes from DECIPHER. UCSC Genome Browser. [UCSC]
- [7] pHaplo and pTriplo dosage sensitivity map from Collins et al 2022. UCSC Genome Browser. [UCSC pHaplo]
- [8] CNV-ClinViewer: enhancing the clinical interpretation of large copy-number variants online. Bioinformatics. 2023. [PMC10174702]
- [9] Annual Review of Genomics and Human Genetics: DECIPHER: Improving Genetic Diagnosis Through Dynamic Integration of Genomic and Clinical Data. [PMC7615097]
- [10] Nevado J, et al. Genotype–Phenotype Associations in Phelan–McDermid Syndrome: Insights into Novel Genes Beyond SHANK3. Int J Mol Sci. 2025;26(10):4653. [PMC12111097]



