目次
- 1 1. SpliceAIとは:DNA配列から「スプライシング異常」を読み解くAI
- 2 2. なぜ「AIでスプライシングを予測する」必要があったのか
- 3 3. SpliceAIの仕組み:深層残差CNNと「広く見渡す」畳み込み
- 4 4. Delta Scoreの読み方:4つのカテゴリと3つの目安
- 5 5. ACMG/AMP・ClinGenでの臨床応用:どの数字で何を判定するか
- 6 6. SpliceAIの限界:偽陽性・組織特異性・ライセンス
- 7 7. 派生モデルと組織特異的予測:Pangolin・AbSplice・Splam
- 8 8. AlphaGenome:2次元表現による次世代の飛躍(2026年)
- 9 9. よくある誤解
- 10 よくある質問(FAQ)
- 11 参考文献
- 12 関連記事
📍 クイックナビゲーション
遺伝子検査の結果に出てくる「意義不明のバリアント(VUS)」。その多くは、DNAの設計図を編集する「RNAスプライシング」への影響がはっきりしないために判定が保留されています。この難問に深層学習で切り込んだのが、2019年にIllumina社が発表したSpliceAIです[1]。本記事では、SpliceAIがDNA配列だけからスプライシング異常を予測する仕組み、スコア(Delta Score)の見方、ACMG/AMP基準やClinGenでの使われ方から、Pangolin・AbSplice、そして2026年に登場したAlphaGenomeまでを、遺伝専門医がわかりやすく解説します。
Q. SpliceAIとは何ですか?まず結論だけ知りたいです
A. SpliceAIは、DNAの塩基配列だけを手がかりに「その場所がRNAスプライシングに関わる部位か」を深層学習で予測し、ある遺伝子変異がスプライシング異常を起こす確率を「Delta Score(0〜1の数値)」で示す計算ツールです。2019年にIllumina社が発表し、いまでは変異の意味を判定するACMG/AMP基準の中でも参照される、事実上の標準ツールになっています。ただしAIの予測は「病原性を支持する根拠」の一つであり、確定診断には実験的な裏づけが欠かせません。
- ➤何を予測するか → 塩基配列からドナー/アクセプター部位を予測し、変異の影響をDelta Scoreで数値化します
- ➤スコアの見方 → 0.2/0.5/0.8が目安。ClinGenはPP3(病原性寄り)に0.2以上、BP4/BP7(良性寄り)に0.1未満を推奨
- ➤臨床での位置づけ → VUSの解釈や、エクソンから離れた深いイントロン変異の評価に有用。確定には機能解析が必要
- ➤限界 → 偽陽性が出やすく、臓器ごとの違い(組織特異性)は予測できません
- ➤次世代へ → Pangolin・AbSplice・Splamを経て、2026年には2次元解析のAlphaGenomeが登場
1. SpliceAIとは:DNA配列から「スプライシング異常」を読み解くAI
SpliceAIは、ヒトのDNAの塩基配列(A・T・G・Cの並び)を入力するだけで、「その一つひとつの塩基が、RNAの編集(スプライシング)で切り貼りの目印になる部位かどうか」を予測するin silico(コンピュータ上)の予測ツールです。開発したのはIllumina社の研究チームで、2019年に『Cell』誌で発表されました[1]。それまでの予測手法を大きく上回る精度を示したことで、現在では遺伝子診断の現場で広く使われるようになっています。
SpliceAIには大きく2つの働きがあります。1つは「1本のDNA配列を読み、どこがスプライシングの目印(ドナー部位・アクセプター部位)かを地図のように示す」こと。もう1つが臨床でとりわけ重要で、「ある変異を入れる前と後の配列を比べ、その変異がスプライシングをどれだけ乱すか」を確率として数値化することです。この確率が、のちほど詳しく説明するDelta Scoreです。数値が高いほど、変異がスプライシング異常を引き起こす可能性が高いと解釈します。
💡 用語解説:スプライシングとは?
遺伝子からタンパク質を作るとき、DNAはいったん前駆体mRNA(pre-mRNA)という下書きに写し取られます。この下書きには、タンパク質の情報を持つ「エクソン」と、はさまれた不要部分「イントロン」が交互に並んでいます。スプライシングとは、このイントロンを正確に切り取り、エクソン同士をつなぎ合わせて完成版mRNAを作る編集作業のことです。イントロンの始まりには「GT」、終わりには「AG」という決まった目印があり、これをスプライソソームという巨大な装置が読み取って作業します。
なぜこの予測が診療で重要なのでしょうか。それは、遺伝性疾患やがんの原因となる変異のうち、無視できない割合が「スプライシングを乱すタイプ」だからです。SpliceAIの原著論文では、希少遺伝性疾患の病原性変異のうち、これまで見過ごされがちだったスプライシング異常に起因するものが相当数にのぼると報告されています[1]。こうした変異を配列だけから拾い上げられる点に、SpliceAIの大きな価値があります。
2. なぜ「AIでスプライシングを予測する」必要があったのか
従来の遺伝子診断では、GT/AGという典型的な目印(カノニカルスプライス部位)を直接壊す変異なら、比較的すぐに見つけられました。難しいのは、目印から少し離れた場所や、エクソンからはるか遠くの「深いイントロン(ディープイントロン)」に潜む変異です。これらは全エキソームシーケンス(WES)では検出しづらく、たとえ全ゲノムシーケンス(WGS)で見つかっても、それがスプライシングに影響するのかを判断できませんでした。
💡 用語解説:クリプティックスプライシング(隠れた目印の暴走)
DNAの中には、本来は使われないものの、スプライシングの目印によく似た「そっくりさん」の配列があちこちに眠っています。変異によってこの潜在的な目印(クリプティックスプライス部位)が突然「本物」として働き始めると、mRNAの切り貼りが狂います。その結果、本来ないはずの偽エクソンが紛れ込んだり、必要なエクソンが飛ばされたりします。深いイントロンの変異が病気を引き起こす主な仕組みがこれで、配列だけからこの現象を予測できるのがSpliceAIの強みです。
実際にRNAを取り出して調べる「RNAシーケンス」なら、こうした異常を直接観察できます。しかしスプライシングは臓器ごとに大きく異なり、脳や心筋など病気に関係する組織を生検で採取するのは、多くの場合とても困難です。そこで、どんな組織のサンプルも要らず、DNA配列さえあれば予測できる計算ツールが強く求められていました。この空白を、深層学習で一気に埋めたのがSpliceAIだったのです[1]。
💡 用語解説:臓器ごとに「使う/飛ばす」を決めているのは誰?
体のどの細胞も、持っているDNAの設計図はまったく同じです。それでも脳・心臓・肝臓が違う働きをできる秘密のひとつが、臓器ごとにスプライシングの「切り貼りの仕方」を変えていることにあります。では、いったい誰が「このエクソンは使う/これは飛ばす」を決めているのでしょうか。
鍵を握るのは、「スプライシング因子」と呼ばれる調節役のタンパク質たち(SRタンパク質やhnRNPなどの仲間)です。この調節役は臓器ごとに「どの種類が、どれくらいの量あるか」が違います。脳に多い調節役、筋肉に多い調節役、というように顔ぶれが異なるのです。
これらの調節役は、pre-mRNA(下書き)の上にある目印の配列にくっつきます。目印には2種類あり、「ここを使え」とスプライソソームを呼び込むアクセル役(スプライシングエンハンサー)と、「ここは飛ばせ」と抑えるブレーキ役(スプライシングサイレンサー)です。つまり、臓器ごとに違う調節役が、その目印にくっついてアクセルとブレーキを踏み分けることで、同じ設計図から「このエクソンは使う/これは飛ばす」が決まっていきます。
その結果、同じ遺伝子からでも臓器ごとに少し形の違うタンパク質(アイソフォーム)が作られます。料理でたとえるなら、同じレシピでも「その台所にある調味料(=調節役)」が違うから、家庭ごとに違う味に仕上がるイメージです。だからこそ、ある変異が「脳ではスプライシングを狂わせるのに、血液では問題を起こさない」という臓器差が生まれます。そしてこの差は臓器のサンプルがないと直接は分からないため、配列だけから予測するSpliceAIや、臓器別に予測するPangolin・AbSpliceが役立つのです。
3. SpliceAIの仕組み:深層残差CNNと「広く見渡す」畳み込み
SpliceAIの技術的な核心は、人間が「ここが重要」と手作業で特徴を教え込むのではなく、大量のデータからスプライシングのルールをAI自身に学ばせる「エンドツーエンドの深層学習」を採用した点にあります[1]。具体的には、32層からなる深層残差畳み込みニューラルネットワーク(ResNet型のCNN)という構造を使います。塩基配列をコンピュータが扱える数値(4種類の塩基を0と1で表すワンホット表現)に変換し、複数の「残差ブロック」を通しながら、配列に潜むスプライシングの文法を段階的に抽出していきます。
💡 用語解説:残差ネットワーク(ResNet)と拡張畳み込み
残差ネットワーク(ResNet)は、層をとても深く積み重ねても学習が破綻しないよう、途中に「近道(スキップ接続)」を設けたAIの設計です。SpliceAIでは数個の残差ブロックごとにこの近道を挟み、深いネットワークを安定して学習させています。
拡張畳み込み(Dilated Convolution)は、フィルタの間にすき間を空けて配列を「飛び石」で読む工夫です。計算量をあまり増やさずに、遠くの塩基まで見渡せる範囲(受容野)を一気に広げられます。スプライシングは、目印のすぐ近くだけでなく数千塩基も離れた制御配列(エンハンサー・サイレンサー)に左右されるため、この「広く見渡す力」が精度の鍵になりました。
最も強力な構成である「SpliceAI-10k」は、注目する塩基の前後それぞれ5,000塩基、合計1万塩基(10kb)もの周辺配列を見渡して判断します。ネットワークの終わりでは、余分な両端を切り落としたうえで、各塩基が「ドナー部位」「アクセプター部位」「そのどちらでもない」のいずれである確率を出力します。学習には、染色体を訓練用とテスト用に厳密に分ける方法や、配列がよく似た重複遺伝子・偽遺伝子をテスト側から取り除く工夫が施され、AIが「丸暗記」ではなく本当に一般化して予測できるよう設計されています[1]。
4. Delta Scoreの読み方:4つのカテゴリと3つの目安
Delta Scoreは、正常な配列と変異を入れた配列の予測を比べ、スプライシングの確率が最も大きく変わった量を0〜1で表したものです。変異解釈では、次の4つのカテゴリごとにスコアが出力され、通常はその中の最大値を代表値として扱います[2]。「Gain(獲得)」は新しい目印ができること、「Loss(喪失)」は本来の目印が失われることを意味します。
同時に、変化が変異の位置から何塩基離れて起こるかを示す「Delta Position(DP)」も出力されます。下流ならプラス、上流ならマイナスで示され、これを手がかりにエクソンスキッピングやイントロン保持、偽エクソン化といった具体的な異常の中身まで塩基レベルで推測できます[2]。Illumina社は解釈の目安として、見逃しを避ける「高感度」の0.2、感度と正確さのバランスをとる「推奨」の0.5、誤検出を極力減らす「高精度」の0.8という3つの閾値を示しています[2]。
5. ACMG/AMP・ClinGenでの臨床応用:どの数字で何を判定するか
臨床で変異の意味を判定するときは、米国医学遺伝・ゲノム学会(American College of Medical Genetics and Genomics;ACMG)と分子病理学会(AMP)が定めた標準ガイドラインに従います。この枠組みには、スプライシングへの影響に関わる証拠コード(PP3、BP4、BP7など)がありますが、SpliceAIのスコアをどの数字でこれらに当てはめるかは、長らく明確な合意がありませんでした。
この不確かさを解消したのが、Clinical Genome Resource(ClinGen)のSVIスプライシング作業部会です。多数の予測ツールと実験データを大規模に比較した結果、SpliceAIは最も高い精度を示し、スプライス部位近傍の変異評価における事実上の基準ツールと位置づけられました[3]。ガイドラインが示す運用の目安は次のとおりです[3]。
💡 用語解説:PP3・BP4・BP7とは?
これらは、変異が病気の原因かどうかを判定する「証拠コード」です。PP3は「計算予測が病原性を支持する(弱い証拠)」、BP4は「計算予測が良性を支持する」、BP7は「アミノ酸を変えない同義変異やイントロン変異でスプライシングに影響しない」ことを示すコードです。病原性寄りに0.2以上で寛容な閾値が採用されたのは、臨床では「見逃し(偽陰性)」をより重く見るため。ただしPP3はあくまで補助的な弱い証拠で、これだけで病気と確定はできません。
では、確定診断にはどうつなげるのでしょうか。AIの予測がいくら高精度でも、変異を「病原性あり」と確定し、より強い証拠コード(機能アッセイによるPS3など)を適用するには、実験による裏づけが欠かせません。患者さんの組織が採取しにくい遺伝性疾患では、プラスミドを用いた「ミニジーンアッセイ」という試験管内の検証法が費用対効果に優れ、ClinGenからも推奨されています[4]。SpliceAIでVUSに優先順位をつけ、ミニジーンで確かめる——この組み合わせが、今日の理想的なワークフローとされています[4]。
6. SpliceAIの限界:偽陽性・組織特異性・ライセンス
SpliceAIは革命的でしたが、普及が進むにつれいくつかの限界も見えてきました。第一に偽陽性(実際には影響がないのに「影響あり」と出る)の多さです。見逃しを避ける設計思想のため、特に働きの弱い目印や中間的な使われ方をする部位で、影響を過大に見積もる傾向があります。学習データにRNAシーケンス由来のノイズが多く含まれていたことが一因と考えられています[5]。
第二に、実務上の注意点として、SpliceAIには生の予測スコア(raw)と、既知のスプライス部位周辺の変化を差し引いた補正スコア(masked)があり、目的に応じて使い分けが必要です。また、1塩基置換に比べて長い挿入・欠失(インデル)の扱いは苦手で、結果は慎重に解釈する必要があります。第三に、Illumina社のオリジナルは学術・非営利利用は無料でも、臨床検査会社が診断に使う場合は商用ライセンスが必要で、これがオープンな活用の壁になっていました[2]。
💡 用語解説:組織特異的スプライシングとは?
体のすべての細胞は同じDNAを持っていますが、脳・心臓・肝臓では異なる形のタンパク質(アイソフォーム)が作られます。これは臓器ごとにスプライシングのパターンが違うためです。オリジナルのSpliceAIは「ある塩基が目印かどうか」を配列だけから一律に判定するので、「この変異は脳でだけ機能を失わせる」といった臓器ごとの違いを予測できません。この弱点を克服することが、次世代モデル開発の大きな動機になりました。
こうした課題に応えて、コミュニティからは改良版のオープンソース実装が生まれました。RNAシーケンス由来のノイズを取り除いて偽陽性を大幅に減らしたCI-SpliceAI[5]や、古い枠組みを現代的なPyTorchで作り直し、ヒト以外の生物種への再学習も容易にしたOpenSpliceAI[6]などです。OpenSpliceAIは、配列類似性の高い重複遺伝子を厳格に除外してデータの漏れを防ぐなど、評価の信頼性も高めています[6]。
7. 派生モデルと組織特異的予測:Pangolin・AbSplice・Splam
2022年に発表されたPangolinは、組織特異性の問題に正面から取り組みました。ネットワークの最終層を工夫し、心臓・肝臓・脳・精巣という4つの組織それぞれについてスプライス部位の強さを同時に予測できるようにしたのです。これにより、非コード領域の変異が「特定の臓器でだけ機能を失わせる」現象を高い精度で捉えられるようになりました[7]。
2023年のAbSpliceは、さらに大胆な発想でした。DNA配列だけの予測には性能の壁があると見抜き、GTExプロジェクトの大規模なRNAシーケンスから作った「実際に各組織でどの目印がどれだけ使われるか」の地図(SpliceMaps)を、計算予測と統計的に組み合わせたのです。この統合により、DNA情報だけの場合に比べて同じ感度での適合率が大きく向上し、血液や皮膚など採取しやすい組織のRNA情報を加えると、目的の臓器での予測精度がさらに跳ね上がると報告されています[8]。
一方、ジョンズ・ホプキンス大学のSplamは逆の方向を選びました。細胞内で実際に目印が認識される範囲は局所的だという生物学的な事実に基づき、ドナーとアクセプターをペアとして扱いながら、周囲わずか合計800塩基だけで高精度を達成しています。しかもRNAシーケンス解析で生じる「偽のつなぎ目」を見分けて取り除く実用ツールとしても使われています[9]。さらに、自然言語処理の技術を応用したモデルも登場しました。72種の脊椎動物のRNA配列から進化的な「文法」を学んだSpliceBERT[10]や、一度に最大45,000塩基という広大な文脈を読むTransformer型のSpliceformer[11]です。
スプライシング予測AIが一度に読む配列の長さ(入力コンテキスト)
横棒は対数スケール。長いほど遠くの制御領域まで参照できます
入力できる配列が長くなるほど、遠く離れたエンハンサーやサイレンサーとの関係まで捉えられます。SpliceAIの1万塩基からAlphaGenomeの100万塩基へと、参照範囲は飛躍的に拡大しました。
8. AlphaGenome:2次元表現による次世代の飛躍(2026年)
SpliceAIの登場から7年後の2026年1月、Google DeepMindが『Nature』誌でAlphaGenomeを発表しました[12]。SpliceAIやPangolinを含む従来モデルは、DNAを一直線に読み、各位置がドナーかアクセプターかを別々の確率として出す「1次元」の設計でした。しかしスプライシングは本質的に、あるドナー部位が、遠く離れた「特定の」アクセプター部位を見つけて結び合う「ペアリング(対の形成)」の問題です。1次元モデルは、この空間的な結びつきを明示的に表現しにくいという弱点を抱えていました。
💡 用語解説:2次元(ペアワイズ)表現とは?
タンパク質構造予測のAlphaFoldが、アミノ酸どうしの「接触マップ」で立体構造を捉えたのと同じ発想です。AlphaGenomeは、配列を一直線に読む1次元の表現に加え、ゲノム上の「どの部分とどの部分が相互作用するか」を2次元のマップとして扱う表現を併せ持ちます。これにより、遠く離れた領域どうしの関係を直接的に表現できるようになりました。
AlphaGenomeはU-Netという構造を土台に、最大100万塩基(1Mb)もの配列を1塩基の解像度を保ったまま処理します[12]。ここで正確に理解しておきたいのは、2次元表現の役割です。原著論文によれば、AlphaGenomeが持つ2次元のペアワイズ表現は、主にクロマチンの立体的な折りたたみ(エンハンサー・プロモーターのループ)を予測するためのものです。一方でスプライスジャンクションの予測には、ドナーとアクセプターの1次元表現どうしの相互作用を捉える専用の仕組みが使われています[12][13]。つまり「2次元だけがスプライシングを解決した」という単純な話ではなく、長距離の結びつきを表現できる設計全体が、つなぎ目(結合関係)そのものを直接出力する力につながっているのです。
その性能は際立っており、AlphaGenomeはスプライシングに特化した専門モデルと比較した7つのベンチマークのうち6つで最高性能を記録しました[12]。さらにこのモデルは、遺伝子発現量やクロマチン構造など11種類の分子特性を同時に予測できるため、ある変異が「スプライシングを乱すだけでなく、遺伝子の発現量までどう変えるか」を、1台のGPU上で短時間に包括的にシミュレーションできます[12]。スプライシング予測AIは、単なる「異常のフラグ立てツール」から、分子の文脈全体を統合的に読み解くエンジンへと進化しつつあります。
こうした予測技術の進歩は、治療にも直結します。スプライシングを狙って修正するアンチセンスオリゴヌクレオチド(ASO)は、すでに脊髄性筋萎縮症(SMA)などで実用化されています。AIが原因となるスプライシング異常を精密に突き止められれば、核酸医薬を用いた個別化医療への橋渡しがいっそう進むと期待されます。
9. よくある誤解
誤解①「スコアが高ければ病気と確定できる」
SpliceAIのスコアは病原性を「支持する」弱い証拠にすぎません。確定には、ミニジーンアッセイなどの機能的な検証が別途必要です。数字だけで診断を下すことはできません。
誤解②「AIだから必ず正しい」
SpliceAIは偽陽性(影響がないのに影響ありと出る)が出やすい設計です。また臓器ごとの違いは予測できません。あくまで判断材料の一つとして、他の証拠と組み合わせて解釈します。
誤解③「スコアが低ければ完全に安心」
0.1以上0.2未満は「判定保留」の不確定領域で、計算モデル単独では良性とも病原性とも判定しません。低スコアも「影響がなさそう」という一情報にとどめて解釈することが大切です。
誤解④「SpliceAIがあれば他のツールは不要」
実際には、実測データを取り込むAbSpliceや、どんな異常が起こるかを補う手法など、目的に応じて複数のツールを組み合わせるのが現在の実務です。SpliceAIは強力な出発点という位置づけです。
よくある質問(FAQ)
🏥 遺伝子検査の結果・VUSのご相談
スプライシングに関わる変異や意義不明バリアント(VUS)の解釈は
専門的な評価が必要です。遺伝子検査の結果でお悩みの方は
臨床遺伝専門医が在籍するミネルバクリニックにご相談ください。
参考文献
- [1] Jaganathan K, et al. Predicting Splicing from Primary Sequence with Deep Learning. Cell. 2019. [PubMed 30661751]
- [2] Illumina/SpliceAI: A deep learning-based tool to identify splice variants. GitHub. [GitHub]
- [3] Using the ACMG/AMP framework to capture evidence related to predicted and observed impact on splicing: Recommendations from the ClinGen SVI Splicing Subgroup. Am J Hum Genet. 2023. [PubMed 37352859]
- [4] Evaluation of the Impact of Variants on Splicing through the Combined Use of In Silico Tools and Minigene Assays. PMC. [PMC11919142]
- [5] CI-SpliceAI—Improving machine learning predictions of disease causing splicing variants using curated alternative splice sites. PMC. [PMC9165884]
- [6] OpenSpliceAI: An efficient, modular implementation of SpliceAI enabling easy retraining on non-human species. eLife. [eLife 107454]
- [7] Zeng T, Li YI. Predicting RNA splicing from DNA sequence using Pangolin. Genome Biol. 2022. [PMC9022248]
- [8] Wagner N, et al. Aberrant splicing prediction across human tissues (AbSplice). Nat Genet. 2023. [PubMed 37142848]
- [9] Chao KH, et al. Splam: a deep-learning-based splice site predictor that improves spliced alignments. PMC. [PMC10402160]
- [10] Self-supervised learning on primary RNA sequences from 72 vertebrates improves sequence-based RNA splicing prediction (SpliceBERT). Brief Bioinform. 2024. [PubMed 38605640]
- [11] New AI method improves Gene Splicing Prediction (Spliceformer-45k). deCODE genetics. [deCODE]
- [12] Avsec Ž, et al. Advancing regulatory variant effect prediction with AlphaGenome. Nature. 2026. DOI:10.1038/s41586-025-10014-0. [論文PDF]
- [13] AlphaGenome: AI for better understanding the genome. Google DeepMind. [DeepMind Blog]



