InstagramInstagram

臨床試験のエンドポイント(評価項目)とは?意味・種類・最新動向をわかりやすく解説

仲田洋美 医師

この記事の監修:仲田洋美(臨床遺伝専門医)

のべ10万人以上の意思決定に伴走。国際医療誌『Medical Care Review APAC』『Global Woman Leader』の2誌で表紙を飾り、「Top Prenatal Testing Service in APAC 2025」に選出されるなど、世界基準の遺伝医療を提供。

新しい薬や検査が「本当に効くのか」を科学的に確かめるのが臨床試験です。その成否を決定づける最大の要素が、エンドポイント(評価項目)——すなわち「効いたかどうかを判定するためのものさし」の選び方です。同じ薬でも、何をものさしにするかで「成功」にも「失敗」にもなり得ます。だからこそ評価項目は試験を始める前に厳密に決めておく必要があり、後から都合よく変えることは原則として許されません。本記事では、主要評価項目・サロゲートエンドポイント・複合エンドポイントといった基本から、近年最大のパラダイム転換である「エスティマンド」まで、遺伝医療の臨床試験ともつなげながら、一般の方にもわかる言葉で臨床遺伝専門医が解説します。

この記事でわかること
📖 読了時間:約18分
🧬 評価項目・サロゲート・エスティマンド
臨床遺伝専門医監修

Q. 臨床試験の「エンドポイント(評価項目)」とは何ですか?まず結論だけ知りたいです

A. エンドポイント(評価項目)とは、ある薬や治療が「効いたかどうか」を判定するために、試験を始める前にあらかじめ決めておく結果の指標(ものさし)です。最も重視するものを「主要評価項目」と呼び、これが試験の成否と必要な参加人数を決めます。患者さんが実感できる「生存・症状・生活の質」を直接みる臨床的評価項目と、それを先読みするサロゲート(代替)エンドポイントに大きく分かれます。試験開始後に評価項目を後付けで変えることは、結果をゆがめるため原則として認められません。

  • エンドポイントの正体 → 治療効果を測る「ものさし」。試験開始前に厳密に決めておくのが鉄則
  • 2つの大分類 → 患者が実感できる「臨床的評価項目」と、それを先読みする「サロゲート(代替)評価項目」
  • 統計のキモ → 主要評価項目が試験の成否と必要人数を決め、多重性の管理が「まぐれ当たり」を防ぐ
  • 最新の枠組み → ICH E9(R1)の「エスティマンド」が、途中の中止や別治療まで設計に組み込む
  • 遺伝医療との接点 → 遺伝子治療・核酸医薬・出生前スクリーニングの「効いた/当たった」を判定する物差し

\ 遺伝子検査や臨床試験について専門医に相談したい方へ /

📅 遺伝カウンセリングを予約する

出生前診断・遺伝子検査に関するご相談:遺伝子検査について

1. エンドポイント(評価項目)とは:治療効果を測る「ものさし」

臨床試験におけるエンドポイント(評価項目)とは、試験の目的に答え、介入(薬や治療)の医学的な効果を数量的に評価するために使う「結果の指標」のことです。単なるデータの収集ポイントではなく、試験が成功か失敗かを決める統計的・臨床的な判断のよりどころになります。そのため、どんな評価を、いつ、どの道具で測り、患者さん一人ひとりの複数の結果をどう統合するかまで、すべて試験計画(プロトコル)の段階で明文化しておくことが求められます。

無作為化試験(くじ引きで治療群を分ける試験)の基本原則のひとつは、評価項目を試験開始前にあらかじめ決めておく(事前規定する)ことです[1]。これを怠ると、データを見てから都合のよい指標を選び直す「後付けの解釈」を招き、試験の科学的な信頼性が大きく損なわれます。進行中に新たな科学的知見が出て評価項目の変更が正当化される場合もありますが、その際は変更の経緯や統計的な調整を透明に文書化することが規制当局から強く求められます[1]

💡 用語解説:事前規定(じぜんきてい)

試験を始める前に「何を・どう測って・どう判定するか」を文書で確定しておくことです。結果を見てからルールを変えると、サイコロを振った後に「どの目が出たら勝ち」を決めるのと同じで、フェアな勝負になりません。事前規定は、バイアス(かたより)を防ぎ、結果を信頼できるものにするための約束ごとです。

米国食品医薬品局(FDA)と米国国立衛生研究所(NIH)は、評価項目やバイオマーカーに関する用語を共通化するため、BEST(Biomarkers, EndpointS, and other Tools)という枠組みを共同で提供しています[2]。BESTは「測定する道具(バイオマーカーや評価ツール)」と、それを統計的に解析して仮説を検証する「エンドポイント」を明確に区別し、関係者の間で言葉のあいまいさをなくす役割を果たしています[2]

そして本記事の主題である遺伝医療の文脈では、この「ものさし」の考え方が直接効いてきます。遺伝子治療や核酸医薬が「効いた」のか、出生前スクリーニングが「当たった」のかを判定するのも、すべてエンドポイントです。後半では、希少な遺伝性疾患や出生前検査の場面で評価項目がどう使われるのかを具体的に見ていきます。

2. 評価項目の階層:主要・副次・探索的

試験で測る評価項目は、その重要度に応じて階層的に整理されます。この階層は、必要な参加人数(サンプルサイズ)の計算や、規制当局の承認審査の土台になります。

💡 用語解説:主要・副次・探索的評価項目

主要評価項目(プライマリ)は、試験で最も重視する「本命」のものさしです。新薬と対照(プラセボや標準治療)の差をここで比べ、試験が目的を達成したかを最終判定します。

副次評価項目(セカンダリ)は、本命を補強したり、別の側面(長期安全性や特定の患者群での効果)をみる「脇役」です。

探索的評価項目は、頻度が低くて単独では証明しきれない事象や、新しい仮説を探すための「お試し」の指標です。承認の根拠にはなりません。

国際的な統計ガイドラインであるICH E9(臨床試験のための統計的原則)は、原則として主要評価項目は1つに絞ることを強く推奨しています[3]。必要なサンプルサイズは通常この主要評価項目をもとに計算され、検出すべき効果の大きさ、許容する誤判定の確率などから決まります[3]。一方で、盲検を解除した後に主要評価項目を定義し直すことは、深刻なバイアスを招くため、規制上ほぼ例外なく認められません[4]。副次評価項目も無秩序に増やすと「たまたま有意」を拾うリスクが上がるため、数を絞り、あらかじめ決めた順序で検定する「階層的アプローチ」が用いられます[3]

💡 用語解説:ハードエンドポイント・ソフトエンドポイント

評価項目には、誰が測ってもほぼ結果が変わらない客観的なハードエンドポイント(死亡、脳卒中の発生など)と、主観や測り方の影響を受けやすいソフトエンドポイント(痛みのスコア、生活の質など)があります。ハードは信頼性が高い反面、起こるまでに時間と大人数が必要です。ソフトは患者さんの実感に近い反面、測定ツールの精度がものを言います。どちらが良い・悪いではなく、疾患と目的に合うものを選ぶのが大切です。

3. 臨床的評価項目とサロゲートエンドポイント

評価項目は、測る事象が患者さんの状態を「そのまま」表すか、「先読み」するかで2つに大別されます。

💡 用語解説:臨床的評価項目とサロゲートエンドポイント

臨床的評価項目は、患者さんが「どう感じ、どう動け、どれだけ生きるか」という直接の利益を表します。生存期間の延長、痛みの軽減、感染症の回避などです。

サロゲートエンドポイント(代替評価項目)は、その利益そのものではなく、利益を「予測すると期待される」指標です。血圧やウイルス量、画像所見など、多くはバイオマーカーが使われます。

とりわけ腫瘍学では、全生存期間(OS:死亡までの時間)が、客観的で意味が明確な「ゴールドスタンダード」の臨床的評価項目とされてきました[7]。しかし慢性疾患や進行の遅い病気では、死亡や明確な機能低下が起こるのを待つのに膨大な年月と数千人規模の参加者が必要になり、コストが跳ね上がります。そこで、より早く判定できるサロゲートエンドポイントが活用されます。サロゲートの最大の利点は、サンプルサイズの削減・試験期間の短縮・有効な治療の迅速な普及です[5]

腫瘍学の評価項目 意味(やさしい説明)
全生存期間(OS) 治療開始から死亡までの時間。最も意味が明確な「本物」の指標。
無増悪生存期間(PFS) がんが進行(悪化)するか亡くなるまでの時間。OSより早く測れる代替指標。
無病生存期間(DFS) 根治的治療から、再発・新たながん・死亡までの時間。
客観的奏効率(ORR) 腫瘍が一定以上小さくなった患者さんの割合。
病理学的完全奏効(pCR) 術前治療後の切除標本に、がんの残存がない割合(あり・なしで判定)。

サロゲートの「格付け」:3つの段階

FDAは、サロゲートエンドポイントを「臨床的な裏付けの強さ」に応じて3段階に厳密に分類しています[5]。単に臨床結果と相関しているだけでは不十分で、どこまで検証されているかが問われます。

段階 位置づけ
妥当性が確認済み 明確な生物学的根拠と強力なデータで裏付け。新たな試験なしに完全承認の根拠になり得る。
合理的に予測可能 迅速承認を支える段階。承認後に本物の利益を確かめる「市販後の確証試験」が義務づけられる。
候補 予測能力をまだ評価・研究中。探索的に使われる段階。
サロゲートエンドポイントの妥当性確認プロセス 候補 合理的に予測可能 (迅速承認の対象) 妥当性確認済み 治療 サロゲート 臨床的利益 科学的証拠の蓄積で段階が上がるほど、承認の根拠として強くなる

サロゲートは「候補」から始まり、証拠の蓄積を経て「妥当性確認済み」へ昇格します。治療がサロゲートを介して臨床的利益につながる、という因果のつながりが鍵になります。

実例として、HIV感染症では血中ウイルス量(HIV RNA)の低下、B型肝炎ではウイルス量の減少、インフルエンザワクチンでは血中抗体価の上昇などが、長期の生存率を待たずに有効性を判定する強力なサロゲートとして機能してきました[6]。がん領域では、PARP阻害薬などの試験でPFSやOSの延長が示された例があり、評価項目の使い分けが治療開発を加速しています(くわしくはPARP阻害薬の解説もご覧ください)。

サロゲートを「効く証拠」と認めてよいか:Prenticeの基準

あるバイオマーカーが本物の利益を「予測する」と統計的に裏付けるのは、とても難しい作業です。その評価で最も厳格な枠組みがPrenticeの基準です[8]

💡 用語解説:Prenticeの基準(4条件)

サロゲートが本物の評価項目の「身代わり」になれるかを判定する4つの条件です。

  • 治療が本物の評価項目(生存など)に効果を及ぼす
  • 治療がサロゲートに効果を及ぼす
  • サロゲートが本物の評価項目と強く関連する
  • 本物への治療効果が、サロゲートで「完全に」説明される(最も証明が難しい)

注意したいのは、この基準を満たしても「サロゲートに効いたから本物にも効く」とまでは保証されない点です。Prenticeの基準は「必要条件だが十分条件ではない」とされ、単一試験での評価はあくまで探索の道具にとどまります。

この「逆は必ずしも真ならず」という落とし穴は、複数の研究でくり返し指摘されてきました[9]。そのため、真に妥当なサロゲートを見極めるには、独立した複数の試験を統合する「メタアナリシス」レベルの検証が欠かせません[8]

💡 用語解説:メタアナリシス

複数の臨床試験の結果を統計的にまとめて、一段高い視点から結論を出す手法です。一つの試験では「偶然」かもしれない関係も、多くの試験を束ねると本物かどうかが見えてきます。サロゲートが本当に信頼できるかを判定するには、この「試験をまたいだ検証」が必要になります。

4. 複合エンドポイントと「多重性」の管理

複雑な病気では、ひとつのものさしだけで治療の利益を測りきれないことがあります。そこで複数の事象を組み合わせたり、複数の評価項目を立てたりしますが、ここに統計的な落とし穴があります。

💡 用語解説:複合エンドポイント(MACE)

複数の事象を「いずれか1つでも起きたら1件」とまとめて数える評価項目です。循環器の試験でよく使われるMACE(心血管死・心筋梗塞・脳卒中のいずれか)が代表例です。イベントの総数が増えるので統計的な効率が上がり、必要人数を減らせる利点があります。

下のグラフは、降圧薬を比較した大規模試験(ロサルタン vs アテノロール)で、複合エンドポイントがどう働いたかを示すものです[10]。心筋梗塞だけを見ると両群に差はありませんが、心血管死と脳卒中を含めた複合全体で見ると差がはっきり検出されました。

複合エンドポイント(主要評価項目)の発生割合

心血管死・脳卒中・心筋梗塞のいずれかが起きた割合

11%
13%

ロサルタン群

508件

アテノロール群

588件

内訳:脳卒中はロサルタン232件 / アテノロール309件と差が大きい一方、心筋梗塞は198件 / 188件とほぼ同じ。複合にまとめることで全体の差が統計的に検出されました。

ただし複合には注意点もあります。患者さんにとって重要度の低いイベント(例:軽い入院)が複合全体の改善を牽引してしまうと、本当の臨床的利益が見えにくくなります。そのためFDAのガイダンスは、複合を主要評価項目にする場合でも、構成要素を一つずつ個別に精査するよう指導しています[4]。近年は、重い事象から順に重みづけして勝敗を数える「win ratio(勝率比)」のように、重要度を反映する新しい複合の作り方も広がっています。

複数の主要評価項目 vs 共同主要評価項目

主要評価項目を2つ以上立てる場合、「どれか1つで成功すればよい」のか「すべてで成功が必要」なのかで、統計の扱いが根本的に変わります[4]

💡 用語解説:第一種過誤・第二種過誤・検出力

第一種過誤(αエラー)は「本当は効かないのに効いたと誤判定する」あわてんぼうの誤り。第二種過誤(βエラー)は「本当は効くのに効かないと見逃す」ぼんやりの誤り。

見逃さない力を検出力(パワー)と呼びます。評価項目をいくつも検定すると、どれか1つが「まぐれで有意」になる確率(第一種過誤)が増えてしまうため、多重性調整(Bonferroni法など)であらかじめ基準を厳しくしておきます。

複数の主要評価項目(どれか1つで成功)は柔軟ですが、まぐれ当たりの危険(第一種過誤の増大)に対処する多重性調整が必須です[4]。一方、共同主要評価項目(すべてで成功が必要)は、たとえばアルツハイマー病で「認知機能」と「生活機能」の両方の改善を求めるような場合に使われます。すべて成功が条件なので第一種過誤は増えませんが、両方で有意差を出すのは過酷で、見逃し(第二種過誤)が増え、検出力が下がります。FDAは、検出力を補うためにα水準を緩めること(例:0.05を0.06に上げる)は認めず、代わりにサンプルサイズを大幅に増やすことを求めています[4]

仲田洋美院長

🩺 院長コラム【「PFSが延びた」を、どう受け止めるか】

私はがん薬物療法を専門に、成人のがん患者さんの治療に長く携わってきました。診療の現場では、「新しい薬でPFS(無増悪生存期間)が延びました」という報せをよく耳にします。患者さんやご家族は当然「じゃあ長生きできるんですね」と受け取られます。けれども、PFSはあくまでサロゲート(代替指標)であり、必ずしもOS(全生存期間)の延長を保証しないことがあります。

だからこそ私は、効果を伝えるときに「何のものさしで測った結果なのか」を必ず添えるようにしています。サロゲートの改善は希望ですが、過大評価も過小評価もしないこと——評価項目の意味を正しく共有することが、納得して治療を選んでいただくための第一歩だと考えています。

5. ICH E9(R1) エスティマンド:現代の最重要キーワード

近年、臨床試験の設計に最大の転換をもたらしたのが、ICH E9の補遺として導入された「ICH E9(R1) エスティマンドと感度分析」の枠組みです[11]。これは「治療効果」という言葉が誤解されないよう、試験の目的・設計・解析・解釈の整合性を確保することを目的にしています。

💡 用語解説:エスティマンド(5つの属性)

エスティマンドとは「知りたい臨床的な問いに正確に答えるために、何を推定すべきか」を精密に定義した治療効果の対象です。次の5つの属性で規定されます。

  • 治療(関心のある治療条件)
  • 対象集団(どんな患者さんか)
  • 変数・エンドポイント(何を測るか)
  • 併発事象への対応(途中の中止や別治療をどう扱うか)
  • 集団レベルの要約(平均の差・ハザード比などの比べ方)

この中で最も重要かつ難しいのが「併発事象」の扱いです。試験開始後に起こり、評価に影響する出来事——副作用での自己中断、効果不十分による救済治療(レスキュー薬)の使用、死亡など——をどう反映するかで、計算される「治療効果」の意味そのものが変わります[12]

💡 用語解説:併発事象(へいはつじしょう)とは

無作為化(治療開始)の後に起こり、本来測りたい結果の観察を妨げたり、解釈を変えてしまう出来事のことです。大事なのは、これは「単なるデータの欠け(欠測)」ではなく、患者さんの治療経過で実際に起きた意味のある事象だという点です。だから「無視する」のではなく、「どう扱うか」を最初に決めます。

ICH E9(R1)は、併発事象への対応として次の5つの戦略を示しています[12]

戦略 考え方(やさしい説明)
治療方針(Treatment policy) 中止や別治療が起きても、起きた結果をすべて使う。実際の医療に最も近い「総合的な効果」をみる。
複合(Composite) 「救済治療の使用=治療失敗」のように、併発事象自体を結果の定義に組み込む。
治療継続中(While-on-treatment) 併発事象が起きる「前」の、治療を受けている間の結果だけをみる。
仮想(Hypothetical) 「もし救済治療がなかったら」という仮想の状況での効果をみる(純粋な薬理効果の問い)。
主要層別(Principal stratum) 「併発事象を起こさない」性質をもつ患者群に絞って効果をみる。

どの戦略を選ぶかで「治療効果」の意味が変わるため、専門家の間でも議論があります。実世界の意思決定に役立つ厳密な結論を導くには、従来のITT(治療企図解析)原則に近い「治療方針戦略」を中心に据えるのが信頼性が高い、とする見方が有力です[12]

💡 用語解説:ITT(治療企図解析)

「割り付けられたとおりに解析する」という原則です。途中で薬をやめた人や別の治療に移った人も、最初に割り付けられたグループのまま結果に含めます。現実の医療では中止や変更が日常的に起こるため、ITTは無作為化の公平さを守り、実臨床に近い効果を捉えるための土台になります。

6. 臨床転帰評価(COA)と患者の声

評価項目を実際に「測る道具」の総称が臨床転帰評価(COA)です。FDAは患者中心の医薬品開発を強く推進し、患者さんの視点を反映したCOAの質を厳しく審査しています[13]。COAは、誰が評価するかによって主に4種類に分かれます。

🗣️ 患者報告(PRO)

患者さん自身が直接報告。痛み・疲労・生活の質・治療満足度など。

🩺 臨床医報告(ClinRO)

訓練を受けた医療者が、観察できる徴候や行動を評価。

👀 観察者報告(ObsRO)

保護者や介護者が報告。乳幼児の痛みや認知症の行動評価で重要。

🏃 パフォーマンス(PerfO)

歩行テストなど、課題の遂行を客観的に測定。

PROは主観的なため、信頼性と妥当性の高い測定ツールづくりが課題です。とくに大切なのは、治療群間の「臨床的に意味のある違い」を検出できるだけの感度を持つこと。感度が低ければ、本当は効く薬でも試験が失敗に終わるリスクがあります[13]。さらに近年は、ウェアラブル機器で心拍・睡眠・活動量を自動で追うデジタルヘルス技術(受動的COA)の活用も進んでいます。

💡 用語解説:MCID(臨床的に意味のある最小差)

「統計的に有意」と「患者さんにとって意味がある」は別ものです。MCIDは、患者さんが実感できる最小限の変化量を指します。たとえばスコアが0.5点だけ動いても本人が違いを感じなければ、それは臨床的に意味のある差とは言えません。評価項目の結果を読むときは、「p値が小さい」だけでなく「変化の大きさが患者に意味があるか」を一緒に見ることが大切です。

7. 疾患領域別の最新動向

腫瘍学:OSを「安全性」の指標としても重視

がんの試験では、OSが有効性の主要評価項目として常に実現可能とは限らないため、PFSやORRなどのサロゲートが迅速承認に使われてきました。臓器を問わず特定の遺伝子変化だけを条件にするがん種横断的(Tumor-Agnostic)治療では、単群試験のORRが承認の根拠になることもあります。一方で近年FDAは、OSを「安全性」の評価項目としても重視する方針を打ち出しました[14]。これは、サロゲートが改善しても深刻な毒性で全生存期間がかえって縮む、というリスクを排除するためです。OSが主要評価項目でない場合でも、すべての無作為化試験でOSを評価し、有害性を除外することが求められるようになっています[14]

アルツハイマー病:早期開発でのバイオマーカー受容

早期アルツハイマー病では、認知や機能の低下がまだ最小限で、従来の認知機能スコアでは短期間に効果を捉えにくい問題があります。そこでFDAは、アミロイドβやタウといった病態を反映するバイオマーカー(脳画像など)をサロゲートとして主要評価項目に用いることを後押しする姿勢を明確にしました[15]。診断を症状ベースからバイオマーカーによる定義へ移す流れと調和し、登録基準と評価項目の双方でバイオマーカーの役割が広がっています。

希少疾患:新しい評価項目を育てるRDEA

希少疾患は患者数が極端に少なく、従来のプラセボ対照試験では十分な検出力を得るのが困難です。FDAは、有効性を立証する新規の評価項目開発を支援する「RDEA(希少疾患エンドポイント推進)パイロットプログラム」を立ち上げ、開発の初期段階からスポンサーと協働しています[16]。明確な遺伝的原因をもつ超希少疾患では、未治療患者の「自然歴」データを対照として活用する道筋も整えられています。

💡 用語解説:自然歴(しぜんれき/ナチュラルヒストリー)

治療をしなかった場合に、その病気が時間とともにどう進むかの記録です。患者さんが少なくプラセボ群を作りにくい希少疾患では、この自然歴を「比較の物差し(外部対照)」として使い、新しい治療の効果を評価することがあります。遺伝性疾患の治療開発では、自然歴研究そのものが治療への第一歩になります。

8. 遺伝医療とのつながり:遺伝子診断・遺伝子治療・遺伝カウンセリング

エンドポイントは抽象的な統計の話に見えますが、遺伝医療の現場と地続きです。とくに遺伝子治療や核酸医薬の臨床試験では、「何をものさしにするか」が治療開発の成否を左右します。

たとえば核酸医薬(オリゴヌクレオチド)の試験では、神経の障害を反映するバイオマーカー(ニューロフィラメント)の低下がサロゲートとして使われ、機能獲得型変異を標的とする予防的試験も進んでいます。ドラベ症候群を対象としたTANGO技術(STK-001)のように、「発作の減少」「生存率」「正常タンパク質の増加」といった評価項目が、遺伝性疾患の治療効果を測る具体的なものさしになっています。希少疾患では前述の自然歴データが対照として重要な役割を果たします。

出生前スクリーニングと「指標の妥当性」

出生前検査の世界でも、評価項目の考え方が役立ちます。NIPT(非侵襲的出生前検査)の「感度」「特異度」「陽性的中率(PPV)」は、検査という名の“ものさし”がどれだけ信頼できるかを示す指標です。スクリーニングはあくまで確率を示すもので、陽性=確定ではありません。サロゲートの妥当性を問う発想と同じく、検査の指標も「どこまで本当の状態を予測できるか」を冷静に読み解く必要があります。NIPTで気がかりな結果が出た場合の確定検査は、羊水検査・絨毛検査です。

遺伝カウンセリングが橋渡しをする

臨床試験の結果が患者さんやご家族の意思決定に届くまでには、専門家による翻訳が欠かせません。遺伝カウンセリングは、「その薬はどんなものさしで効果が示されたのか」「サロゲートなのか、本物の利益なのか」「未確立な点は何か」を中立的に共有し、決定をご家族に委ねる立場です。新しい遺伝子治療や臨床試験への参加を検討するときこそ、臨床遺伝専門医とともに評価項目の意味を理解することが、納得のいく選択につながります。

仲田洋美院長

🩺 院長コラム【「ものさし」を一緒に読み解く時間】

出生前診断や遺伝カウンセリングの外来では、「この検査はどこまで分かるのですか」「この治療は本当に効くのですか」というご質問をよくいただきます。臨床遺伝専門医として私が大切にしているのは、数字をそのまま渡すのではなく、その数字が「何をものさしにした結果なのか」を一緒に確かめることです。

サロゲートの改善は希望を与えてくれますが、それが本物の利益とイコールとは限りません。逆に、まだ評価項目が確立していない段階の治療を、過度に恐れる必要もありません。評価項目という「共通言語」を持つことは、ご家族が自分たちの価値観にそって落ち着いて選ぶための、静かな力になると感じています。

9. よくある誤解

誤解①「サロゲートが改善=寿命が延びる」

サロゲートは本物の利益を「先読み」する指標にすぎません。サロゲートが良くなっても、全生存期間などの本物の利益が伴わない場合があります。だからこそ妥当性の検証や、市販後の確証試験が重視されます。

誤解②「評価項目は多いほど良い」

評価項目を増やすほど「まぐれで有意」が出る確率(第一種過誤)が上がります。数を絞り、多重性調整を行うことで、はじめて結果を信頼できます。

誤解③「p値が小さければ意味がある」

統計的に有意でも、変化が小さければ患者さんには意味がないこともあります。MCID(臨床的に意味のある最小差)とあわせて読むことが大切です。

誤解④「途中でやめた人は除けばいい」

中止や別治療は「単なる欠測」ではなく意味のある事象です。エスティマンドの枠組みで、どう扱うかを最初に決めておくのが現代の考え方です。

よくある質問(FAQ)

Q1. エンドポイント(評価項目)を一言で言うと何ですか?

薬や治療が「効いたかどうか」を判定するための、あらかじめ決めておく結果の「ものさし」です。最も重視するものを主要評価項目と呼び、試験の成否と必要な参加人数を決めます。試験開始後にものさしを変えると結果がゆがむため、原則として変更は認められません。

Q2. 主要評価項目と副次評価項目は何が違うのですか?

主要評価項目は「本命」で、試験の最終判定に使われ、サンプルサイズの計算もこれをもとに行われます。副次評価項目は本命を補強したり、別の側面をみる「脇役」です。副次は無秩序に増やすと「たまたま有意」を拾うため、数を絞り、あらかじめ決めた順序で検定する「階層的アプローチ」が使われます。

Q3. サロゲートエンドポイントは信頼できるのですか?

サロゲートは本物の利益を「先読み」する便利な指標で、試験を早く・小さくできる利点があります。ただし、相関しているだけでは不十分で、FDAは「妥当性確認済み」「合理的に予測可能」「候補」の3段階で格付けしています。サロゲートが改善しても本物の利益が伴わないことがあるため、迅速承認の場合は承認後に確証試験が義務づけられます。

Q4. なぜ全生存期間(OS)が「ゴールドスタンダード」なのですか?

OSは死亡までの時間という、誰が測っても結果が変わらない客観的な指標で、患者さんにとっての価値も明確だからです。ただし結果が出るまで長い年月と大人数が必要なため、近年はPFSなどのサロゲートと使い分けられます。最近のFDAは、サロゲートが改善しても毒性で寿命が縮まないかを確かめるため、OSを「安全性」の指標としても重視しています。

Q5. 複合エンドポイントを読むときの注意点は?

複合は複数の事象をまとめて数えるため統計効率が上がりますが、重要度の低いイベントが全体の改善を牽引してしまうと、本当の利益が見えにくくなります。結果を読むときは、複合全体だけでなく、死亡など重い構成要素にどれだけ効いているかを個別に確認することが大切です。重要度を反映する「win ratio」などの新しい手法も登場しています。

Q6. エスティマンドとは何ですか?なぜ最近重視されるのですか?

エスティマンドは「知りたい問いに正確に答えるために、何を推定すべきか」を精密に定義する枠組みです。①治療②対象集団③変数④併発事象への対応⑤集団レベルの要約、の5つの属性で決まります。途中の中止や別治療といった「併発事象」を最初から設計に組み込むことで、「治療効果」の意味を関係者全員が誤解なく共有できます。これがICH E9(R1)による大きな転換です。

Q7. 遺伝性疾患や遺伝子治療の試験では、どんな評価項目が使われますか?

疾患によって異なりますが、発作の減少や運動機能、正常タンパク質の増加、神経障害を反映するバイオマーカーなどが用いられます。患者数が少ない希少疾患では、未治療の経過を記録した「自然歴」データを比較の物差し(外部対照)として使うこともあります。新規の評価項目を育てるFDAのRDEAプログラムも始まっています。

Q8. エンドポイントは出生前診断や遺伝カウンセリングとどう関係しますか?

出生前検査の感度・特異度・陽性的中率は、検査という“ものさし”の妥当性を示す指標で、サロゲートの考え方と通じます。陽性=確定ではない点も同じ発想です。遺伝カウンセリングは、新しい治療や検査が「どんなものさしで示された結果か」を中立的に共有し、ご家族が納得して選べるように橋渡しする役割を担います。詳しくは臨床遺伝専門医にご相談ください。

🏥 遺伝子検査・遺伝カウンセリングのご相談

遺伝性疾患や出生前診断、新しい治療の評価について
「どんなものさしで何が分かるのか」を一緒に整理したい方は
臨床遺伝専門医が在籍するミネルバクリニックにお気軽にご相談ください。

参考文献

  • [1] When and How Can Endpoints Be Changed after Initiation of a Randomized Clinical Trial? PMC. [PMC1852589]
  • [2] Glossary — BEST (Biomarkers, EndpointS, and other Tools) Resource. NCBI Bookshelf. [NBK338448]
  • [3] ICH E9 Statistical Principles for Clinical Trials. EMA. [EMA PDF]
  • [4] Multiple Endpoints in Clinical Trials — Guidance for Industry. FDA. [FDA Guidance]
  • [5] Surrogate Endpoint Resources for Drug and Biologic Development. FDA. [FDA]
  • [6] Table of Surrogate Endpoints That Were the Basis of Drug Approval or Licensure. FDA. [FDA]
  • [7] Clinical Trial Endpoints. Friends of Cancer Research. [Friends of Cancer Research]
  • [8] Statistical controversies in clinical research: an initial evaluation of a surrogate endpoint using a single randomized clinical trial and the Prentice criteria. PMC. [PMC4692987]
  • [9] Does the Prentice criterion validate surrogate endpoints? PubMed. [PubMed 15122737]
  • [10] Making Sense of Composite Endpoints in Clinical Research. PMC. [PMC10342974]
  • [11] E9(R1) Statistical Principles for Clinical Trials: Addendum: Estimands and Sensitivity Analysis in Clinical Trials. FDA. [FDA]
  • [12] The estimands framework: a primer on the ICH E9(R1) addendum. PMC. [PMC10802140]
  • [13] Focus Area: Patient-Reported Outcomes and other Clinical Outcome Assessments. FDA. [FDA]
  • [14] FDA Draft Guidance on Overall Survival in Oncology Trials — What Sponsors Need to Know. Precision for Medicine. [Precision for Medicine]
  • [15] FDA issues guidance regarding drug development for early Alzheimer’s disease. FDA. [FDA]
  • [16] Rare Disease Endpoint Advancement Pilot Program. FDA. [FDA RDEA]

関連記事

用語解説バイオマーカーとはサロゲートエンドポイントの中核をなすバイオマーカーの種類と役割を解説。用語解説核酸医薬とTANGO技術(STK-001)遺伝性疾患の試験で使われる評価項目の具体例を分子機序から解説。用語解説機能獲得型変異とはバイオマーカーを代替指標に用いる試験の理解に役立つ基礎概念を解説。用語解説PARP阻害薬とはOS・PFS・ハザード比など腫瘍学の評価項目が実際に使われた例を解説。用語解説臨床遺伝専門医とは評価項目の意味を患者・家族に橋渡しする臨床遺伝専門医の役割を解説。検査NIPT(非侵襲的出生前検査)感度・特異度・陽性的中率という指標の妥当性を理解する出生前検査。

仲田洋美 医師(臨床遺伝専門医)

この記事の監修・執筆者:仲田 洋美

(臨床遺伝専門医/がん薬物療法専門医/総合内科専門医)

ミネルバクリニック院長。1995年に医師免許を取得後、 臨床遺伝学・内科学・腫瘍学を軸に診療を続けてきました。 のべ10万人以上のご家族の意思決定と向き合ってきた臨床遺伝専門医です。

出生前診断(NIPT・確定検査・遺伝カウンセリング)においては、 検査結果の数値そのものだけでなく、 「結果をどう受け止め、どう生きるか」までを医療の責任と捉え、 一貫した遺伝カウンセリングと医学的支援を行っています。

ハイティーンの時期にベルギーで過ごし、 日本人として異文化の中で生活した経験があります。 価値観や宗教観、医療への向き合い方が国や文化によって異なることを体感しました。 この経験は現在の診療においても、 「医学的に正しいこと」と「その人にとって受け止められること」の両立を考える姿勢の基盤となっています。

また、初めての妊娠・出産で一卵性双生児を妊娠し、 36週6日で一人を死産した経験があります。 その出来事は、妊娠・出産が女性の心身に与える影響の大きさ、 そして「トラウマ」となり得る体験の重みを深く考える契機となりました。 現在は、女性を妊娠・出産のトラウマから守る医療を使命の一つとし、 出生前診断や遺伝カウンセリングに取り組んでいます。

出生前診断は単なる検査ではなく、 家族の未来に関わる重要な意思決定です。 年齢や統計だけで判断するのではなく、 医学的根拠と心理的支援の両面から、 ご家族が後悔の少ない選択をできるよう伴走することを大切にしています。

日本人類遺伝学会認定 臨床遺伝専門医/日本内科学会認定 総合内科専門医/ 日本臨床腫瘍学会認定 がん薬物療法専門医。 2025年には APAC地域における出生前検査分野のリーダーとして国際的評価を受け、 複数の海外メディア・専門誌で特集掲載されました。

お電話での受付可能
診療時間
午前 10:00~14:00
(最終受付13:30)
午後 16:00~20:00
(最終受付19:30)
休診 火曜・水曜

休診日・不定休について

クレジットカードのご利用について

publicブログバナー
 
medicalブログバナー
 
NIPTトップページへ遷移