臨床試験におけるAIの使用

はじめに：41万9,000人が参加した「史上最大の」臨床試験

2017年、AppleとStanford大学はApple Heart Studyを開始しました。Apple Watchの心拍センサーとAIアルゴリズムを用いて、心房細動（不整脈の一種）を検出するという、かつてない規模の臨床試験でした。

わずか8ヶ月で419,297人が参加。従来の臨床試験が数百〜数千人を数年かけて登録するのに対し、ウェアラブルデバイスとAIの組み合わせは、臨床試験のスケールと速度を根本的に変えました。

この試験では、不整脈通知を受けた2,161人のうち、その後ECGパッチを装着・返送した450人の34%で心房細動が確認されました（通知時とECG記録の同時刻一致でみた陽性的中率は0.84）。これはAIが臨床試験の概念そのものを変える力を持つことを示した画期的な事例です。

SourceJOURNAL / PAPER

Large-Scale Assessment of a Smartwatch to Identify Atrial Fibrillation

Apple Heart Studyの結果。41万9千人規模のウェアラブルデバイスを用いた臨床試験

論文New England Journal of Medicine

nejm.org/doi/full/10.1056/NEJMoa1901183

臨床試験におけるAIの役割

臨床試験でのAIの4役割（患者リクルート・試験デザイン最適化・データ収集・適応的設計）を縦に並べた階段図。各段に代表的な利点を付記。 — AIは患者登録から試験デザイン変更まで臨床試験の全工程に関与し、効率と精度を高める。

患者リクルートの効率化

臨床試験の最大のボトルネックは適格な患者の特定と登録です。従来は医師が手作業で適格基準を確認していましたが、AIは電子カルテを自動解析し、適格な患者を迅速に特定できます。

Case Study/ 米国

Tempus：AIによる臨床試験マッチング

概要: Tempusは、がん患者のゲノムデータと臨床データをAIで解析し、最適な臨床試験をマッチングするプラットフォームです。

仕組み:

腫瘍のゲノムプロファイリング結果と臨床データを統合
登録可能な臨床試験をAIが自動検索・マッチング
患者ごとに最適な試験候補をランク付けして医師に提示

成果: 従来は数週間かかっていた臨床試験マッチングを数分で完了。ゲノム情報に基づくマッチングにより、従来の方法では見逃されていた治療機会を患者に提供。

試験デザインの最適化

AIは過去の試験データをシミュレーションし、最適な試験デザインを提案できます。サンプルサイズの計算、患者の層別化、エンドポイントの選定など、試験の統計的検出力を向上させます。

データ収集とリアルタイムモニタリング

ウェアラブルデバイス、スマートフォンアプリ、IoTセンサーを通じて、従来は定期来院時にしか取得できなかったデータを連続的・自動的に収集できます。

AIがこのデータをリアルタイムで監視し、有害事象の早期検出や服薬アドヒアランスの追跡を行います。

適応的試験デザイン（Adaptive Trial Design）

視点

適応的試験デザインとは

試験の途中で中間解析の結果に基づいて試験デザインを変更する方法です。AIが中間解析データをリアルタイムで解析し、以下の判断を推奨します:

無効な治療群の早期中止（無駄な投薬を防ぐ）
有効な治療群への患者の再配分（効果的な治療により多くの患者を振り分け）
サンプルサイズの動的な調整
エンドポイントや用量の修正

COVID-19ワクチンの開発では、適応的試験デザインが開発期間の大幅な短縮に貢献しました。

倫理的考慮事項

AIを使った臨床試験の倫理的課題3項目（同意の質・公平性とバイアス・透明性）を左右対比と中央軸で示した図。各項目に課題と対策を対応させる。 — デジタル臨床試験では同意の質の確保とデジタルデバイドによる参加者の偏りへの対応が求められる。

インフォームドコンセント

臨床試験でAIが使用される場合、参加者に以下を説明する必要があります:

AIがどのように使用されるか（データ解析、モニタリング、治療推奨など）
AIの限界と不確実性
データのプライバシーとセキュリティ
AIの使用を拒否する権利（AIを使わない従来の方法で試験に参加できるか）

Case Study/ 米国

Apple Heart Study のインフォームドコンセント課題

問題提起: Apple Heart Studyは100%デジタルで実施され、インフォームドコンセントもアプリ上で取得されました。

課題:

アプリ上の同意は「読まずにスクロールして同意」するリスクが高い
41万人のうち、同意内容を十分に理解していた参加者はどの程度か
不整脈の通知が「偽陽性」だった場合の心理的影響についての説明は十分か
通知を受けた参加者が過剰に不安を感じ、不必要な医療介入に至るリスク

教訓: デジタル臨床試験では、同意の「質」を確保する新しい仕組み（動画による説明、理解度テスト等）が必要。

公平性とバイアス

AIが臨床試験の参加者選定に関与する場合、特定の人口集団を系統的に除外してしまうリスクがあります。

学習データに特定の人種・年齢層が少ない → AIがその集団を適格と判定しにくい
デジタルリテラシーの格差 → ウェアラブルデバイスを使える集団に偏る
言語・文化的障壁 → デジタル同意の理解度に差が生じる

比較

従来の臨床試験 vs AIを活用した臨床試験

従来の臨床試験: 限られた施設・地域で実施。参加者は施設近隣に限定。患者リクルートに数ヶ月〜数年。データ収集は定期来院時のみ。

AIを活用した臨床試験: ウェアラブルデバイスで全国から参加可能。AIで適格患者を迅速に特定。連続的・自動的なデータ収集。適応的デザインで効率化。

→ しかし、デジタルデバイドにより「テクノロジーにアクセスできる人」に参加者が偏るリスクも。

透明性と説明可能性

AIが臨床試験のどのプロセスに、どの程度関与しているかを試験プロトコルに明記
説明可能AI（XAI）技術を用いて、AIの判断根拠を検証可能にする
AIの性能と限界を科学的に報告（論文、規制提出書類で明記）

規制要件

FDA（米国）

AIの性能と限界を試験プロトコルに記載
AIの検証（Verification）とバリデーション（Validation）を実施
AIに関連する有害事象をIND安全性報告に含める
Digital Health Technologies（DHT）ガイダンスの遵守

SourceDOCUMENTATION

Digital Health Technologies for Remote Data Acquisition in Clinical Investigations

臨床試験でのデジタルヘルス技術の使用に関するFDAガイダンス

ガイドラインFDA

fda.gov/regulatory-information/search-fda-guidance-documents/digital-health-technologies-remote-data-acquisition-clinical-investigations

PMDA（日本）

AIの学習データと検証データの品質確保
AIの性能評価指標の明確な定義
市販後の性能監視計画の策定
ICH-E6（GCPガイドライン）との整合性

EU

MDRの要件に加え、EU AI ActのハイリスクAI要件を遵守
GDPR（一般データ保護規則）に基づく臨床データの取り扱い
臨床試験規則（CTR）に基づくAI使用の透明性確保

分散型臨床試験（DCT）

分散型臨床試験の構成要素4つ（ウェアラブル・テレメディスン・電子PRO・AI解析）を中心の「患者の自宅」から放射するハブ図で示した図。 — DCTはウェアラブルとAIを組み合わせることで、患者が自宅から試験に参加できる環境を実現する。

DCTとは

患者が自宅や地域の医療機関で臨床試験に参加できる新しい試験形態です。AIとデジタル技術を最大限に活用します。

DCTの構成要素:

ウェアラブルデバイス: バイタルサイン、活動量、睡眠の連続モニタリング
テレメディスン: オンラインでの診察と評価
電子PRO（Patient-Reported Outcomes）: 患者がアプリで症状を報告
AI解析: 収集データのリアルタイム解析、異常検出

メリット:

地理的制約の克服（地方在住の患者も参加可能）
患者の負担軽減（通院回数の削減）
より多様な参加者層の確保
連続的なデータ収集による詳細な評価

SourceDOCUMENTATION

Decentralized Clinical Trials for Drugs, Biological Products, and Devices

分散型臨床試験に関するFDAガイダンス。DCTの設計・実施に関する推奨事項

ガイドラインFDA

fda.gov/regulatory-information/search-fda-guidance-documents/decentralized-clinical-trials-drugs-biological-products-and-devices

リアルワールドエビデンス（RWE）の活用

RCTとRWEを左右対比で示した図。内的妥当性・外的妥当性・コスト・患者集団の4項目でそれぞれの特性を比較。 — RCTとRWEは補完関係にあり、AIがリアルワールドデータを解析することでRCTでは検出困難な知見を得られる。

実際の臨床現場で収集されたデータ（リアルワールドデータ: RWD）をAIで解析し、治療効果を評価する手法がリアルワールドエビデンスです。

比較項目	ランダム化比較試験（RCT）	リアルワールドエビデンス（RWE）
内的妥当性	高い	中程度
外的妥当性	限定的	高い
コスト	高い	比較的低い
期間	長い	短い
患者集団	選択的	多様

視点

RCTとRWEの補完関係

RCTは「理想的な条件下」での治療効果を証明し、RWEは「実際の臨床現場」での治療効果を評価します。AIがRWDを解析することで、RCTでは検出できなかった稀な副作用の発見や、特定のサブグループでの効果の差異を明らかにできます。FDAは2016年の「21st Century Cures Act」でRWEの活用を推進しています。

AIによる新薬開発の加速

AIは臨床試験だけでなく、創薬プロセス全体を変革しています:

標的同定: AIが疾患に関連するタンパク質や遺伝子を予測
候補化合物の探索: 数百万の化合物からAIが有望な候補を選定
用量最適化: 最適な投与量とスケジュールをAIが予測
試験デザイン最適化: 成功確率の高い試験デザインをAIが提案

Case Study/ 国際

Insilico Medicine：AIが発見した新薬候補の臨床試験

概要: AIスタートアップのInsilico Medicineは、特発性肺線維症（IPF）の治療薬候補「INS018_055」をAIで発見し、Phase II臨床試験に到達しました。

AIの役割:

疾患の標的タンパク質（TNIK）をAIが同定
候補化合物の設計をAIが実施
前臨床試験の最適化にAIを活用

成果: 従来4-5年かかる前臨床段階を約18ヶ月で完了。2023年にPhase II試験を開始。

意義: 「AIが標的同定から臨床試験まで一貫して関与した」初のケースの一つ。AIが創薬のスピードとコストを根本的に変える可能性を示した。

まとめ

AIは臨床試験の効率と精度を根本的に変えつつあります。Apple Heart Studyの41万人規模の試験は、ウェアラブルデバイスとAIが臨床試験のスケールを変える力を示しました。Tempusのようなマッチングプラットフォームは患者リクルートを劇的に効率化し、適応的試験デザインは無駄を減らし開発期間を短縮します。

しかし、インフォームドコンセントの質の確保、デジタルデバイドによる参加者の偏り、AIの透明性と説明可能性など、倫理的課題も増大しています。AIの力を最大限に活かしつつ、臨床試験の倫理的基盤を守ることが、次世代の臨床研究に求められています。

次のレッスンでは、医療AIのセキュリティとサイバーセキュリティについて学びます。

明日のアクション

臨床試験に関わる機会がある場合、試験プロトコルにAIの使用が明記されているか確認しましょう。特に、AIが患者リクルート、データ解析、モニタリングに使用される場合、インフォームドコンセント文書にその旨が記載されているかをチェックし、不足があればIRB（治験審査委員会）に改善提案を行いましょう。