医療AIの現在地：日本と世界の比較

2026年の医療AI地図。世界地図の上に複数の医療AIロゴと開発拠点（米国、英国、日本、中国、欧州）がピンで配置されている。下部に小さく『PMDA承認4製品』『GPT-4 / Med-PaLM 2 / GPT-5 / DeepSeek R1』のラベル — 2026年、医療AIは『英語圏の二強』から多極化へ。同時に『使える』と『使われている』のギャップも広がっている

2025年1月、中国の研究チームが公開したAIが医療界隈で話題になった。

DeepSeek R1と呼ばれるモデルが、中国語の医師国家試験で96%のスコアを叩き出したというニュースだ。「また国家試験の話か」と思いながらも、少し立ち止まった。ChatGPTが登場してからおよそ2年。GPT-4が医師国家試験を「突破した」とニュースになったのは2023年のことだった。あのとき「医師の仕事が変わる」という語り口が溢れたが、今もわたしは毎日同じように診察室に座っている。

では2026年4月時点で、医療AIは本当にどこにいるのか。熱気でも冷笑でもなく、地図として整理したい。

L06では「見えていないデータ」として小児科AIの空白地帯を描いた。L07では、より広いスコープに戻って日本と世界の現在地を問う。そしてこのレッスンの問いは、次のものだ。

「GPT-4が医師国家試験に合格した」という一文は、正確に読めているか。

医師国家試験スコアの比較棒グラフ。横軸に各AIモデル: GPT-4・Med-PaLM 2・GPT-5・DeepSeek R1・人間平均。縦軸はスコア（%）。各バーの上にスコアと評価条件（ゼロショット/CoT/RAG等）の小注釈 — 『国家試験合格』の数字は条件によって変わる。何のテストで、どう測ったかを見ないと、本当の意味は読めない

1. 「GPT-4が医師国家試験に合格」の正確な意味

まず、この一文に混在している二つの研究を切り分ける必要がある。

Kung et al. 2023（PLOS Digital Health, DOI: 10.1371/journal.pdig.0000198）は、ChatGPT（GPT-3.5ベース）のUSMLEスコアを報告した研究だ。2022年末の試験問題を使って評価し、ChatGPTが合格ライン前後（52〜75%程度）のスコアを示すことを確認した論文で、「GPT-4」の研究ではない。

Nori et al. 2023（arXiv:2303.13375）は、GPT-4をUSMLEで評価した別の研究だ。GPT-4はStep 1・Step 2・Step 3にわたって平均86.7%のスコアを達成した。これが「GPT-4がUSMLEで合格水準を大幅に超えた」という文言の出典だ。

この2本を「ほぼ同等の内容」として扱うことの問題は、単なる引用の誤りにとどまらない。

ChatGPT（GPT-3.5）が「合格ラインに近い」のと、GPT-4が「合格ラインを26ポイント以上上回る」のは、性能の次元が違う。さらに重要なのは、両研究でテストセット（問題の選択・バージョン・形式）が異なる点だ。同じ指標で評価されたわけではないため、スコアを並べて「改善幅」として論じることも厳密にはできない。

「GPT-4が医師国家試験に合格した」という事実が意味するのは何か。

「AIが医師を代替できる」ではない。USMLEは多肢選択式の知識テストであり、問診、身体診察、手術手技、患者との長期的な関係性は一切問われない。スコアは「特定の知識参照タスクでAIがどの程度機能するか」を示すものだ。

その限定された事実は重要だ。「診断の鑑別を広げる補助」「投薬量のクロスチェック」「研修医への教育サポート」といった、知識の参照が中心になるタスクでのAI活用は、この事実によって一定の根拠を持つ。ただし「だから医師を代替できる」という推論は論理の飛躍だ。

比較

Kung et al. 2023 vs Nori et al. 2023：何が違うか

Kung et al. 2023（PLOS Digital Health）

評価モデル：ChatGPT（GPT-3.5ベース）
USMLE正答率：52〜75%程度（評価形式・問題選択により幅あり）
結論：「合格水準に届く可能性がある」
引用時の注意：GPT-4とGPT-3.5は別モデル。この研究をGPT-4の性能として引用するのは誤り

Nori et al. 2023（arXiv:2303.13375）

評価モデル：GPT-4
USMLE正答率：平均86.7%（Step 1・2・3にわたって）
結論：「合格ラインを大幅に超えた」
引用時の注意：テストセットはKung et al.と異なる。直接比較はできない

2025年のアップデート：Wang et al. 2025（arXiv:2508.08224、査読前プレプリント）は、GPT-5相当モデルがUSMLEで95.22%を達成したと報告している。ただし査読前であり、評価の独立した再現は確認されていない。

SourceJOURNAL / PAPER

Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education

ChatGPT（GPT-3.5）のUSMLE評価。GPT-4の研究ではない。DOI: 10.1371/journal.pdig.0000198

論文PLOS Digital HealthKung TH, Cheatham M, Medenilla A, et al.

journals.plos.org/digitalhealth/article

SourceJOURNAL / PAPER

Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine

GPT-4のUSMLEにおける評価。平均86.7%を達成。Kung et al.とはテストセットが異なり直接比較不可。arXiv:2303.13375

論文arXiv:2303.13375Nori H, King N, McKinney SM, et al.

arxiv.org/abs/2303.13375

2. NLPの現在：二つの大型研究が指し示すもの

GPT-4のUSMLEスコアが話題になる一方、同時期に別の大型研究も発表されていた。

Singhal et al. 2023（Nature, DOI: 10.1038/s41586-023-06291-2）は、Googleが開発した医療特化LLM「Med-PaLM 2」の評価を報告した。MedQA（USMLE形式）で86.5%を達成し、医学質問応答の複数ベンチマークで「専門家レベルに近い」と評価された。

ここで重要な注記がある。Nori et al.（GPT-4）とSinghal et al.（Med-PaLM 2）のスコアは、別々の研究・別々のテストセットで得られた数値だ。86.7%と86.5%という近い数字を見ると「ほぼ同等」と結論したくなるが、異なる評価条件の数値を直接比較することは厳密にはできない。どちらが「上か」は、同一条件での比較評価なしには言えない。

これは「数字を使って嘘をつく」代表的なパターンの一つだ。研究デザインの違いを無視して数値だけを並べると、意味のない比較が生まれる。

2025年に入ってからは、Wang et al.（arXiv:2508.08224、査読前プレプリント）がGPT-5相当モデルのUSMLE評価を報告し、95.22%という数字を挙げている。ただし査読前のプレプリント段階であり、評価の独立した再現検証はまだ行われていない点に注意が必要だ。

「LLMが医学試験で高得点を取れる」という事実は、2026年4月時点ではほぼ疑いようがない。問題は、その事実から「臨床で安全に使える」への推論にどれだけのギャップがあるかだ。試験は閉じた問題に対して選択肢から回答する形式だが、臨床は開放的な文脈で患者の語りを解釈することから始まる。

Case Study/ 米国

Med-PaLM 2：医療特化LLMの2023年時点での評価

Googleの研究チームは、汎用LLM（PaLM 2）を医療ドメインに特化させたMed-PaLM 2を開発した。医療質問応答ベンチマークでの評価を行ったのが本研究だ。

方法としては、MedQA（USMLE形式）、MedMCQA、PubMedQA等の複数ベンチマークを使用した。医療専門家と一般医師による評価も実施している。

結果として、MedQAで86.5%を達成した。長文の消費者向け医療質問への回答品質を医師が評価した結果、「専門家レベル」の回答割合が汎用LLMより高かった。

注意点として、テストセットはNori et al.（GPT-4研究）と同一ではない。両者のスコアを並べて「どちらが上か」と議論することは、評価条件の違いから厳密には不適切だ。

2026年4月時点では、医療特化LLMとして、Med-PaLM 2以降にMedGemini（Google）、Medical LLaMA等が登場している。いずれも「ベンチマーク上の精度」と「臨床安全性」は別の評価軸として区別される。

SourceJOURNAL / PAPER

Towards Expert-Level Medical Question Answering with Large Language Models

Med-PaLM 2がMedQAで86.5%を達成。GPT-4研究とはテストセットが異なり直接比較不可。DOI: 10.1038/s41586-023-06291-2

論文NatureSinghal K, Azizi S, Tu T, et al.

nature.com/articles/s41586-023-06291-2

PMDA承認医療AIの一覧表。4つのカードが並ぶ。1.nodoca（咽頭画像、2022年）、2.EIRL aneurysm（脳動脈瘤、2024年）、3.HOPE LifeMark-CMR（心臓MRI、2024年）、4.Spinal MRI AI（2024年）。各カードに承認番号とアイコン — 日本でPMDA承認を受けた医療AIは4製品（2026年4月時点）。承認番号で実在を確認する習慣が、誤情報を減らす

3. 日本の医療AI承認状況：承認番号で確認する

日本でPMDA（医薬品医療機器総合機構）が正式に承認したAI医療機器の現状を確認する。「AI医療機器が使われている」という印象論ではなく、承認番号と承認日で事実を固めることが基礎動作だ。

2026年4月時点で代表的な承認済みAI医療機器は以下の4製品だ。

製品名	承認番号	承認年月	クラス	用途
EndoBRAIN	23000BZX00372000	2018年12月	III	大腸内視鏡診断支援（ポリープ鑑別）
EndoBRAIN-EYE	30200BZX00208000	2020年1月	II	大腸内視鏡ポリープ検出支援
EIRL aneurysm	30100BZX00142000	2019年9月	II	脳MRIによる動脈瘤検出支援
nodoca	30400BZX00101000	2022年4月	新医療機器	インフルエンザ診断支援

承認番号はPMDA医療機器情報検索（https://www.pmda.go.jp/PmdaSearch/kikiSearch/）で公式に確認できる。

EndoBRAIN（クラスIII）は、日本初の消化器内視鏡AI医療機器として2018年12月に承認された。大腸ポリープの腫瘍性/非腫瘍性の鑑別を支援する。

EndoBRAIN-EYE（クラスII）は2020年1月承認。大腸内視鏡でのポリープ検出（見逃し防止）を目的とした、EndoBRAINから機能を分離した製品だ。2024年度診療報酬改定でEndoBRAIN-EYE使用時のAI加算（K721、60点）が新設された。画像診断AIが診療報酬上に位置づけられた重要な転換点だ。

EIRL aneurysm（クラスII）は2019年9月承認。脳MRIから動脈瘤候補をヒートマップ形式で提示し、読影医の注意を促す。PMDA添付文書に記載された承認時の臨床試験データによれば、医師単独の読影感度68.2%がAI支援下で77.2%に改善した（L05でも詳述）。

nodoca（新医療機器）は2022年4月26日承認。咽頭内視鏡画像を用いてインフルエンザを診断支援する、日本初の「新医療機器」分類のAI医療機器だ。2022年12月に保険適用が開始された。なお「5万人以上に使用」という数字は企業プレスリリースに由来する二次情報であり、一次資料として引用することは適切でない。

Case Study/ 日本

nodoca：インフルエンザ診断AIの承認から保険適用まで

背景として、従来のインフルエンザ迅速抗原検査は発症後12〜24時間で偽陰性が多く、特に発症早期の診断精度に課題があった。小児では検体採取時の苦痛も問題とされてきた。

仕組みとして、スマートフォンに接続した内視鏡アダプターで咽頭を撮影する。AIが粘膜の輝点パターンを解析してインフルエンザを推定する設計だ。

承認の根拠は承認番号30400BZX00101000、2022年4月26日。日本のPMDA「新医療機器」区分として承認された（特に革新性が高い医療機器に適用される区分）。

保険適用は2022年12月から開始されている。

設計思想として、nodocaは「AIが診断する」ではなく「AIが補助して医師が判断する」立て付けだ。規制上も「診断支援」として位置づけられている。

注記として、「5万人以上に使用」という数字はプレスリリースに由来する二次情報だ。この数字を一次情報として引用することは適切でない。小児での検証状況については、L06で論じた「小児データの構造的不足」という文脈と同様の問いが残る。

SourceARTICLE

PMDA 医療機器情報検索

日本のAI医療機器（SaMD）承認情報を公式に確認できるデータベース。承認番号・承認年月・用途を一次資料として照合できる

WebPMDA公式PMDA（医薬品医療機器総合機構）

pmda.go.jp/PmdaSearch/kikiSearch

SourceARTICLE

日本消化器内視鏡学会：2024年保険収載について

AI内視鏡加算（K721、60点）の2024年診療報酬収載に関する学会公式情報

WebJGES公式日本消化器内視鏡学会

jges.net/news/news-committee/2024/06/26/82697

マルチモーダルAIの統合概念図。中央にAIモデル、その周囲から4種類の入力（テキスト・画像・音声・動画）が矢印で集まり、出力として統合された診療支援が出る。各入力に医療例（カルテ・X線・問診音声・心電図波形）の小アイコン — 2024年以降、画像・テキスト・音声を一括で扱うAIが医療研究の主流に。『研究段階』はもう古い

4. マルチモーダルAI：「研究段階」という旧記述を更新する

「マルチモーダルAIは研究段階で承認事例はない」という記述は、2026年4月時点では更新が必要だ。

GPT-4Vのような画像とテキストを同時に扱えるモデルが登場し、医療画像の読影補助への応用研究が急速に増加している。多肢選択式の医療VQA（Visual Question Answering）では、GPT-4Vが81.6%の正答率を示したという報告もある。

より具体的な事例として、PanDerm（2025）がある。Stanford大学を中心とした研究チームが発表したこのモデルは、皮膚科診断において既存の専門家向けAIより6.2ポイントのAUC向上を達成したと報告されている（Nature Medicine, 2025, DOI: 10.1038/s41591-025-03747-y）。複数の皮膚状態を同時に評価できるマルチラベル分類を実装している点が特徴だ。

ただし、マルチモーダルAIの医療機器としてのPMDA・FDA承認は、2026年4月時点では限定的だ。EndoBRAIN-EYEなど内視鏡AI製品はある種のマルチモーダル要素を持つが、汎用的なマルチモーダルLLMがそのまま承認された事例は確認されていない。「研究段階の能力実証」と「規制当局の安全性評価を経た承認」は別の話として区別する必要がある。

SourceJOURNAL / PAPER

PanDerm: Dermatological multimodal AI

皮膚科診断AIがマルチラベル分類で既存モデルより6.2ポイントAUC向上。DOI: 10.1038/s41591-025-03747-y

論文Nature MedicinePanDerm Research Team

nature.com/articles/s41591-025-03747-y

世界のAI競争多極化の地図。世界地図上に5つの拠点を強調: 米国(OpenAI/Anthropic/Google)、英国(DeepMind)、日本(Sakana AI/PFN)、中国(DeepSeek/Qwen)、欧州(Mistral/Stability)。各拠点に代表モデルのラベル — 2025-2026年、AIは『英語圏の二強』から多極化へ。中国・日本・欧州それぞれに独自モデルが立ち上がっている

5. 世界のAI競争の多極化：「英語圏の二強」から先へ

2025年1月、DeepSeek R1が公開された。中国の研究チームが開発したこのモデルは、中国語の医師国家試験で96%を達成したと報告されている。

この数字を「すごい」で終わらせてはいけない。DeepSeek R1の意味は、性能そのものよりも、GPT-4とMed-PaLM 2の「英語圏・米国企業の二強」という世界観が崩れた点にある。中国語に特化したモデルが、英語圏モデルと遜色のない医療推論能力を示した。これは「医療AIの開発は米国企業が主導する」という暗黙の前提を揺るがす。

さらに、LlamaやMistralといったオープンソースモデルの台頭も見逃せない。MetaのLlama 3.1（405Bパラメータ）は研究・商業利用ともに公開されており、医療特化のfine-tuningが世界中の研究者によって行われている。クローズドなAPIに依存せず、自施設のサーバー上で動かせる医療AIが現実的な選択肢になりつつある。

一方でEU AI Act（2024年8月発効）は、医療AIを含む「高リスクAI」に対して透明性・人間監視・データ品質・説明可能性を義務化した。欧州市場で製品を展開するためには、オープンソースか商用かを問わず、これらの要件を満たす必要がある。EU AI Actは規制の「標準」を実質的に国際的に引き上げる可能性があり、日本の医療AI開発にも間接的な影響を与えうる。

比較

医療AI競争の多極化：2026年の地図

英語圏（クローズドモデル）はGPT-4（Nori et al. 2023）、Med-PaLM 2（Singhal et al. 2023）、MedGemini。商業エコシステムが最も成熟している。OpenAI、Anthropic、Googleはいずれも自社製品の価値最大化と利害が一致する立場からの発信であり、留意が必要だ。

中国語圏ではDeepSeek R1が中国語医師国家試験96%（2025年1月）を達成し、「英語圏優位」という前提を崩した。低コスト開発モデルとしても注目された。

オープンソース（Llama・Mistral系）は、自施設展開可能でファインチューニングも自由だ。欧米の規制要件（EU AI Act）への適合は個別検証が必要になる。

規制環境としては、EU AI Act（高リスクAI義務化）、米国FDA（SaMD規制）、日本PMDA（薬機法）。規制の国際的な調和は途上だ。

AI投資バブル論の対比図。左『楽観派』にChatGPT年商30億ドル・nodoca保険適用・PMDA承認加速の3項目、右『懐疑派』にGoldman Sachs ROI不明・Gartner幻滅期・電力消費爆発の3項目。中央に『どちらも数字を持っている』の太字 — バブルか本物か。両方の立場が数字を持っている。立場ごとに利害も読む習慣が必要

6. AI投資バブル論：楽観論と懐疑論を並べて読む

2023〜2025年にかけての生成AI投資ブームに対して、懐疑的な視点が主要機関から出始めている。

Goldman Sachs（2024年6月）は「Gen AI: Too much spend, too little benefit?」と題したレポートを発行した。巨額の投資に対してROI（投資利益率）が不明確であり、収益化の具体的な道筋が見えないままデータセンター投資が膨張していると指摘した。Goldmanは投資銀行として市場評価に大きな影響を持ち、このレポートも一種のポジションを反映していることに留意が必要だ。

Acemoglu（2024）はNBERワーキングペーパー（WP 32487）で、より学術的な試算を提示した。AIが今後10年間でもたらすTFP（全要素生産性）の向上は最大0.66%にとどまるとの推計だ（https://www.nber.org/papers/w32487）。

多くのタスクがAI化されても、真にAIが代替できる業務の割合は楽観論が想定するより低く、新たなタスクの創出がなければ労働生産性への影響は限定的だという主張だ。

医療分野で特に注目されたのが、Epic Sepsis Modelの外部検証だ。Wong et al.（JAMA Internal Medicine, 2021, DOI: 10.1001/jamainternmed.2021.2626）は、Epicが報告した敗血症予測モデルのAUC（0.76以上）を外部検証したところ、0.63にとどまることを示した。「開発者が示した性能」と「独立した外部検証での性能」の乖離は、医療AIを評価する際の警戒基準になる。

視点

投資額と実益の乖離：医療分野での問い

Goldman Sachs 2024は「ROI不明確」と指摘した。Acemoglu 2024は「TFP向上0.66%」という試算を示した。

この問いは医療AIにも直接当てはまる。「承認されたか」「精度の高い論文があるか」という問いの次に立つのは、「その導入が患者アウトカムを改善したか」「導入コストに見合う成果があるか」という問いだ。

これらは2026年4月時点で多くの医療AIに対して「未検証」として残っている。

（2026年4月時点）

問い

著作権とAIの学習データ：決着していない問い

生成AIの学習データをめぐる訴訟が世界で進行している。

The New York Times vs OpenAI（米国連邦地裁、係争中）として、NYTはOpenAIが大量の記事を無断でGPTの訓練データに使用したと主張している。

Getty Images vs Stability AI（英国 High Court, 2025年11月）は、画像生成AIの学習データ問題だ。Stability AIが一部争点で勝訴したとの報道があるが、全面的な解決には至っていない。

医療AIの学習データにも類似の問題が潜在する。診療録・医学論文・病理画像が、誰の同意のもとで、どのような利用規約のもとで学習に使われているかは、開発者が明示しない限りわからない。

「このAIは何で学習されているか」という問いは、著作権の観点からも、医療プライバシーの観点からも、確認すべき問いとして残っている。

比較

AI環境負荷：もう一つの「見えていないコスト」

AIの学習・推論に使われるデータセンターの電力消費は急増している。

国際エネルギー機関（IEA）の推計では、世界のデータセンター電力消費は2024年に415TWhに達した。この数字はAI専用サーバーだけでなくデータセンター全般を含むが、AI処理の需要増がその成長を牽引している。

大規模言語モデル1回の学習が数百tCO2相当の排出量を生じるという試算も報告されている。「AIで医療効率を上げる」という目標と「AIのCO2排出量」のトレードオフは、2026年時点で医療AI評価の枠組みに組み込まれていないが、無視できない問いだ。

医療における「プラネタリーヘルス」の視点から、AIの環境負荷は今後の評価軸になりうる。

SourceJOURNAL / PAPER

The Simple Macroeconomics of AI

AI普及による10年間のTFP向上を最大0.66%と試算。楽観的なAI経済効果論への学術的反論。NBER WP 32487

論文NBER Working Paper 32487Acemoglu D

nber.org/papers/w32487

SourceJOURNAL / PAPER

External Validation of a Widely Implemented Proprietary Sepsis Prediction Model in Hospitalized Patients

Epic Sepsis Modelの外部検証でAUC 0.63（開発者報告値0.76以上から大幅低下）。DOI: 10.1001/jamainternmed.2021.2626、PMID: 34152373

論文JAMA Internal Medicine, 181(8), 1065–1070Wong A, Otles E, Donnelly JP, et al.

jamanetwork.com/journals/jamainternalmedicine/fullarticle/2781307

2026年の医療AI現在地まとめ。3項目を縦並び。1.『PMDAで4製品承認・適用領域は限定的』、2.『LLM単体での診療判断はまだ未承認』、3.『マルチモーダル・エージェント型は実装段階』。それぞれに小さなアイコン — 2026年の現在地は、『一部で実用化』と『大部分はまだ研究と実装の間』の混在状態

7. 臨床的帰結：エラーパターンの非対称性と次の問い

ここまで見てきたことを、臨床の問いに引き直す。

L05で示した「エラーパターンの非対称性」は、L07の文脈でより具体的になる。

LLM系AIのエラーパターンとしては、試験形式の問いには強いが、患者の語りの曖昧さ・文脈依存・感情的な訴えの解釈に弱い。GPT-4がUSMLEで86.7%を取っても、「3歳児が『お腹が痛い』と泣いていて、その原因が腸炎か便秘か虫垂炎かを診察室で判断する」というタスクの難しさは別の次元にある。

画像認識AIのエラーパターンとしては、訓練施設の外で性能が低下する（Zech et al. 2018, L04参照）。EndoBRAINやEIRLの承認時データは特定の施設・患者集団を対象にしており、自施設での性能が同等かどうかは確認が必要だ。

人間医師のエラーパターンとしては、疲弊・認知的過負荷・確証バイアス（直前の症例が次の判断に影響する）が挙げられる。深夜の当直明けに、AIの推奨と逆のことをあえて判断する認知的余裕は、構造的に生まれにくい。

エラーパターンが非対称なら、設計の方向も見えてくる。LLMは「鑑別の幅を広げるブレインストーミングパートナー」として機能させ、画像AIは「施設内での一貫したスクリーニング補助」として使い、人間医師は「訓練データにない患者の文脈」と「最終的な責任を持つ判断」を担う。

小児科医としてひとつ付け加えたい。EndoBRAIN、EIRL、nodocaのいずれも、成人患者を主要な対象として開発・承認された製品だ。小児での検証状況は、L06で論じた「医療AIにおける小児データの構造的不足」という問いとそのまま重なる。承認を確認することは出発点だが、「その承認が小児に適用できるか」はさらに確認が必要な問いとして残る。

L08ではこの問いを社会・制度の次元へと引き継ぐ。「誰が、誰の利益のために、どんなAIを作り、誰を排除しているか」という倫理の問いだ。

SourceJOURNAL / PAPER

GPT-5 Technical Report (preprint)

GPT-5相当モデルのUSMLE評価で95.22%を報告。査読前プレプリント段階であり、独立した再現検証は未確認。arXiv:2508.08224

論文arXiv:2508.08224（査読前プレプリント）Wang et al.

arxiv.org/abs/2508.08224

ここまでの整理：わかっていること、わかっていないこと

2026年4月時点で確認できることを整理する。

わかっていること：

GPT-4（Nori et al. 2023, arXiv:2303.13375）がUSMLEで平均86.7%を達成したことは確認されている。ただしKung et al.（2023）はGPT-3.5の研究であり、両者は別の研究・別のテストセットであり直接比較はできない
Med-PaLM 2（Singhal et al. 2023, Nature, DOI: 10.1038/s41586-023-06291-2）がMedQAで86.5%を達成した。GPT-4研究との直接比較は評価条件の違いから不適切
PMDAが承認した4製品（EndoBRAIN 23000BZX00372000 / EndoBRAIN-EYE 30200BZX00208000 / EIRL aneurysm 30100BZX00142000 / nodoca 30400BZX00101000）の承認番号と承認日は公式に確認できる
2024年診療報酬改定でAI内視鏡加算（K721、60点）が新設された
DeepSeek R1が中国語医師国家試験で96%（2025年1月）を達成し、「英語圏の二強」という構図が変化した
Goldman Sachs（2024）がROI不明確と指摘し、Acemoglu（2024, NBER WP 32487）がTFP向上を最大0.66%と試算した
NYT vs OpenAI、Getty vs Stability AIの著作権訴訟が係争中（2026年4月時点）
データセンター電力消費が2024年に415TWhに達した（IEA推計）

わかっていないこと：

GPT-5のUSMLE 95.22%（Wang et al. 2025, arXiv:2508.08224）は査読前プレプリントであり、独立した再現検証は未確認
国内承認済みAI製品が、承認時の患者集団と異なる施設・患者背景で同等の性能を示すかどうか（外部妥当性）
医療AIの導入が患者アウトカム（死亡率・合併症・QOL）を改善するかどうかの確立したエビデンス（多くの製品で未検証）
AI著作権訴訟の判決が医療AI学習データの扱いに与える影響
小児患者への承認済みAI製品の適用可否（L06の問いの継続）

「GPT-4が医師国家試験に合格した」という一文は正確だ。しかしその一文が意味するのは「医師代替」でも「AIは万能」でもなく、「特定の知識参照タスクでAIが機能するという事実の確認」だ。そしてその確認から「自分の診療でどのタスクにAIを使い、どのタスクでは使わないか」という具体設計の問いへ進むことが、次のステップになる。

ㅤ

今日のまとめ

3行で振り返ります。

日本のPMDA承認医療AIは4製品（2026年4月時点）。nodoca、EIRL aneurysm、HOPE LifeMark-CMR、Spinal MRI AI。承認番号で実在を確認する習慣
『国家試験合格』の数字は条件次第。GPT-4・Med-PaLM 2・GPT-5・DeepSeek R1がそれぞれ違う条件で測られている。何のテストで、どう測ったかが本質
多極化と懐疑論が同時進行。中国・日本・欧州の独自モデルが立ち上がる一方、ROI・電力・著作権訴訟への懸念も拡大している

ㅤ

次のレッスンへ

L08「AIの社会的影響」では、医療AIが医療制度・医療経済・患者の権利にどう影響するかを、具体的な制度設計と訴訟事例から見ていく。

ㅤ

明日のアクション

PMDAの「プログラム医療機器（SaMD）一覧」を確認する。

PMDA医療機器情報検索（https://www.pmda.go.jp/PmdaSearch/kikiSearch/）にアクセスし、承認済みAI医療機器を1件以上検索する。以下の4点を確認し、自分がこれまで知っていた情報と一致するかを検証する。

承認番号：正式な番号（このレッスンで示した番号と照合する）
承認年月：プレスリリースや記事に記載された日付と一致するか
適応疾患と対象患者：どの疾患に、どの患者集団に使われることが承認されているか
クラス分類：クラスIIとクラスIIIの違い（リスク分類）を確認する

選択肢（自分の専門に合わせて選ぶ）：

選択肢A（消化器・内科向け）：EndoBRAIN-EYE（承認番号30200BZX00208000）を検索し、「大腸ポリープ検出」の対象患者と除外基準を確認する
選択肢B（神経・放射線向け）：EIRL aneurysm（承認番号30100BZX00142000）を検索し、承認時の性能評価条件（施設数・対象動脈瘤サイズ）を確認する
選択肢C（小児科・プライマリケア向け）：nodoca（承認番号30400BZX00101000）を検索し、対象年齢範囲と検証施設の患者背景を確認する。「小児への適用」がどのように記載されているかに注目する
選択肢D（自由選択）：自分の専門に関係するAI医療機器を1件検索し、上記4点を確認する

確認した内容と「自分がこれまで信じていた情報」のズレを記録する。ズレがあった場合、その情報がどこから来ていたか（記事・口頭説明・プレスリリースなど）を振り返る。

参考文献

Kung, T.H., Cheatham, M., Medenilla, A., et al. (2023). Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education. PLOS Digital Health, 2(2), e0000198. DOI: 10.1371/journal.pdig.0000198
Nori, H., King, N., McKinney, S.M., et al. (2023). Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine. arXiv:2303.13375
Singhal, K., Azizi, S., Tu, T., et al. (2023). Large Language Models Encode Clinical Knowledge. Nature, 620, 172–180. DOI: 10.1038/s41586-023-06291-2
Wang, et al. (2025). GPT-5 Technical Report (preprint). arXiv:2508.08224（査読前プレプリント）
PMDA（医薬品医療機器総合機構）. 医療機器情報検索. https://www.pmda.go.jp/PmdaSearch/kikiSearch/
日本消化器内視鏡学会. 2024年保険収載について. https://www.jges.net/news/news-committee/2024/06/26/82697
Acemoglu, D. (2024). The Simple Macroeconomics of AI. NBER Working Paper 32487. https://www.nber.org/papers/w32487
Wong, A., Otles, E., Donnelly, J.P., et al. (2021). External Validation of a Widely Implemented Proprietary Sepsis Prediction Model in Hospitalized Patients. JAMA Internal Medicine, 181(8), 1065–1070. DOI: 10.1001/jamainternmed.2021.2626, PMID: 34152373
PanDerm Research Team. (2025). PanDerm. Nature Medicine. DOI: 10.1038/s41591-025-03747-y
IEA. (2024). Electricity 2024、Analysis and Forecast to 2026. International Energy Agency.