ChatGPTで医療、どこまでいける？（実力と限界）

このレッスンで終わる頃には

ChatGPTが医療でどのくらい使えるかが、査読論文の数字で分かる
任せきりにしてはいけない弱点が、頭に入っている

「可能性がある」から「実力が測られた」段階へ

ChatGPTの医療での実力は、すでに査読論文で検証が進んでいます。まず数字で全体像をつかみましょう。

医師国家試験などの成績

試験	モデル	正答率
USMLE Step 1-3	GPT-4	86.7% [1]
日本医師国試	GPT-4	81.5% [2]
日本GM-ITE（研修医テスト）	GPT-4	70.1%（研修医平均55.8%を上回る）[3]
スペインMIR（リウマチ）	GPT-4	93.7% [4]
メタ分析（45研究）	GPT-4全体	81% [5]

GPT-4は各国の医師国試で合格ラインを超え、日本の研修医平均も上回りました。

視点

数字を読むときの前提

これらは執筆時点でGPT-4世代を検証した結果です。モデルは世代を重ねており、新しい世代ではさらに高い数字が出る可能性があります。ただし、後半で挙げる弱点は世代が変わっても残るため、点数の高さと「任せてよいか」は分けて考えてください。

医師が実際に使っている場面

最も多いのは文書作成です。医師の業務時間のうち相当部分が書類仕事に充てられており、ここがChatGPTの価値の出やすい領域です。

退院サマリー
紹介状
保険の事前承認レター
患者説明文

英国の研究では、GPT-4が書いた退院サマリーの100%が「許容可能」と判定され、ジュニアドクターが書いたものは92%でした。一般医（GP）の60%は、AIが書いたものと気づかなかったと報告されています [6]。日本の恵寿総合病院では、ChatGPT活用で退院サマリーの要約時間を67%削減し、年間540時間の節約につながったと報告されています [7]。

すでに先進事例というより、実務で使われ始めている段階です。

鑑別診断の壁打ちとしても有用

獨協医科大学の廣澤先生の研究 [8] では、52の複雑症例でGPT-4の鑑別診断精度を検証しています。

上位10候補に正解が含まれる確率は83%
医師（75%）と統計的に有意差なし

ただし、トップ1の正答率は60%（医師50%）にとどまります。壁打ち相手としては有用でも、診断を任せる段階ではありません。この距離感が大切です。

押さえておくべき弱点、3つ

実力はあります。それでも、任せきりにしてよい道具ではありません。次の3つを押さえれば、事故は防げます。

ChatGPTの3つの弱点：ハルシネーション18%、安全確認の必要性、患者情報の取り扱い — どれか1つでも崩れると、医師としての責任に関わる。3つセットで頭に入れる。

ChatGPTの入力欄に、実症例や個人情報を入れず、診断や薬剤量を任せない条件を書いている画面 — まず入力前に、入れない情報と任せない判断を明確にします。

実際のChatGPT画面で、医療用途の入力前・出力後チェックを作る流れです。

ChatGPTが入力前に削る情報、任せてよい範囲、医師が確認する項目を整理した画面 — 出力はチェックリストとして受け取り、診断・薬剤量・治療方針は医師が確認します。

1. ハルシネーション

眼科ボード試験での検証で、GPT-4のハルシネーション率は18%でした（GPT-3.5は42.4%）[9]。およそ5回に1回は、もっともらしい誤りが混ざるということです。確認せずに信じてはいけません。

2. 患者説明文は読みやすくなるが、安全確認が要る

JAMA Network Openの研究 [10] では、GPT-4で退院サマリーを患者向けに書き換えたところ、読解レベルがGrade 11からGrade 6.2に下がりました（理解しやすくなった）。一方で、18%のレビューで安全上の懸念が指摘されています。読みやすくなることと、正確であることは別です。

3. 患者情報は入力しない

これが最も重要です。ChatGPTは、患者データを安全に処理する設計にはなっていません。症例を相談したい場合は、次を守ってください。

氏名・生年月日・患者ID は除去する
「40代男性、高血圧、胸痛」程度の一般化した情報にとどめる
家族構成・職業・住所など、特定につながる情報は避ける

これを守れないと、守秘義務にも関わるリスクがあります。

注意

出力は必ず自分の目で

ChatGPTは確率的にもっともらしい文章を生成する道具で、医学的事実を検証する能力は持っていません。出力は下書きとして扱い、最終確認は医師自身の責任で行ってください。この使い分けを守れば、事故は防げます。

まとめ

GPT-4は医師国試の合格ラインを超え、日本の国試で81.5%、研修医平均も上回った
実用価値が高いのは文書作成（退院サマリー、紹介状、患者説明文）
鑑別診断は壁打ち相手として有用だが、診断を任せる段階ではない
ハルシネーションがあるため、必ず自分の目で確認する
患者の個人情報は入力しない（匿名化して一般化する）

次は、ChatGPTの出力を安定して良くするプロンプトの書き方を扱います。この差で使いこなしが大きく変わります。

参考文献

Nori H, et al. arXiv:2303.13375. 2023.
Yanagita Y, et al. JMIR Formative Research. 2023.
Watari T, et al. JMIR Medical Education. 2023.
Madrid-Garcia A, et al. Scientific Reports. 2023.
Liu M, et al. J Med Internet Res. 2024.
Clough RAJ, et al. BJGP Open. 2024.
恵寿総合病院 × Ubie. note.com/ai_komon, 2024.
Hirosawa T, et al. JMIR Medical Informatics. 2023.
Cai LZ, et al. Am J Ophthalmol. 2023.
Zaretsky J, et al. JAMA Network Open. 2024.