ChatGPTは医療で何ができるのか
まず数字を見る
ChatGPTの医療での実力は、もう「可能性がある」という段階ではない。査読論文で定量的に測定されている。
医師国家試験の成績:
| 試験 | モデル | 正答率 | 出典 |
|---|---|---|---|
| USMLE Step 1-3 | GPT-4 | 86.7% | Nori et al. 2023 [1] |
| 日本医師国試 | GPT-4 | 81.5% (292問) | Yanagita et al. 2023 [2] |
| 日本GM-ITE | GPT-4 vs 研修医 | 70.1% vs 55.8% | Watari et al. 2023 [3] |
| スペイン MIR(リウマチ) | GPT-4 | 93.7% | Madrid-Garcia et al. 2023 [4] |
| メタ分析(45研究) | GPT-4 全体 | 81% (95%CI 78-84) | Liu et al. 2024 [5] |
GPT-4は世界中の医師国試で合格ラインを超えている。日本の研修医の平均スコアも上回った。
医師が実際に使っている場面
試験に強いのはわかった。では実務ではどうか。
いちばん多いのは文書作成だ。
退院サマリー、紹介状、保険の事前承認レター、患者説明文。医師の業務時間の46%が書類仕事に消えているというデータがある。ChatGPTが最も価値を発揮するのはここだ。
英国の研究では、GPT-4が書いた退院サマリーの100%が「許容可能」と判定された。ジュニアドクターが書いたものは92%。GPの60%はAIが書いたことに気づかなかった [6]。
日本では恵寿総合病院がChatGPT活用で退院サマリーの要約時間を67%削減し、年間540時間の効率化を達成している [7]。
鑑別診断の壁打ちも広がっている。
獨協医科大学の廣澤らは、52の複雑症例でGPT-4の鑑別診断精度を検証した。上位10候補に正解が含まれる確率は83%で、医師の75%と統計的に有意差なし [8]。ただしトップ1の正答率は60%で、医師の50%をわずかに上回る程度。「壁打ち相手」としては優秀だが、「診断を任せる」レベルではない。
ChatGPTの限界 — 見逃してはいけないリスク
ハルシネーション率は依然として無視できない。
眼科ボード試験での検証では、GPT-4のハルシネーション率は18%。GPT-3.5では42.4%だった [9]。5回に1回は「もっともらしい嘘」が混じる。
患者説明文は読みやすくなるが、安全確認が要る。
JAMA Network Openの研究では、GPT-4が退院サマリーを患者向けに書き換えると読解レベルがGrade 11→Grade 6.2に下がった(理解しやすくなった)。しかし18%のレビューで安全上の懸念が指摘されている [10]。
患者情報は入れない。
ChatGPTは患者データを処理する設計にはなっていない。個人情報は絶対に入力しない。症例を相談したい場合は、年齢・性別・所見のみの匿名化データを使う。
ChatGPTの出力は必ず医師が確認する
ChatGPTは「確率的にもっともらしい文章を生成する」ツールであり、医学的事実を検証する能力は持っていない。出力は下書きとして扱い、最終確認は常に医師が行う。
まとめ
- GPT-4は世界中の医師国試で合格ライン超え。日本の国試でも81.5%
- 最大の実用価値は文書作成(退院サマリー、紹介状、患者説明文)
- 鑑別診断の壁打ちには使えるが、診断を任せるレベルではない
- ハルシネーション率18%。出力は必ず医師が確認する
- 患者の個人情報は入力しない
参考文献
- Nori H, et al. arXiv:2303.13375. 2023.
- Yanagita Y, et al. JMIR Formative Research. 2023. doi:10.2196/48023.
- Watari T, et al. JMIR Medical Education. 2023. doi:10.2196/52202.
- Madrid-Garcia A, et al. Scientific Reports. 2023. doi:10.1038/s41598-023-49483-6.
- Liu M, et al. J Med Internet Res. 2024. doi:10.2196/60807.
- Clough RAJ, et al. BJGP Open. 2024. doi:10.3399/BJGPO.2023.0116.
- 恵寿総合病院 x Ubie. note.com/ai_komon, 2024.
- Hirosawa T, et al. JMIR Medical Informatics. 2023. doi:10.2196/48808.
- Cai LZ, et al. Am J Ophthalmol. 2023. doi:10.1016/j.ajo.2023.05.024.
- Zaretsky J, et al. JAMA Network Open. 2024. doi:10.1001/jamanetworkopen.2024.0357.