LLMの臨床推論能力はどこまで来たか
テストの点数と臨床能力のギャップ
2023年、GPT-4がUSMLE全ステップで合格ラインを超えたというニュースは医療界に衝撃を与えました。2026年現在、主要LLMのUSMLE正答率は90%前後に達しています。しかし、テストの成績が高いことと、実臨床で信頼できる推論ができることは同義ではありません。
ベンチマーク成績の推移
| モデル | USMLE Step 1 | USMLE Step 2 CK | MedQA | 日本医師国家試験 |
|---|---|---|---|---|
| GPT-4 (2023) | 86% | 85% | 86% | 78% |
| Claude 3 Opus (2024) | 88% | 87% | 88% | 80% |
| GPT-4o (2024) | 90% | 89% | 90% | 82% |
| Claude 4.5 Sonnet (2025) | 93% | 92% | 93% | 87% |
| Gemini 2 Ultra (2025) | 91% | 90% | 91% | 84% |
数字は印象的ですが、注意点があります。これらのテストは「選択肢から正解を選ぶ」形式であり、実臨床の「情報を自ら収集し、不確実性の中で判断する」プロセスとは本質的に異なります。
LLMが得意な推論タスク
鑑別診断の網羅性
LLMの最大の強みは「思いつかない疾患を提示してくれる」ことです。特に:
- 稀な疾患の想起: 医師が経験したことのない疾患も学習データから提示
- 複数の専門領域にまたがるケース: 内科+精神科+皮膚科のような横断的鑑別
- 非典型例の認識: 「高齢者の心筋梗塞は胸痛がないことがある」のようなパターン
情報の構造化
散在する臨床情報を体系的に整理する能力は高いです。
- 病歴の時系列整理
- Problem Listの作成と優先順位付け
- 検査結果の網羅的解釈
LLMが苦手な推論タスク
文脈に依存した判断
「この患者は3回目の入院で、前回の治療で副作用が出た」のような、個別の文脈に基づく判断はLLMの弱点です。与えられた情報は処理できますが、「何を聞くべきか」「何が欠けているか」を自ら判断する能力は限定的です。
確率の直感的理解
有病率を考慮したベイズ推論はLLMの苦手領域です。「健診で偶然見つかった検査異常」と「救急外来で症状のある患者の同じ検査異常」では解釈が全く異なりますが、LLMはこの文脈の違いを適切に反映しないことがあります。
身体所見の解釈
「触診で肝臓が硬い」「聴診で収縮期雑音がLevine III/VI」のような、身体所見の微妙なニュアンスを画像や数値データなしに解釈することは困難です。
拡張思考モードの臨床的意義
Claude 3.7以降の「拡張思考(Extended Thinking)」やGPT-4oの推論モードは、段階的な思考プロセスを可視化します。これにより:
- 推論の根拠が追跡可能
- 「なぜその鑑別が上位なのか」が明確
- 誤りの発見が容易
単に答えを出すだけでなく、思考プロセスを提示することで、医師がAIの推論を検証しやすくなります。
実臨床での活用ポイント
効果的な使い方
- セカンドオピニオン的活用: 自分の鑑別リストとAIの鑑別リストを比較し、見落としがないか確認
- 稀な疾患のスクリーニング: 非典型的な症状パターンでAIに鑑別を聞く
- 文献知識の補完: 自分の専門外の領域で、最新のエビデンスを確認
やってはいけない使い方
- AIの出力をそのまま採用: 臨床的文脈を無視した鑑別は危険
- 稀な疾患への過度の注目: AIは稀な疾患も平等に列挙するが、実際の確率は低い
- 身体所見なしの診断: AIに画面上の情報だけで最終診断を求めない
まとめ
LLMの臨床推論能力は着実に向上していますが、現時点では「優秀な研修医」に近い立ち位置です。知識は豊富で、構造化は得意、しかし経験に基づく直感や文脈判断は医師に及びません。AIを「置き換え」ではなく「拡張」として位置づけ、医師の臨床判断を強化するツールとして活用することが、現段階での最適解です。