メインコンテンツへスキップ
診断支援|記事

LLMの臨床推論能力はどこまで来たか

GPT-4、Claude、Geminiなど大規模言語モデルの医学知識テスト成績と、実臨床での推論能力の現状を検証する

Ken OkamotoKen Okamoto|2026-03-027分で読めます
LLM臨床推論USMLE鑑別診断ベンチマークGPT-4Claude

LLMの臨床推論能力はどこまで来たか

テストの点数と臨床能力のギャップ

2023年、GPT-4がUSMLE全ステップで合格ラインを超えたというニュースは医療界に衝撃を与えました。2026年現在、主要LLMのUSMLE正答率は90%前後に達しています。しかし、テストの成績が高いことと、実臨床で信頼できる推論ができることは同義ではありません。

ベンチマーク成績の推移

モデルUSMLE Step 1USMLE Step 2 CKMedQA日本医師国家試験
GPT-4 (2023)86%85%86%78%
Claude 3 Opus (2024)88%87%88%80%
GPT-4o (2024)90%89%90%82%
Claude 4.5 Sonnet (2025)93%92%93%87%
Gemini 2 Ultra (2025)91%90%91%84%

数字は印象的ですが、注意点があります。これらのテストは「選択肢から正解を選ぶ」形式であり、実臨床の「情報を自ら収集し、不確実性の中で判断する」プロセスとは本質的に異なります。

LLMが得意な推論タスク

鑑別診断の網羅性

LLMの最大の強みは「思いつかない疾患を提示してくれる」ことです。特に:

  • 稀な疾患の想起: 医師が経験したことのない疾患も学習データから提示
  • 複数の専門領域にまたがるケース: 内科+精神科+皮膚科のような横断的鑑別
  • 非典型例の認識: 「高齢者の心筋梗塞は胸痛がないことがある」のようなパターン

情報の構造化

散在する臨床情報を体系的に整理する能力は高いです。

  • 病歴の時系列整理
  • Problem Listの作成と優先順位付け
  • 検査結果の網羅的解釈

LLMが苦手な推論タスク

文脈に依存した判断

「この患者は3回目の入院で、前回の治療で副作用が出た」のような、個別の文脈に基づく判断はLLMの弱点です。与えられた情報は処理できますが、「何を聞くべきか」「何が欠けているか」を自ら判断する能力は限定的です。

確率の直感的理解

有病率を考慮したベイズ推論はLLMの苦手領域です。「健診で偶然見つかった検査異常」と「救急外来で症状のある患者の同じ検査異常」では解釈が全く異なりますが、LLMはこの文脈の違いを適切に反映しないことがあります。

身体所見の解釈

「触診で肝臓が硬い」「聴診で収縮期雑音がLevine III/VI」のような、身体所見の微妙なニュアンスを画像や数値データなしに解釈することは困難です。

拡張思考モードの臨床的意義

Claude 3.7以降の「拡張思考(Extended Thinking)」やGPT-4oの推論モードは、段階的な思考プロセスを可視化します。これにより:

  • 推論の根拠が追跡可能
  • 「なぜその鑑別が上位なのか」が明確
  • 誤りの発見が容易

単に答えを出すだけでなく、思考プロセスを提示することで、医師がAIの推論を検証しやすくなります。

実臨床での活用ポイント

効果的な使い方

  1. セカンドオピニオン的活用: 自分の鑑別リストとAIの鑑別リストを比較し、見落としがないか確認
  2. 稀な疾患のスクリーニング: 非典型的な症状パターンでAIに鑑別を聞く
  3. 文献知識の補完: 自分の専門外の領域で、最新のエビデンスを確認

やってはいけない使い方

  1. AIの出力をそのまま採用: 臨床的文脈を無視した鑑別は危険
  2. 稀な疾患への過度の注目: AIは稀な疾患も平等に列挙するが、実際の確率は低い
  3. 身体所見なしの診断: AIに画面上の情報だけで最終診断を求めない

まとめ

LLMの臨床推論能力は着実に向上していますが、現時点では「優秀な研修医」に近い立ち位置です。知識は豊富で、構造化は得意、しかし経験に基づく直感や文脈判断は医師に及びません。AIを「置き換え」ではなく「拡張」として位置づけ、医師の臨床判断を強化するツールとして活用することが、現段階での最適解です。

コメント