LLMの臨床推論能力はどこまで来たか

テストの点数と臨床能力のギャップ

2023年、GPT-4がUSMLE全ステップで合格ラインを超えたというニュースは医療界に衝撃を与えました。2026年現在、主要LLMのUSMLE正答率は90%前後に達しています。しかし、テストの成績が高いことと、実臨床で信頼できる推論ができることは同義ではありません。

ベンチマーク成績の推移

モデル	USMLE Step 1	USMLE Step 2 CK	MedQA	日本医師国家試験
GPT-4 (2023)	86%	85%	86%	78%
Claude 3 Opus (2024)	88%	87%	88%	80%
GPT-4o (2024)	90%	89%	90%	82%
Claude 4.5 Sonnet (2025)	93%	92%	93%	87%
Gemini 2 Ultra (2025)	91%	90%	91%	84%

数字は印象的ですが、注意点があります。これらのテストは「選択肢から正解を選ぶ」形式であり、実臨床の「情報を自ら収集し、不確実性の中で判断する」プロセスとは本質的に異なります。

LLMが得意な推論タスク

鑑別診断の網羅性

LLMの最大の強みは「思いつかない疾患を提示してくれる」ことです。特に：

稀な疾患の想起: 医師が経験したことのない疾患も学習データから提示
複数の専門領域にまたがるケース: 内科＋精神科＋皮膚科のような横断的鑑別
非典型例の認識: 「高齢者の心筋梗塞は胸痛がないことがある」のようなパターン

情報の構造化

散在する臨床情報を体系的に整理する能力は高いです。

病歴の時系列整理
Problem Listの作成と優先順位付け
検査結果の網羅的解釈

LLMが苦手な推論タスク

文脈に依存した判断

「この患者は3回目の入院で、前回の治療で副作用が出た」のような、個別の文脈に基づく判断はLLMの弱点です。与えられた情報は処理できますが、「何を聞くべきか」「何が欠けているか」を自ら判断する能力は限定的です。

確率の直感的理解

有病率を考慮したベイズ推論はLLMの苦手領域です。「健診で偶然見つかった検査異常」と「救急外来で症状のある患者の同じ検査異常」では解釈が全く異なりますが、LLMはこの文脈の違いを適切に反映しないことがあります。

身体所見の解釈

「触診で肝臓が硬い」「聴診で収縮期雑音がLevine III/VI」のような、身体所見の微妙なニュアンスを画像や数値データなしに解釈することは困難です。

拡張思考モードの臨床的意義

Claude 3.7以降の「拡張思考（Extended Thinking）」やGPT-4oの推論モードは、段階的な思考プロセスを可視化します。これにより：

推論の根拠が追跡可能
「なぜその鑑別が上位なのか」が明確
誤りの発見が容易

単に答えを出すだけでなく、思考プロセスを提示することで、医師がAIの推論を検証しやすくなります。

実臨床での活用ポイント

効果的な使い方

セカンドオピニオン的活用: 自分の鑑別リストとAIの鑑別リストを比較し、見落としがないか確認
稀な疾患のスクリーニング: 非典型的な症状パターンでAIに鑑別を聞く
文献知識の補完: 自分の専門外の領域で、最新のエビデンスを確認

やってはいけない使い方

AIの出力をそのまま採用: 臨床的文脈を無視した鑑別は危険
稀な疾患への過度の注目: AIは稀な疾患も平等に列挙するが、実際の確率は低い
身体所見なしの診断: AIに画面上の情報だけで最終診断を求めない

まとめ

LLMの臨床推論能力は着実に向上していますが、現時点では「優秀な研修医」に近い立ち位置です。知識は豊富で、構造化は得意、しかし経験に基づく直感や文脈判断は医師に及びません。AIを「置き換え」ではなく「拡張」として位置づけ、医師の臨床判断を強化するツールとして活用することが、現段階での最適解です。

LLMの臨床推論能力はどこまで来たか

LLMの臨床推論能力はどこまで来たか

テストの点数と臨床能力のギャップ

ベンチマーク成績の推移

LLMが得意な推論タスク

鑑別診断の網羅性

情報の構造化

LLMが苦手な推論タスク

文脈に依存した判断

確率の直感的理解

身体所見の解釈

拡張思考モードの臨床的意義

実臨床での活用ポイント

効果的な使い方

やってはいけない使い方

まとめ

関連する学習コース

関連するナレッジ

小児発熱アセスメント

マスター診断推論エンジン

臨床スコア計算と解釈の自動化

コメント