診断テストの評価
混同行列(Confusion Matrix)
診断テスト(検査やAIモデル)の結果は、次の4つのカテゴリに分類されます。
| 実際に病気あり | 実際に病気なし | |
|---|---|---|
| テスト陽性 | True Positive (TP) | False Positive (FP) |
| テスト陰性 | False Negative (FN) | True Negative (TN) |
- TP(真陽性) — 病気がある人を正しく陽性と判定
- TN(真陰性) — 病気がない人を正しく陰性と判定
- FP(偽陽性) — 病気がないのに陽性と判定(見間違い)
- FN(偽陰性) — 病気があるのに陰性と判定(見逃し)
この4つの数値から、感度・特異度をはじめとする様々な性能指標が計算されます。
感度(Sensitivity)
定義
感度は、実際に病気がある人のうち、テストで正しく陽性と判定される割合です。
感度 = TP / (TP + FN)
別名として真陽性率(True Positive Rate)、再現率(Recall)とも呼ばれます。機械学習の文脈ではRecallがよく使われます。
感度が高いことの意味
- 感度が高い → 病気の見逃し(偽陰性)が少ない
- 感度が低い → 病気を見逃しやすい
スクリーニング検査には高い感度が求められる
がんのスクリーニングや感染症の初回検査など「見逃し」の代償が大きい状況では、高い感度が優先されます。たとえばHIVスクリーニング検査の感度は99.5%以上に設定されています。見逃しによって治療開始が遅れたり感染拡大のリスクがあるためです。
特異度(Specificity)
定義
特異度は、実際に病気がない人のうち、テストで正しく陰性と判定される割合です。
特異度 = TN / (TN + FP)
別名は真陰性率(True Negative Rate)です。
特異度が高いことの意味
- 特異度が高い → 健常者を誤って陽性と判定すること(偽陽性)が少ない
- 特異度が低い → 不要な精密検査や治療を発生させやすい
偽陽性のコスト
偽陽性は一見「安全側の間違い」に思えますが、実際には患者への精神的負担、不要な侵襲的検査(生検など)、医療コストの増大を引き起こします。乳がんのマンモグラフィースクリーニングでは偽陽性率の高さが長年の課題であり、不要な生検が多く行われてきたことが指摘されています。
ROC曲線とAUC
ROC曲線とは
ROC(Receiver Operating Characteristic)曲線は、閾値(カットオフ値)を変化させたときの感度と1−特異度(偽陽性率)の関係をプロットした曲線です。
- X軸: 1 − 特異度(偽陽性率)
- Y軸: 感度(真陽性率)
- 閾値を連続的に変化させて各点をプロット
曲線が左上隅に近いほど性能が高く、対角線(45度線)に近いほどランダムな予測(コイン投げ)に近いことを意味します。
AUC(Area Under the Curve)
AUCはROC曲線の下の面積で、モデル全体の識別能力を0.5から1.0の間で表す単一の数値です。
| AUC | 性能評価 |
|---|---|
| 0.9 以上 | 優れた識別能力 |
| 0.8 〜 0.9 | 良好 |
| 0.7 〜 0.8 | まずまず |
| 0.6 〜 0.7 | 不十分 |
| 0.5 | ランダム(識別能力なし) |
AUCの直感的な意味
AUC = 0.85とは「ランダムに1人の患者と1人の健常者を選んだ場合、モデルが85%の確率で患者の方に高いスコアを付ける」という意味です。この確率論的な解釈を知っていると、AUCの数値を直感的に理解できます。
感度と特異度のトレードオフ
閾値の選択が鍵
感度と特異度はトレードオフの関係にあります。閾値を下げて陽性判定を広げると感度は上がりますが、特異度は下がります。
このバランスをどこに設定するかは、臨床状況に依存します。
| 状況 | 優先する指標 | 理由 |
|---|---|---|
| がんスクリーニング | 感度 | 見逃しを最小化したい |
| 確定診断 | 特異度 | 偽陽性による不要な治療を避けたい |
| 感染症サーベイランス | 感度 | 感染拡大を防ぎたい |
| 高額な治療の適応判断 | 特異度 | 不必要な高額治療を避けたい |
最適な閾値の決定方法
- Youden指数 — 感度 + 特異度 − 1 を最大化する閾値
- 臨床的判断 — 偽陽性と偽陰性のコストを重み付けして判断
- ROC曲線上の点 — 左上隅に最も近い点を選択
医療AIでの活用例
ある画像診断AIの性能評価結果が以下だったとします。
- 感度: 0.92(がんを92%検出)
- 特異度: 0.88(正常を88%正しく判定)
- AUC: 0.95(優れた識別能力)
この場合、100人のがん患者のうち92人を正しく検出でき、100人の健常者のうち88人を正しく正常と判定できます。臨床現場に導入する際は、残り8%の偽陽性と8%の偽陰性をどう対処するか(放射線科医のダブルチェックなど)を設計する必要があります。
まとめ
- 混同行列の4つの要素(TP, TN, FP, FN)が診断性能評価の基礎
- 感度は「病気を見逃さない能力」、特異度は「健常者を正しく識別する能力」
- ROC曲線で閾値ごとの感度・特異度の関係を可視化できる
- AUCはモデル全体の識別能力を単一の数値で表す
- 感度と特異度のバランスは臨床状況に応じて設定する
明日のアクション
診断検査のデータ(TP, FP, FN, TNの4つの値)が与えられた場合に、感度、特異度、陽性的中率(PPV)、陰性的中率(NPV)を手計算で求めてみましょう。たとえば TP=80, FP=20, FN=10, TN=890 のデータで各指標を計算し、臨床的な意味を考察してください。