感度・特異度・ROC曲線

実際の診断性能画面。閾値を動かすと、感度、特異度、ROCの見え方が変わる。

ROC曲線と閾値の関係を確認している実画面 — 閾値の選び方で、見逃しと誤報のバランスが変わる。

感度、特異度、PPV、NPVを確認している診断性能画面 — 感度・特異度だけでなく、PPV/NPVと有病率の影響も一緒に見る。

診断テストの評価

混同行列（Confusion Matrix）

診断テスト（検査やAIモデル）の結果は、次の4つのカテゴリに分類されます。

	実際に病気あり	実際に病気なし
テスト陽性	True Positive (TP)	False Positive (FP)
テスト陰性	False Negative (FN)	True Negative (TN)

TP（真陽性）：病気がある人を正しく陽性と判定
TN（真陰性）：病気がない人を正しく陰性と判定
FP（偽陽性）：病気がないのに陽性と判定（見間違い）
FN（偽陰性）：病気があるのに陰性と判定（見逃し）

この4つの数値から、感度・特異度をはじめとする様々な性能指標が計算されます。

感度（Sensitivity）

定義

感度は、実際に病気がある人のうち、テストで正しく陽性と判定される割合です。

感度 = TP / (TP + FN)

別名として真陽性率（True Positive Rate）、再現率（Recall）とも呼ばれます。機械学習の文脈ではRecallがよく使われます。

感度が高いことの意味

感度が高い → 病気の見逃し（偽陰性）が少ない
感度が低い → 病気を見逃しやすい

視点

スクリーニング検査には高い感度が求められる

がんのスクリーニングや感染症の初回検査など「見逃し」の代償が大きい状況では、高い感度が優先されます。たとえばHIVスクリーニング検査の感度は99.5%以上に設定されています。見逃しによって治療開始が遅れたり感染拡大のリスクがあるためです。

特異度（Specificity）

定義

特異度は、実際に病気がない人のうち、テストで正しく陰性と判定される割合です。

特異度 = TN / (TN + FP)

別名は真陰性率（True Negative Rate）です。

特異度が高いことの意味

特異度が高い → 健常者を誤って陽性と判定すること（偽陽性）が少ない
特異度が低い → 不要な精密検査や治療を発生させやすい

注意

偽陽性のコスト

偽陽性は一見「安全側の間違い」に思えますが、実際には患者への精神的負担、不要な侵襲的検査（生検など）、医療コストの増大を引き起こします。乳がんのマンモグラフィースクリーニングでは偽陽性率の高さが長年の課題であり、不要な生検が多く行われてきたことが指摘されています。

ROC曲線とAUC

ROC曲線とは

ROC（Receiver Operating Characteristic）曲線は、閾値（カットオフ値）を変化させたときの感度と1−特異度（偽陽性率）の関係をプロットした曲線です。

X軸: 1 − 特異度（偽陽性率）
Y軸: 感度（真陽性率）
閾値を連続的に変化させて各点をプロット

曲線が左上隅に近いほど性能が高く、対角線（45度線）に近いほどランダムな予測（コイン投げ）に近いことを意味します。

AUC（Area Under the Curve）

AUCはROC曲線の下の面積で、モデル全体の識別能力を0.5から1.0の間で表す単一の数値です。

AUC	性能評価
0.9 以上	優れた識別能力
0.8 〜 0.9	良好
0.7 〜 0.8	まずまず
0.6 〜 0.7	不十分
0.5	ランダム（識別能力なし）

視点

AUCの直感的な意味

AUC = 0.85とは「ランダムに1人の患者と1人の健常者を選んだ場合、モデルが85%の確率で患者の方に高いスコアを付ける」という意味です。この確率論的な解釈を知っていると、AUCの数値を直感的に理解できます。

感度と特異度のトレードオフ

閾値の選択が鍵

感度と特異度はトレードオフの関係にあります。閾値を下げて陽性判定を広げると感度は上がりますが、特異度は下がります。

このバランスをどこに設定するかは、臨床状況に依存します。

状況	優先する指標	理由
がんスクリーニング	感度	見逃しを最小化したい
確定診断	特異度	偽陽性による不要な治療を避けたい
感染症サーベイランス	感度	感染拡大を防ぎたい
高額な治療の適応判断	特異度	不必要な高額治療を避けたい

最適な閾値の決定方法

Youden指数：感度 + 特異度 − 1 を最大化する閾値
臨床的判断：偽陽性と偽陰性のコストを重み付けして判断
ROC曲線上の点：左上隅に最も近い点を選択

医療AIでの活用例

ある画像診断AIの性能評価結果が以下だったとします。

感度: 0.92（がんを92%検出）
特異度: 0.88（正常を88%正しく判定）
AUC: 0.95（優れた識別能力）

この場合、100人のがん患者のうち92人を正しく検出でき、100人の健常者のうち88人を正しく正常と判定できます。逆に言えば、健常者100人のうち12人が誤って陽性と判定され（偽陽性率 = 1 − 0.88 = 0.12）、がん患者100人のうち8人を見逃します（偽陰性率 = 1 − 0.92 = 0.08）。臨床現場に導入する際は、この12%の偽陽性と8%の偽陰性をどう対処するか（放射線科医のダブルチェックなど）を設計する必要があります。

陽性的中率（PPV）・陰性的中率（NPV）・尤度比

感度と特異度は検査固有の性能指標ですが、臨床現場でより直接的に役立つのは「陽性だった場合に本当に病気である確率（PPV）」と「陰性だった場合に本当に病気でない確率（NPV）」です。

陽性的中率（PPV）

陽性と判定された人のうち、本当に病気がある割合です。

PPV = TP / (TP + FP)

陰性的中率（NPV）

陰性と判定された人のうち、本当に病気がない割合です。

NPV = TN / (TN + FN)

有病率による PPV・NPV の変動

PPVとNPVは感度・特異度と異なり、検査を行う集団の有病率（事前確率）によって大きく変わります。これがベイズの定理の実践的な応用です。

注意

低有病率集団では高感度検査でも PPV が低い

感度0.99・特異度0.99の非常に優れた検査でも、有病率が0.1%（1,000人に1人）の疾患に使うと、陽性者のうち本当に病気があるのは約9%にすぎません（PPV ≈ 0.09）。逆に高感度のスクリーニング検査を高リスク集団に絞って使うと、同じ検査でも PPV は格段に上がります。「どんな患者に使うか」が PPV を左右します。

尤度比（Likelihood Ratio: LR）

尤度比は有病率に依存しない検査性能指標であり、検査結果が事前確率をどれだけ変化させるかを示します。

陽性尤度比（LR+）= 感度 ÷（1 − 特異度）
陰性尤度比（LR−）=（1 − 感度）÷ 特異度

LR+ が高いほど（目安：10以上）陽性結果は診断を強く支持し、LR− が低いほど（目安：0.1以下）陰性結果は疾患を強く除外できます。事前確率にLR+やLR−を掛け合わせることで事後確率を推定できます（Fagan nomogram）。

まとめ

混同行列の4つの要素（TP, TN, FP, FN）が診断性能評価の基礎
感度は「病気を見逃さない能力」、特異度は「健常者を正しく識別する能力」
ROC曲線で閾値ごとの感度・特異度の関係を可視化できる
AUCはモデル全体の識別能力を単一の数値で表す
感度と特異度のバランスは臨床状況に応じて設定する

明日のアクション

診断検査のデータ（TP, FP, FN, TNの4つの値）が与えられた場合に、感度、特異度、陽性的中率（PPV）、陰性的中率（NPV）を手計算で求めてみましょう。たとえば TP=80, FP=20, FN=10, TN=890 のデータで各指標を計算し、臨床的な意味を考察してください。

参考文献

Altman DG, Bland JM. Diagnostic tests 1: sensitivity and specificity. BMJ. 1994;308(6943):1552. DOI 10.1136/bmj.308.6943.1552
Altman DG, Bland JM. Diagnostic tests 2: predictive values. BMJ. 1994;309(6947):102. DOI 10.1136/bmj.309.6947.102