メインコンテンツへスキップ
レッスン 4 / 10|46分で読めます

機械学習の仕組み:データに語らせる

評価指標(PPV/NPV/AUC-ROC)、過学習の実在事例、フェデレーテッド学習、スケーリング則の限界を医療現場の問いとして整理する

機械学習の仕組み:データに語らせる

機械学習の全体像を示すヘッダー画像。左に『医療データ(X線・カルテ)』、矢印を経て中央『パターン抽出(学習)』、右側に『予測モデル(診断・分類)』への流れ。下部に小さな注釈『データの質が、結果の質を決める』、Ark Journal調
データから学ぶ。これがすべての機械学習の出発点であり、限界でもある

2024年11月、PLOS Medicine に掲載された論文を読み直した。ニューヨーク大学とマウントサイナイの研究チームが、胸部X線の肺炎検出AIを3施設のデータで評価した研究だ(Zech et al., 2018)。

結果は単純だった。自施設のデータでは高精度を示した。別施設のデータでは性能が大幅に落ちた。なぜか。AIは「肺炎の画像パターン」ではなく、「どの病院で撮影されたか」を示す画像の特性を学習していた。

この「病院トークン問題」は架空の事例ではない。査読を経た PLOS Medicine の論文として記録されている。そして「自施設で開発したAIを他施設に持ち込むと性能が落ちる」という問題は、2026年4月時点でも解決されていない。

なぜ、こんなことが起きるのか。そして、どう読めばいいのか。機械学習の仕組みを知ることで、論文の数字を批判的に読む眼が養われる。それがこのレッスンのテーマだ。


病院トークン問題を示す概念図。左側に3つの病院(A・B・C)の胸部X線写真、それぞれの隅にスタンプや病院ロゴが小さく見える。中央にAIが矢印で『どの病院か』を学習している様子(病院マークだけ強調)。右側に『他施設で性能落ちる』の警告マーク
AIは『肺炎のパターン』を学んだのではなく、『どの病院で撮影されたか』を学んでいた——データ駆動の落とし穴

1. データ駆動型の本質

「ルールを書く」から「データに語らせる」へ、何が変わったのか。

従来のプログラムはこう動いた。「体温38度以上 AND CRP > 3.0 → 感染症の疑い」。人間が知識をルールとして書き込み、コンピュータはそのルールに従って答えを出す。「ルール + データ → 答え」という流れだ。

機械学習は逆向きに動く。正解ラベルの付いたデータを大量に与え、「どんなルールを使えばこの答えが出るか」をコンピュータに発見させる。「データ + 答え → ルール」だ。

この転換の意味は、「人間が気づかなかったパターンも学習できる」という点にある。医師が言語化できない微妙な所見の組み合わせ、画像の質感の差、数十の検査値の非線形な相互作用。これらを、データが十分にあればAIが自動的に抽出できる。

しかし同時に、この転換は新しいリスクを生んだ。「本質的なパターン」だけでなく、「偶然の相関」も学習してしまうことだ。曜日、撮影機器、病院のルーティン。これらは肺炎とは無関係なはずだが、訓練データの中でたまたま相関していれば、AIはそれも学習する。

L03でも触れたように(シンボリスト vs コネクショニスト)、コネクショニスト的なAIは「訓練分布外で静かに間違える」という失敗パターンを持つ。機械学習の仕組みを理解するとは、この「静かな失敗」がどんな条件で起きるかを知ることだ。


データ分割の概念図。横長の長方形が3つの色分けされた領域に分割されている。左60%(warm beige)『訓練データ Training』、中央20%(muted teal)『検証データ Validation』、右20%(soft terracotta)『テストデータ Test』。各領域の下に小さな説明テキストが添えられ、上部に『同じ患者は同じ区分に』の注記
データを3つに分ける。混ぜると、AIが「答えを覚えていただけ」と区別できなくなる

2. 特徴量とデータ分割

AIが「見る」ものと「評価される」構造はどうなっているか。

機械学習モデルに入力されるデータの各項目を特徴量(feature)と呼ぶ。胸部X線画像であれば数百万のピクセル値、電子カルテからであれば年齢・診断名・検査値の組み合わせがそれにあたる。AIの性能は、何を特徴量として与えるかに大きく依存する。

従来の機械学習では、「どの特徴を使うか」を人間の専門家が設計する必要があった。深層学習は、この設計自体をデータから自動的に行う。AlexNet 以降(Krizhevsky et al., 2012, DOI: 10.5555/2999134.2999257)、医療画像AIが飛躍的に発展した理由のひとつがここにある。

訓練データとテストデータの分割は、AI評価の根幹だ。

データセット目的比率の目安
訓練データモデルの学習60〜70%
検証データハイパーパラメータ調整10〜15%
テストデータ最終的な性能評価20〜30%

この分割で「カンニング」を防ぐ。AIが訓練データを丸暗記しても、テストデータには対応できないはずだ。しかし、PMDAが求めるのはさらに厳しい外部検証だ。訓練に使っていない別施設のデータで性能を確認する。それでも Zech et al.(2018)が示したように、「別施設」のデータでは訓練施設の外で性能が落ちることがある。

なぜ「別施設で性能が落ちる」が問題になるか。医療現場では、AI論文の報告値を「自施設でも出せる精度」と解釈しがちだ。しかし論文の数値は「その研究の患者集団で」の数字だ。自施設の患者集団が訓練データと異なれば、公表性能はそのまま適用できない。これが外的妥当性の問いだ。

問い: この論文の患者集団は、自施設と一致するか

医療AI論文を読むとき、Methodsセクションの4点を確認する習慣をつける。

  1. 指標の定義:感度・特異度・精度とは何を指しているか(定義が論文によって異なる)
  2. 患者集団:年齢・性別・疾患重症度・施設規模
  3. 施設数:単施設か多施設か、外部検証施設があるか
  4. 対照群:比較対象は「何もしない場合」か「専門医」か「他のAI」か

(2026年4月時点、PMDAの医療AI評価ガイドライン準拠)

ImageNet Classification with Deep Convolutional Neural Networks (AlexNet)

AlexNet論文。ImageNet ILSVRC 2012でtop-5 error 15.3%(2位26.2%から10.9ポイント改善)。深層学習による特徴量自動抽出の実証。DOI: 10.5555/2999134.2999257

論文NeurIPS 2012Krizhevsky, A., Sutskever, I., & Hinton, G.E.

評価指標の概念図。左半分に2x2の混同行列(TP/FN/FP/TN)、各セルに色分けと医療例。右半分にAUC-ROC曲線のグラフ、横軸『偽陽性率』、縦軸『真陽性率』、緩やかな上昇曲線とAUC値の数値。下部に『感度・特異度・PPV・NPV』の用語整理
精度の数字は1つではない。何を見落としていいか、何を許容できるかで、見るべき指標が変わる

3. 評価指標の地図

「感度98%」という数字を見たとき、何を問うべきか。

感度と特異度は L03 でも触れた。ここでは、臨床判断に直結する PPV・NPV・AUC-ROC を加えて整理する。

  • 感度(Sensitivity):本当に疾患がある人のうち、AIが正しく検出した割合。見逃しの少なさを示す。スクリーニング場面で重要だ。
  • 特異度(Specificity):本当に疾患がない人のうち、AIが正しく「疾患なし」と判定した割合。誤報の少なさを示す。確定診断前の絞り込みで重要だ。
  • PPV(陽性適中率, Positive Predictive Value):AIが「陽性」と判定した人のうち、本当に疾患がある割合。臨床で実際に使う数字で、「陽性と言われた患者が本当に病気である確率」を意味する。
  • NPV(陰性適中率, Negative Predictive Value):AIが「陰性」と判定した人のうち、本当に疾患がない割合。「陰性と言われた患者が本当に疾患なしである確率」を意味する。
  • AUC-ROC(Area Under the Receiver Operating Characteristic Curve):モデルが陽性と陰性を区別する総合的な能力を 0〜1 で示す。1.0 が完璧、0.5 がランダムと同等。

ここに、臨床で特に重要な落とし穴がある。PPV は有病率(prevalence)に強く依存する。

有病率 0.1% でのPPV計算例

あるスクリーニングAIが「感度 98%、特異度 70%」と報告されている。有病率 0.1%(1000人に1人が疾患あり)の集団で使ったとき、陽性と判定された患者が実際にその疾患である確率(PPV)はどれくらいか。

計算してみる。1000人の集団を想定する。

  • 真の疾患あり: 1人(有病率 0.1%)
  • 真の疾患なし: 999人

感度 98% → AIが疾患ありを正しく検出: 約 0.98人(四捨五入して1人) 特異度 70% → AIが疾患なしを正しく「陰性」と判定: 999人の 70% = 699.3人。逆に言えば、疾患なし 999人のうち 299.7人(約 300人)が誤って「陽性」と判定される(偽陽性)。

陽性判定の合計: 真陽性 ≒ 1人、偽陽性 ≒ 300人。合計 301人。

PPV = 真陽性 / 全陽性 ≒ 1 / 301 ≒ 0.33%

感度 98% のAIを使っても、陽性と言われた患者の約 300人に 1人しか実際には疾患がない。この数字が持つ臨床的意味は重い。301人を精密検査に送り、そのうち 300人は陰性だ。

「感度 98%」という見出しだけを読んで導入を判断する前に、「自施設の有病率ではPPVはいくつか」を計算する習慣が必要だ。

テーゼ vs アンチテーゼ:「感度・特異度が高ければ十分か」

テーゼ(感度・特異度重視)の側は、AUC-ROC が 0.95 であれば、このモデルは陽性と陰性を高精度で区別できる、と考える。論文に示された感度 98%・特異度 95% という数値は、医療現場での有用性を示す十分な根拠だ、というのがこの立場だ。

アンチテーゼ(PPV・事前確率重視)の側は、感度・特異度・AUC-ROC は有病率とは独立した指標だ、と指摘する。PPV は有病率に強く依存するため、論文の患者集団と自施設の有病率が異なれば、論文のPPVをそのまま使えない。稀少疾患のスクリーニングでは、高い感度・特異度でも PPV が驚くほど低くなる(上記計算例参照)。

ジンテーゼとしては、感度・特異度・AUC-ROC は「モデルの能力」を示し、PPV・NPV は「自施設での臨床的有用性」を示す、と整理できる。論文は前者を報告することが多いが、臨床判断に使うには後者を自施設の有病率で計算し直す必要がある。


過学習を示す折れ線グラフ。横軸『訓練エポック数』、縦軸『誤差率』。2本の曲線が描かれている:訓練データの誤差(muted teal、滑らかに低下し続ける)、テストデータの誤差(soft terracotta、最初は下がるが途中から上昇に転じる)。2本の曲線が分岐する点に大きな『過学習開始』の注釈
訓練データだけ覚えこんで、新しい患者には対応できないAI——これが過学習。見抜くにはテストデータでの確認が必要

4. 過学習とは何か

「訓練施設では高精度、別施設では性能が落ちる」という現象の正体が、過学習だ。

過学習(Overfitting)とは、AIが訓練データのパターンに過度に適合し、汎化性能が低下することを指す。本質的なパターンではなく、訓練データに固有の偶然の相関を学んでしまう。

この問題が最も鮮明に示された医療AI研究のひとつが、Zech et al.(2018)だ。

Case Study/ 米国

肺炎検出AIの「病院トークン問題」(Zech et al., PLOS Medicine 2018)

NYUとマウントサイナイの研究チームが、胸部X線で肺炎を検出するディープラーニングAIを、NIH(112,120枚)・Mount Sinai(42,396枚)・Indiana大学(3,807枚)の3施設データを用いて訓練・評価した研究だ。

方法としては、複数の組み合わせ(訓練施設と評価施設を入れ替え)でモデルの汎化性能を検証した。訓練に使った施設のデータで評価した場合と、別施設のデータで評価した場合を比較したものだ。

意義として、AIが「肺炎かどうか」ではなく、「どの施設で撮影されたか」を示す画像の特性を学習していたことを実証した。これを「病院トークン問題」と呼ぶ。撮影機器の特性、プロトコル、患者集団の差が画像に刻まれており、AIはそれを学習していた。

外的妥当性の問いとして読み解くと、機械学習は「与えられたデータの分布を学ぶ」。訓練データに施設固有の偏りがあれば、AIはその偏りも学ぶ。「肺炎を学んだ」ように見えて「A病院のX線を学んだ」かもしれない。この区別は、内部テストデータだけでは判別できない。

同様の施設依存性は、皮膚科AI・眼底AIなど多くの医療画像AIで繰り返し報告されている。PMDAはこのリスクに対応するため、外部検証(別施設データによる評価)を承認要件に組み込んでいる。しかし外部検証済みのAIでも、自施設の患者集団が訓練・検証施設と大きく異なれば同様のリスクが残る。

Variable generalization performance of a deep learning model to detect pneumonia in chest radiographs

胸部X線肺炎検出AIが施設特有の特性(病院トークン)を学習し、別施設で性能が大幅低下することを実証。DOI: 10.1371/journal.pmed.1002683、PMID: 30399157。PLOS Medicineオープンアクセス

論文PLOS Medicine 15(11): e1002683Zech JR, Badgeley MA, Liu M, Costa AB, Titano JJ, Oermann EK

過学習にはもうひとつの構造的な問題がある。クラス不均衡だ。

医療データでは、多くの場合「陰性(疾患なし)」の症例が「陽性(疾患あり)」を大幅に上回る。稀少疾患では 1000 対 1 以上の差になることもある。この不均衡なデータでAIを訓練すると、「すべて陰性と予測する」だけで高精度に見えてしまう問題が起きる。

1000人中1人しか疾患がない集団に対して、「全員陰性」と判定するモデルの精度は 99.9% だ。しかし感度は 0% だ。稀少疾患のスクリーニングでは、精度よりも感度・PPV・AUC-ROC を確認することが不可欠になる。


フェデレーテッド学習のアーキテクチャ図。中央に『中央サーバー(モデル)』、その周囲に4つの病院(A・B・C・D)が円状に配置されている。各病院から細い矢印が中央サーバーに向かい『パラメータ更新だけ送信』のラベル。患者データは病院に留まる様子をローカルアイコンで強調
患者データを動かさずに、AIだけが学ぶ仕組み。プライバシーと精度の両立を、設計で解こうとする試み

5. フェデレーテッド学習

過学習を根本から防ぐには、より多くの施設のデータで訓練することが有効だ。しかし医療データには患者のプライバシーが含まれており、施設間でのデータ共有には大きな制約がある。

この問題を解決しようとするのがフェデレーテッド学習(Federated Learning)だ。

フェデレーテッド学習では、データを一か所に集めない。代わりに、各施設のサーバー内でローカルにAIを訓練し、「どう更新したか」という情報(モデルのパラメータ更新量)だけを中央サーバーに送る。中央サーバーはその更新情報を集約してグローバルモデルを更新し、各施設に送り返す。患者の生データは施設の外に出ない。

施設A: [ローカルデータ] → モデル更新 → [更新情報のみ] →
施設B: [ローカルデータ] → モデル更新 → [更新情報のみ] →  中央集約 → 改善されたモデル
施設C: [ローカルデータ] → モデル更新 → [更新情報のみ] →

日本では、次世代医療基盤法(医療分野の研究開発に資するための匿名加工医療情報に関する法律、2018年施行)が、医療情報の二次利用を匿名化を条件として認める制度を設けている。フェデレーテッド学習はこの制度の下での協調学習において、追加的なプライバシー保護の手段として注目されている。

フェデレーテッド学習が稀少疾患の小児AIにとって特に重要な理由がある。小児データは成人データに比べて絶対量が少ない(L06で詳述する)。一施設だけでは統計的に意味のある量を集めるのが困難だ。フェデレーテッド学習を使えば、複数の小児科病院が患者データを共有することなく協調して学習できる。データ量の問題と、プライバシーの問題を同時に解決しようとするアプローチだ。

ただし技術的な課題もある。施設間でデータの分布が大きく異なる場合(「Non-IID問題」と呼ぶ)、集約したグローバルモデルがどの施設でも中途半端な性能になることがある。フェデレーテッド学習はデータ共有の問題を解決するが、過学習の問題を完全に解決するわけではない。

フェデレーテッド学習の現実:できることとできないこと

できることとして、患者の生データを施設外に出さずに、多施設のデータで協調学習する。データが少ない施設や稀少疾患でも、他施設の知識を利用できる。

できないこと(2026年4月時点)として、Non-IID問題(施設間の分布差)を完全に解消することは難しい。集約したモデルのどこに「施設A由来の偏り」が残っているかを追跡することも、現状では限界がある。フェデレーテッド学習でも、各施設データの品質・ラベルの定義・撮影プロトコルが揃っていなければ、集約モデルの性能は保証されない。


スケーリング則と頭打ちを示す折れ線グラフ。横軸『計算資源(log)』、縦軸『性能』。曲線が最初は急峻に上昇し、徐々に緩やかになり、最終的にほぼ水平に近づく(asymptote)。曲線上に『2018年』『2022年』『2025年』の年マーカー。右上の漸近線付近に『データ枯渇・経済的限界』の注釈
計算資源を増やせば性能は上がる——しかし無限ではない。2025年、増やしてもほとんど上がらない領域に近づいている

6. スケーリングの限界

「データを増やし、モデルを大きくすれば性能は上がる」という考え方を、どこまで信じていいか。

2020年、Kaplan らは言語モデルのスケーリング則(Scaling Laws)を報告した(arXiv:2001.08361、査読前プレプリント)。パラメータ数・データ量・計算量を増やすほど、損失関数が予測可能な形で改善するというものだ。この「法則」は AI 開発コミュニティに強い影響を与え、「より大きなモデル、より多くのデータ」という開発戦略の根拠となった。

2022年、Hoffmann らは「Chinchilla」モデルで、Kaplan らのスケーリング則を修正した(arXiv:2203.15556、査読前プレプリント)。Chinchilla の主張はこうだ。Kaplan らの最適化はパラメータ数に偏りすぎていた。モデルサイズとデータ量を同時に最適化すれば、より小さいモデルでより多くのデータを使うほうが同等以上の性能を出せる。GPT-3(1750億パラメータ)に対して、Chinchilla(700億パラメータ、約4倍のデータ)は同等以上の性能を示した。

テーゼ vs アンチテーゼ:「データを増やせばいいか」

テーゼ(スケーリング信仰)の側は、Kaplan et al. 2020 に依拠する。データ量・パラメータ数・計算量を増やすほど性能は予測可能な形で向上する、という主張だ。「医療データをAIに大量に学習させれば精度が上がる」は自明の帰結とされる(arXiv:2001.08361、査読前プレプリント)。

アンチテーゼ(データ品質・構造の問題)の側は、Hoffmann et al. 2022(Chinchilla)を引く。Kaplan らのスケーリング則はパラメータ偏重で、データ量とモデルサイズの最適バランスがある。さらに、いくら量を増やしても訓練分布から外れた患者集団への汎化は保証されない(arXiv:2203.15556、査読前プレプリント)。Zech et al.(2018)の病院トークン問題は、データ量の問題ではなくデータ分布の問題だ。

ジンテーゼ(2026年4月時点)として整理すれば、「医療データを追加すれば精度が上がる」という単純なスケーリング信仰は危険だ。量とともに、データ品質・患者集団の代表性・外部検証の3点が評価の根拠になる。「大量のデータで訓練した」だけでは、自施設への適用可否の根拠にならない。

Scaling Laws for Neural Language Models

言語モデルのパラメータ数・データ量・計算量と性能の関係を定式化。査読前プレプリント。OpenAIスケーリング戦略の根拠文書。arXiv:2001.08361

論文arXiv:2001.08361Kaplan, J., McCandlish, S., Henighan, T., et al.
Training Compute-Optimal Large Language Models (Chinchilla)

Kaplan らのスケーリング則を修正。Chinchilla(70B)がGPT-3(175B)に同等以上の性能を示した。データ量とモデルサイズの最適バランスを提示。査読前プレプリント。arXiv:2203.15556

論文arXiv:2203.15556Hoffmann, J., Borgeaud, S., Mensch, A., et al.
Deep Learning

深層学習の標準教科書。MIT Pressのオープンアクセス版。過学習・正則化・データ分割・評価指標の基礎が体系的に解説されている。https://www.deeplearningbook.org/

書籍MIT PressGoodfellow, I., Bengio, Y. & Courville, A.
Reinforcement Learning: An Introduction (2nd ed.)

強化学習の標準教科書。MIT Pressのオープンアクセス版。教師あり学習との違い、報酬設計の問題を詳述。http://incompleteideas.net/book/the-book-2nd.html

書籍MIT PressSutton, R.S. & Barto, A.G.

医療AIを評価するためのチェックリスト図。縦に5つの項目が並ぶ。1.『どのデータで訓練?』 2.『どの施設で検証?』 3.『感度/特異度/PPV?』 4.『過学習対策は?』 5.『小児を含むか?』。各項目に小さなチェックボックスとアイコン
論文を読むときも、医療AIを使うときも、この5つを毎回確認する習慣が、最初の防衛線になる

7. 臨床的帰結

機械学習の評価指標は、臨床統計の語彙とほぼ同じだ。しかし使う文脈が変わることで、意味も変わる。

論文に「感度 95%、特異度 90%」と書かれていても、それは「その研究の患者集団・施設・対照群・評価プロトコルで」の数字だ。自施設で同じ数字が出るかどうかは、別の問いだ。

エラーパターンの非対称性という観点では、機械学習モデルは系統的に間違える。Zech et al.(2018)が示したように、施設固有の特性を学習すれば、その施設で外れた集団に対して一貫して誤答する。ランダムに間違えるのではなく、「特定の方向」に間違える。

人間の医師は異なるパターンで間違える。疲弊、確証バイアス、認知的過負荷。特定の患者集団への経験不足。この非対称性は L01 でも触れた通り、「どちらが優れているか」より「どちらをいつ使うか」を設計する根拠になる。

小児科医として付け加えたいことがある。

有病率の問題は小児科で特に重要だ。多くの疾患が成人より低い頻度で現れる。同じ感度・特異度のAIを使っても、成人外来より小児外来のほうが PPV が低くなるケースが多い。さらに、訓練データが成人中心に構築されている場合(L06 で詳述する)、小児集団での PPV・NPV を論文から直接引用することには大きなリスクがある。「このAIは小児データで検証されているか、そのときの有病率は自施設に近いか」という2点の確認が、小児科医が医療AI論文を読む際の最低限のチェックポイントになる。

これはL05で扱う「AIの能力と限界」のテーマとも重なる。モデルの性能だけでなく、そのモデルが「どんな条件で失敗するか」を問う眼が、機械学習の理解から自然に導かれる。


ここまでの整理:わかっていること、わかっていないこと

機械学習の仕組みを7節にわたって辿った。2026年4月時点で、わかっていることとわかっていないことを整理する。

わかっていること

  • 機械学習は「データ + 答え → ルール」の方向で動き、訓練分布内で高精度を示す
  • PPV は有病率に強く依存する。感度・特異度だけでは臨床的有用性を評価できない
  • Zech et al.(2018, PLOS Medicine, PMID: 30399157)が示した病院トークン問題は査読論文として確立しており、施設依存性の過学習が実在することを裏付けている
  • Chinchilla(Hoffmann et al., 2022)はスケーリング則を修正し、データ量とモデルサイズの同時最適化を提案した
  • フェデレーテッド学習はデータ共有なしの協調学習を可能にするが、Non-IID問題を完全に解消するわけではない

わかっていないこと

  • 「自施設の患者集団に論文のAIがどれくらい汎化するか」を事前に予測する確立した手法(2026年4月時点で研究段階)
  • スケーリングがいつ、どの条件で「収穫逓減」に達するか(Chinchilla が提示したのは一定条件下の最適化であり、すべての条件で成立するかは未確立)
  • フェデレーテッド学習で集約したモデルの各施設への性能保証の方法論(理論的な整備が進んでいるが実証は限定的)
  • 稀少疾患・小児データの極端な不足が、フェデレーテッド学習で実用的に解消できるかどうかの臨床的証拠

「論文の数字を信じる」から「論文の数字を問いとして読む」へ。この転換こそが、機械学習を知る実践的な意味だと考えている。

今日のまとめ

3行で振り返ります。

  • 機械学習はパターン抽出マシン。何のパターンを学んでいるかは、データが決める——肺炎ではなく『病院マーク』を学ぶこともある
  • 評価指標は1つではない。感度・特異度・PPV・NPV・AUC-ROC——何を見落とすことが許容できるかで、見るべき数字が変わる
  • 過学習・分布乖離・小児データ不足は構造的な問題。論文の数字をそのまま信じる代わりに、その3つを毎回確認する習慣が必要

次のレッスンへ

L05「AIにできること・できないこと」では、現時点でのAI能力の到達点を、医療現場のタスク別に解像度高く整理する。


明日のアクション

次に医療AIの論文を読む際、以下の3点をチェックリストとして使う。

チェックリスト:AI論文を読む際の最低限の問い

  1. 外的妥当性:訓練データと評価データは別施設か。単施設内部テストだけなら、外部検証の有無を確認する
  2. 自施設との一致:対象患者の年齢・人種・施設規模・疾患有病率は自院と一致するか。特に小児科医は「成人データ中心か、小児が含まれているか」を最初に確認する
  3. 指標の読み方:PPVとNPVが報告されているか。報告されていない場合は、感度・特異度と自施設の有病率からPPVを自分で計算する

数字の意味を自分で確認する一歩。次に使用中または検討中の医療AIの論文を開き、Methodsセクションで「患者集団(対象年齢・除外基準・施設数)」を確認する。その患者集団が自施設の日常診療と一致するかを問う。一致しない場合、論文の精度数値は参考値に過ぎない。

小児科・小児医療に関わる読者には、この確認を「小児データが含まれているか」という軸で行うことを特に勧める。成人データで訓練・検証されたAIに、有病率が異なる小児集団でのPPVを期待することは、数字の誤読につながる。


参考文献

  • Zech, J.R., Badgeley, M.A., Liu, M., Costa, A.B., Titano, J.J., & Oermann, E.K. (2018). Variable generalization performance of a deep learning model to detect pneumonia in chest radiographs: A cross-sectional study. PLOS Medicine, 15(11): e1002683. DOI: 10.1371/journal.pmed.1002683. PMID: 30399157
  • Kaplan, J., McCandlish, S., Henighan, T., et al. (2020). Scaling laws for neural language models. arXiv:2001.08361. 査読前プレプリント
  • Hoffmann, J., Borgeaud, S., Mensch, A., et al. (2022). Training compute-optimal large language models. arXiv:2203.15556. 査読前プレプリント
  • Krizhevsky, A., Sutskever, I., & Hinton, G.E. (2012). ImageNet classification with deep convolutional neural networks. NeurIPS, 25. DOI: 10.5555/2999134.2999257
  • Goodfellow, I., Bengio, Y. & Courville, A. (2016). Deep Learning. MIT Press. https://www.deeplearningbook.org/
  • Sutton, R.S. & Barto, A.G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. http://incompleteideas.net/book/the-book-2nd.html
  • PMDA 医療機器情報検索. https://www.pmda.go.jp/PmdaSearch/kikiSearch/