教師あり学習の基礎

実際のデータ分割画面。教師あり学習で訓練、検証、テストを分ける。

教師あり学習で訓練データ、検証データ、テストデータを分けている実画面 — ラベル付きデータを、学ぶデータと最後に試すデータに分ける。

訓練性能と検証性能の差を見て過学習を確認している画面 — 訓練性能だけが高いときは、過学習を疑う。

このレッスンで学ぶこと

このレッスンを完了すると、分類と回帰の違い、訓練データとテストデータの役割、過学習と汎化の概念、そして精度・再現率・F値などの評価指標を理解できるようになります。

セクション1: 分類と回帰

教師あり学習のタスクは、大きく「分類」と「回帰」の2種類に分かれます。

分類（Classification）

分類は、データをあらかじめ定められたカテゴリに分けるタスクです。

医療現場での分類の例：

疾患の判定：患者の症状と検査結果から、疾患の有無を予測
画像診断：胸部X線画像を「正常」「肺炎」「肺がん疑い」に分類
リスク分類：患者を「低リスク」「中リスク」「高リスク」に分類

視点

二値分類と多クラス分類

分類タスクには、2つのカテゴリに分ける二値分類（例：悪性/良性）と、3つ以上のカテゴリに分ける多クラス分類（例：がんのステージI〜IV）があります。医療では二値分類が多く使われますが、実際の臨床では多クラス分類が必要な場面も多くあります。

回帰（Regression）

回帰は、連続的な数値を予測するタスクです。

医療現場での回帰の例：

生存期間の予測：患者データから生存期間（日数）を予測
検査値の予測：現在のデータから将来の検査値（HbA1c等）を予測
治療効果の定量化：治療前後の改善度合いを数値で予測

セクション2: 訓練データとテストデータ

データの分割

機械学習では、手持ちのデータを複数の部分に分割して使います。これは、モデルの「カンニング」を防ぐためです。

基本的な分割（2分割）：

訓練データ（Training Data）：モデルを学習させるためのデータ（70〜80%）
テストデータ（Test Data）：最終的な性能評価に使うデータ（20〜30%）

検証データの役割

実務では3分割がよく使われます：

訓練データ：モデルの学習に使用
検証データ（Validation Data）：モデルの調整（ハイパーパラメータチューニング等）に使用
テストデータ：最終評価にのみ使用（調整中は一切触れない）

注意

データリーケージに注意

テストデータの情報が訓練過程に漏れることを「データリーケージ」と呼びます。医療データでは、同一患者のデータが訓練とテストに分かれてしまう、時系列の未来のデータで過去を予測してしまう、といった形でリーケージが発生しやすいため、分割方法には特に注意が必要です。

セクション3: 過学習と汎化

過学習（Overfitting）

過学習は、モデルが訓練データに過度に適合し、新しいデータに対して性能が低下する現象です。

過学習の兆候：

訓練データでの精度は非常に高い（99%以上など）
テストデータでの精度が大幅に低下する
モデルが訓練データの「ノイズ」まで覚えてしまっている

過学習を防ぐ手法：

正則化：モデルの複雑さにペナルティを課す
早期停止：検証データの性能が悪化し始めたら学習を止める
データ拡張：訓練データの量を増やす
ドロップアウト：学習時にランダムにニューロンを無効化する

汎化（Generalization）

汎化とは、学習したモデルが未知の新しいデータに対しても適切に予測できる能力のことです。

視点

医療における汎化の重要性

医療AIモデルの汎化は特に重要です。ある病院のデータで訓練したモデルが、別の病院のデータでも同様に機能するか（外部バリデーション）は、臨床実装の大きな課題です。患者の人口構成、検査機器の違い、診療プロトコルの差異などが、モデルの汎化性能に影響します。

セクション4: 評価指標

分類の評価指標

精度（Accuracy）：全データのうち、正しく分類された割合。データの偏りが少ない場合に有用。

再現率（Recall / Sensitivity）：実際に陽性のもののうち、正しく陽性と予測できた割合。「見落とし」の少なさを示す。

適合率（Precision）：陽性と予測したもののうち、実際に陽性だった割合。「誤報」の少なさを示す。

F値（F1-score）：再現率と適合率の調和平均。両方のバランスを見る指標。

視点

医療で再現率が重視される理由

がんのスクリーニングを例にとると、再現率が低い＝がんを見落とす可能性が高い、ということを意味します。見落としは患者の命に関わるため、医療では一般に再現率を高く保つことが優先されます。ただし、再現率を上げると誤報（偽陽性）も増えるため、不必要な精密検査のコストとのバランスが求められます。

回帰の評価指標

平均二乗誤差（MSE）：予測値と実際の値の差の二乗の平均。外れ値に敏感。

平均絶対誤差（MAE）：予測値と実際の値の差の絶対値の平均。外れ値に頑健。

決定係数（R²）：モデルがデータの分散をどの程度説明できるかを示す。最大値は1で、0はモデルが平均値予測と同等であることを意味する。訓練データでは通常0以上だが、検証・テストデータではモデルが平均予測より悪い場合に負値をとることがある。

まとめ

このレッスンでは、教師あり学習の基礎を学びました。

重要なポイント：

分類と回帰：分類はカテゴリ予測、回帰は連続値予測
データの分割：訓練・検証・テストの3分割が実務の基本
過学習と汎化：訓練データへの過剰適合を防ぎ、未知データでの性能を高める
評価指標：タスクの目的に合った指標を選択する。医療では再現率が特に重要

明日のアクション

仮想的な疾患スクリーニングモデルを想像してください。精度90%・再現率60%のモデルAと、精度80%・再現率95%のモデルBがあるとします。がんスクリーニングにはどちらが適切か、その理由を考えてみましょう。また、健康診断での一般検査ではどうでしょうか？

参考文献

Hastie T, Tibshirani R, Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd ed. Springer; 2009.
James G, Witten D, Hastie T, Tibshirani R. An Introduction to Statistical Learning. Springer; 2013.
Steyerberg EW, et al. Assessing the performance of prediction models: a framework for traditional and novel measures. Epidemiology. 2010;21(1):128-138. doi:10.1097/EDE.0b013e3181c30fb2