メインコンテンツへスキップ
レッスン 4 / 8|12分で読めます

相関と回帰分析

相関係数の解釈、相関と因果の区別、単回帰・重回帰分析の基礎、決定係数の評価方法を学びます

相関とは何か

相関の定義

相関は2つの変数間の線形関係の強さと方向を表します。

  • 正の相関 — 一方が増えると他方も増える(例:年齢と収縮期血圧)
  • 負の相関 — 一方が増えると他方が減る(例:運動量と体脂肪率)
  • 相関なし — 2変数間に線形関係がない

相関係数(r)

ピアソンの相関係数は −1 から 1 の値をとります。

r の値解釈
r = 1完全な正の相関
r = 0相関なし
r = −1完全な負の相関

実用的な目安として、以下のように解釈されることが多いです。

| |r| の範囲 | 関連の強さ | |---|---| | 0.7 以上 | 強い相関 | | 0.3 〜 0.7 | 中程度の相関 | | 0.3 未満 | 弱い相関 |

ピアソンのrは線形関係のみを捉える

ピアソンの相関係数は直線的な関係だけを測定します。U字型やJ字型などの非線形関係がある場合、r ≒ 0 でも実際には強い関連があることがあります。たとえば BMI と死亡率はJ字型(U字型)の関係を示しますが、相関係数だけでは見逃します。散布図を描くことが大切です。


相関と因果の違い

根本原則

相関は因果関係を意味しない(Correlation does not imply causation)

これは統計学で最も重要な原則の一つです。

交絡因子の存在

2変数の相関が見かけ上のものである場合、背後に共通の原因(交絡因子)が存在していることがあります。

古典的な例:

  • アイスクリームの売上と溺死者数に正の相関がある
  • しかし、アイスクリームが溺死の原因ではない
  • 共通の原因(気温の上昇)がどちらも増加させている

医療での例:

  • コーヒー摂取量と肺がん発症率に正の相関が観察された
  • しかしコーヒーが肺がんの原因ではなく、コーヒーをよく飲む人は喫煙率も高い傾向があった
  • 交絡因子(喫煙)を調整すると相関は消失した

因果関係を示すための条件

因果関係を示すにはBradford Hillの基準(関連の強さ、一貫性、特異性、時間的関係、量反応関係、生物学的妥当性、整合性、実験的証拠、類似性の9つ)が参考になります。最も強力な因果推論の手法はランダム化比較試験(RCT)です。


回帰分析の基礎

回帰分析とは

回帰分析は、1つ以上の説明変数(独立変数)から目的変数(従属変数)を予測・説明するための統計手法です。

相関分析が「関連があるか」を見るのに対し、回帰分析は「どの程度予測できるか」「各要因がどの程度影響するか」を定量化します。

単回帰分析

1つの説明変数から目的変数を予測します。

y = a + bx
  • y: 目的変数(予測したい変数、例:収縮期血圧)
  • x: 説明変数(予測に使う変数、例:年齢)
  • a: 切片(xが0のときのyの推定値)
  • b: 回帰係数(xが1単位増えたときのyの変化量)

たとえば「年齢と収縮期血圧」の回帰分析で y = 80 + 0.5x が得られた場合、年齢が1歳上がるごとに収縮期血圧は約0.5mmHg上昇すると解釈できます。

重回帰分析

複数の説明変数を同時に考慮する分析です。

y = a + b₁x₁ + b₂x₂ + ... + bₙxₙ

医療研究では、年齢、性別、BMI、併存疾患など複数の因子を同時に投入して、各因子の独立した影響を評価します。交絡因子の調整にも用いられます。


回帰分析の評価

決定係数(R²)

決定係数はモデルの当てはまりの良さ(説明力)を0から1で表します。

解釈
0.8説明変数がアウトカムの変動の80%を説明
0.3説明変数がアウトカムの変動の30%を説明

R²の目安は分野によって異なる

物理学などの精密科学ではR² > 0.9が求められますが、生物医学研究ではR² = 0.3〜0.5でも有用なモデルとされることがあります。人間の生体データは個人差が大きいため、100%の説明は現実的ではありません。R²の絶対値よりも、臨床的に有用な予測ができるかどうかが重要です。

残差の確認

残差(実測値と予測値の差)のパターンは、モデルの妥当性を判断する上で重要です。

  • 残差がランダムに散らばっている → モデルは適切
  • 残差にパターンがある(U字型など) → 非線形の関係がある可能性
  • 残差に外れ値がある → 影響力の強いデータ点の確認が必要

医療研究での活用

例1:血圧と年齢の関係

  • 年齢が増加すると収縮期血圧が上昇する傾向
  • 単回帰で関係を定量化し、年齢から血圧を予測
  • ただし年齢以外の因子(塩分摂取、運動習慣など)も影響するため重回帰が望ましい

例2:薬物投与量と効果の関係

  • 用量反応関係の評価に回帰分析を利用
  • 最適な投与量の決定
  • 非線形の用量反応関係にはロジスティック回帰や非線形回帰を使用

例3:リスクスコアの開発

  • 複数の臨床パラメータを組み合わせてリスク予測モデルを構築
  • Framinghamリスクスコア、CHA₂DS₂-VAScスコアなどが代表的
  • 重回帰分析やロジスティック回帰分析が基盤技術

まとめ

  • 相関係数は2変数の線形関係の強さを −1 から 1 で表す
  • 相関は因果関係を意味しない — 交絡因子の存在を常に考慮する
  • 単回帰分析は1つの説明変数、重回帰分析は複数の説明変数で予測モデルを構築する
  • 決定係数(R²)でモデルの説明力を評価するが、分野によって目安は異なる
  • 残差の確認でモデルの妥当性を検証する

明日のアクション

Excelまたは統計ソフトを使い、公開されている医療データ(例:年齢と収縮期血圧、BMIと空腹時血糖など)で散布図を描き、相関係数を計算してみましょう。次に単回帰分析を行い、回帰式とR²を求めて「xが10増えたらyはどのくらい変わるか」を解釈してください。