信頼区間と効果量

実際の解釈メモ画面。点推定、95%信頼区間、効果量を並べて読む。

信頼区間の幅と臨床的意義を確認している統計解釈画面 — 方向、大きさ、精度を分けると、p値より実践的に読める。

信頼区間とは何か

信頼区間の定義

信頼区間（Confidence Interval: CI）は、母集団の真の値が含まれると推定される範囲です。

たとえば「新薬群の平均血圧低下量は8.5mmHg、95%信頼区間は [5.2, 11.8]」であれば、母集団における真の平均血圧低下量は5.2mmHgから11.8mmHgの間にあると95%の信頼度で推定されます。

なぜ信頼区間が重要なのか

p値は「差があるかないか」を二値的に判定しますが、信頼区間は「効果がどの程度の範囲にありそうか」を示します。

指標	提供する情報
p値	統計的に有意かどうか（二値判定）
信頼区間	効果の大きさの推定範囲と不確実性

視点

信頼区間はp値より情報量が多い

95%信頼区間が0（差なし）を含まなければp < 0.05に対応し、0を含めばp ≥ 0.05に対応します。つまり信頼区間はp値の情報を含みつつ、効果の大きさと推定精度の情報も同時に提供しています。近年の多くの医学雑誌が信頼区間の報告を推奨しているのはこのためです。

信頼区間の解釈

95%信頼区間の意味

「同じ母集団から同じ方法で100回サンプリングして信頼区間を計算したら、そのうち約95回は真の値を含む」という頻度論的な解釈が正確な意味です。

注意点として、1回の研究で得られた信頼区間について「真の値がこの範囲内にある確率が95%」という解釈は厳密には正しくありません（頻度論の立場では）。ただし実用上は「真の値がこのあたりにある」という合理的な推定範囲として使われます。

信頼区間の幅が示すもの

信頼区間の幅は推定の精度（不確実性）を反映しています。

幅が狭い → 推定が精密（サンプルサイズが大きい、データのばらつきが小さい）
幅が広い → 不確実性が大きい（サンプルサイズが小さい、データのばらつきが大きい）

注意

信頼区間が臨床的に意味のある閾値をまたぐ場合

たとえば降圧薬の効果の95%CIが [−2.0, 8.0] mmHgだった場合、CIが0をまたいでいるので統計的に有意ではありませんが、臨床的に意味のある効果（5mmHg以上の低下）もCIに含まれています。この場合「効果がない」と結論するのではなく、「サンプルサイズが不十分で結論が出せない」と考えるべきです。

効果量とは何か

効果量の定義と重要性

効果量（Effect Size）は、統計的有意性とは独立に「効果の実質的な大きさ」を定量化する指標です。

p値はサンプルサイズに強く依存するため、数万人規模の研究では臨床的にほぼ無意味な差でもp < 0.001になることがあります。効果量はサンプルサイズの影響を受けにくいため、結果の実質的な意義を判断するのに適しています。

効果量の種類

Cohen's d：2群の平均差の標準化

2群の平均の差を共通の標準偏差で割った値です。

Cohen's d	効果の大きさ
0.2	小さい
0.5	中程度
0.8	大きい

例：新薬群と対照群でHbA1cの平均差が0.3%、共通SDが0.6%の場合、Cohen's d = 0.3 / 0.6 = 0.5（中程度の効果）。

相関係数（r）。 2変数の関連の強さ

r	関連の強さ
0.1	小さい
0.3	中程度
0.5	大きい

オッズ比（OR）・リスク比（RR）。二値アウトカムの効果指標

臨床研究で最も頻繁に用いられる効果量指標です。

OR = 1 / RR = 1: 差なし
OR > 1 / RR > 1: リスク増加
OR < 1 / RR < 1: リスク減少

p値と効果量の違い

p値の限界

p値だけでは次の情報がわかりません。

効果の大きさ（臨床的に意味のある差かどうか）
推定の精度（サンプルサイズの影響を受ける）
臨床的な重要性（患者にとっての実際のベネフィット）

効果量が臨床判断を変える

効果量は「統計的に有意かどうか」ではなく「臨床的に意味があるかどうか」の判断材料になります。

比較

p値が同じでも効果量は異なる

研究A（n=10,000）: 新薬で収縮期血圧が平均1.2mmHg低下、p = 0.01、Cohen's d = 0.05（ごく小さい効果）。研究B（n=50）: 新薬で収縮期血圧が平均12mmHg低下、p = 0.08、Cohen's d = 0.8（大きい効果）。p値だけ見ると研究Aが有望に見えますが、効果量を見ると研究Bの方が臨床的には有意義です。研究Bはサンプルサイズを増やせば有意差が出る可能性が高いです。

医療研究での活用

例1：新薬の効果評価

p値: 0.03（統計的に有意）
効果量: Cohen's d = 0.15（小さい効果）
95% CI: [0.5, 3.2] mmHg
解釈: 統計的には有意だが、臨床的には小さい効果。大規模試験でわずかな差が検出された可能性がある。

例2：治療法の比較

p値: 0.08（統計的に有意でない）
効果量: Cohen's d = 0.6（中程度の効果）
95% CI: [−0.5, 8.5] mmHg
解釈: 統計的には有意でないが、効果量は中程度。サンプルサイズ不足でβ過誤（検出力不足）の可能性が高い。追加の研究が望まれる。

まとめ

信頼区間は効果の大きさの推定範囲と不確実性を示す
95%信頼区間が0（差なし）を含むかどうかで有意性も判定できる
効果量はサンプルサイズに依存せず、効果の実質的な大きさを示す
p値、信頼区間、効果量の3つを組み合わせて結果を評価するのが現代の推奨

明日のアクション

PubMedで最近のRCT論文を1本選び、主要アウトカムについて報告されている「p値」「95%信頼区間」「効果量（あれば）」を抜き出してください。p値が有意で効果量が小さいケース、またはその逆のケースがないか確認してみましょう。

参考文献

Wasserstein, R. L., & Lazar, N. A. (2016). The ASA's statement on p-values: Context, process, and purpose. The American Statistician, 70(2), 129-133. DOI: 10.1080/00031305.2016.1154108
Schulz, K. F., Altman, D. G., & Moher, D. (2010). CONSORT 2010 statement: Updated guidelines for reporting parallel group randomised trials. BMJ, 340, c332. DOI: 10.1136/bmj.c332