推測統計の基礎：仮説検定とp値

実際の検定メモ画面。仮説、検定手法、p値、解釈を順に確認する。

仮説検定の手順を画面上で整理している実画面 — p値だけを見る前に、研究疑問と検定の前提を確認する。

p値と一緒に効果量、信頼区間、臨床意義を確認している画面 — p値は判断材料のひとつ。効果量、信頼区間、臨床意義と合わせて読む。

推測統計とは何か

サンプルと母集団

推測統計では、手元のサンプル（標本）から母集団全体について推測を行います。

母集団：研究対象となる集団全体（例：日本のすべての2型糖尿病患者）
サンプル：母集団から抽出した一部（例：A病院で研究に参加した100人の2型糖尿病患者）

全員を調査する悉皆調査は時間的にもコスト的にも現実的ではないため、サンプルを用いて母集団の特性を推測します。ここで重要なのは、サンプルが母集団を適切に代表しているかどうかです。偏ったサンプルからは正しい推測ができません。

視点

ランダムサンプリングの意義

推測統計が有効に機能する前提は「サンプルが母集団を代表していること」です。ランダムサンプリングはその前提を確保する最も信頼性の高い方法です。臨床試験で参加者をランダムに治療群と対照群に割り付ける（ランダム化）のも、同じ原理に基づいています。

仮説検定の基礎

仮説検定の手順

仮説検定は、データに基づいて仮説を検証する統計的な枠組みです。以下の手順で進めます。

帰無仮説（H₀）を立てる：「差がない」「効果がない」という仮説
対立仮説（H₁）を立てる：帰無仮説の反対、検証したい仮説
検定統計量を計算：データから統計量（t値、χ²値など）を算出
p値を計算：帰無仮説が正しい場合に、観測データ以上に極端な結果が偶然得られる確率
判断：p値と有意水準を比較して帰無仮説を棄却するか判断

具体例：新規降圧薬の効果検定

ある製薬会社が新しい降圧薬を開発し、既存薬と比較したいとします。

H₀（帰無仮説）: 新薬と既存薬で血圧低下量に差がない
H₁（対立仮説）: 新薬と既存薬で血圧低下量に差がある
検定: 対応のないt検定を実施
結果: p = 0.03 → 有意水準0.05で帰無仮説を棄却 → 「統計的に有意な差がある」

注意

「有意な差がある」≠「臨床的に意味がある差」

統計的有意性は、サンプルサイズが十分に大きければ、臨床的にはほとんど意味のない微小な差でも検出できます。p = 0.03で有意だとしても、血圧低下が1mmHgだけなら臨床的には無意味です。p値と一緒に効果量や信頼区間を確認する習慣が重要です。

p値とは何か

p値の定義

p値は「帰無仮説が正しいと仮定した場合に、観測された結果以上に極端な結果が偶然得られる確率」です。

p < 0.05 → 統計的に有意（5%の有意水準）
p ≥ 0.05 → 統計的に有意でない

p値に関する誤解

p値は最も誤解されやすい統計概念の一つです。

よくある誤解	正しい理解
p値は「帰無仮説が正しい確率」	p値は「帰無仮説が正しい場合に、このデータ以上に極端な結果が得られる確率」
p値は「効果の大きさ」を示す	p値はサンプルサイズに依存し、効果の大きさとは無関係
p < 0.05なら確実に差がある	有意水準0.05では20回に1回は偶然でも有意になる
p ≥ 0.05なら差がない	「差がないとは言えない」だけであり、差がないことの証明ではない

有意水準（α）

有意水準は帰無仮説を棄却する基準値です。

α = 0.05（5%）が最も一般的
α = 0.01（1%）はより厳格な基準
ゲノムワイド関連解析（GWAS）では多重検定が膨大になるため α = 5×10⁻⁸ が標準として使われる

視点

なぜ0.05なのか

有意水準0.05に深い理論的根拠はありません。統計学者のRonald Fisherが「便利な基準」として提案したものが慣例化したのです。近年のASA（米国統計学会）声明では、p < 0.05を機械的に「有意/非有意」に二分する慣行への懸念が表明されています。

第一種の過誤と第二種の過誤

仮説検定では2種類の誤りが起こりえます。

第一種の過誤（Type I Error）。偽陽性

帰無仮説が正しい（本当は差がない）のに、誤って棄却してしまうことです。

確率は有意水準 α で制御される（α = 0.05 なら5%の確率で起こる）
医療での例：実際には効果のない薬を「効果あり」と判断してしまう

第二種の過誤（Type II Error）。偽陰性

帰無仮説が間違っている（本当は差がある）のに、棄却できないことです。

確率は β で表される
医療での例：実際に有効な薬の効果を検出できず「効果なし」と判断してしまう

検出力（Power）

検出力は「実際に差がある場合に、正しくそれを検出できる確率」であり、1 − β で計算されます。

通常 80%以上（β ≤ 0.20）が望ましいとされる
検出力を高めるには：サンプルサイズを増やす、効果量が大きい場合に高くなる、測定の精度を上げる

比較

第一種の過誤 vs 第二種の過誤：医療での影響

がんのスクリーニング検査を例に考えると、第一種の過誤（偽陽性）は健常者に不必要な精密検査・不安を与えます。第二種の過誤（偽陰性）はがん患者を見逃し、治療開始が遅れます。どちらの過誤がより深刻かは状況依存ですが、一般にスクリーニングでは偽陰性（見逃し）を減らす方向に閾値を設定します。

医療研究での主要な検定手法

t検定

2つのグループの平均値を比較する検定です。

対応のないt検定（独立2標本t検定）：独立した2群の比較（例：新薬群 vs プラセボ群）
対応のあるt検定（対応ありt検定）：同一対象の前後比較（例：治療前 vs 治療後の血圧）

カイ二乗検定（χ²検定）

カテゴリカルデータの関連を検定します。

疾患の有無 × 治療法の関連
性別 × 副作用発生の関連
期待度数が5未満のセルがある場合はFisherの正確検定を使用

分散分析（ANOVA）

3群以上の平均値を同時に比較する検定です。

複数の治療法の効果比較
年齢層別の検査値比較
有意差が見つかった場合は多重比較（Tukey法、Bonferroni法など）で群間の差を特定

まとめ

推測統計はサンプルから母集団全体を推測する枠組み
仮説検定は帰無仮説→対立仮説→検定統計量→p値→判断の手順で進む
p値は「偶然でその結果が得られる確率」であり、効果の大きさや仮説の正しさを示すものではない
第一種の過誤（偽陽性）と第二種の過誤（偽陰性）のバランスを理解する
検出力は80%以上を目標にサンプルサイズを設計する

参考文献

Wasserstein, R. L., & Lazar, N. A. (2016). The ASA Statement on p-Values: Context, Process, and Purpose. The American Statistician, 70(2), 129–133. https://doi.org/10.1080/00031305.2016.1154108
Wasserstein, R. L., Schirm, A. L., & Lazar, N. A. (2019). Moving to a World Beyond "p < 0.05." The American Statistician, 73(sup1), 1–19. https://doi.org/10.1080/00031305.2019.1583913

参考文献

Wasserstein RL, Lazar NA. The ASA Statement on p-Values: Context, Process, and Purpose. Am Stat. 2016;70(2):129-133. DOI 10.1080/00031305.2016.1154108
Schulz KF, Altman DG, Moher D; CONSORT Group. CONSORT 2010 Statement: updated guidelines for reporting parallel group randomised trials. BMJ. 2010;340:c332. DOI 10.1136/bmj.c332

明日のアクション

過去に読んだ臨床論文を1本選び、Resultsセクションで報告されているp値をすべてリストアップしてみましょう。それぞれの検定について「帰無仮説は何か」「第一種の過誤が起きた場合にどんな影響があるか」を考察してください。

推測統計の基礎：仮説検定とp値

推測統計とは何か

サンプルと母集団

仮説検定の基礎

仮説検定の手順

具体例：新規降圧薬の効果検定

p値とは何か

p値の定義

p値に関する誤解

有意水準（α）

第一種の過誤と第二種の過誤

第一種の過誤（Type I Error）。 偽陽性

第二種の過誤（Type II Error）。 偽陰性

検出力（Power）

医療研究での主要な検定手法

t検定

カイ二乗検定（χ²検定）

分散分析（ANOVA）

まとめ

参考文献

参考文献

第一種の過誤（Type I Error）。偽陽性

第二種の過誤（Type II Error）。偽陰性