研究デザインと統計
統計は研究の最初から関与する
統計はデータ分析の段階で初めて登場するものではありません。研究デザインの段階から統計的な考慮が不可欠です。
| 研究段階 | 統計の役割 |
|---|---|
| デザイン | サンプルサイズ計算、ランダム化、層別化 |
| データ収集 | データの質の管理、欠損値の最小化 |
| データ分析 | 適切な統計手法の選択と実施 |
| 結果の解釈 | 統計結果の臨床的意味の評価 |
| 報告 | CONSORT/STROBE等に準拠した透明な報告 |
サンプルサイズの計算
研究を始める前に「何人のデータが必要か」を統計的に決定します。
必要な情報は以下の4つです。
- 期待する効果量 — 先行研究や臨床的に意味のある最小差から設定
- 有意水準(α) — 通常0.05
- 検出力(1−β) — 通常0.80以上
- 想定される脱落率 — 脱落を見込んで上乗せ
サンプルサイズ計算なしの研究の問題
サンプルサイズを事前に計算しないと、検出力不足で効果があっても検出できない(β過誤)、あるいは過剰な対象者を集めて不必要な医療資源と時間を浪費する、という問題が起こります。倫理的にも統計的にも、事前のサンプルサイズ計算は必須です。
適切な統計手法の選択
データの種類と研究の目的に応じて、統計手法を選択します。以下のフローが基本的な判断基準です。
2群の比較
| データの種類 | 正規分布を仮定できる | 正規分布を仮定できない |
|---|---|---|
| 対応なし(独立2群) | 対応のないt検定 | マン・ホイットニーU検定 |
| 対応あり(前後比較) | 対応のあるt検定 | ウィルコクソン符号順位検定 |
3群以上の比較
| データの種類 | パラメトリック | ノンパラメトリック |
|---|---|---|
| 対応なし | 一元配置分散分析(ANOVA) | クラスカル・ウォリス検定 |
| 対応あり | 反復測定分散分析 | フリードマン検定 |
カテゴリカルデータ
| 状況 | 推奨される手法 |
|---|---|
| 2×2表(十分なサンプル) | カイ二乗検定 |
| 2×2表(小サンプル) | Fisherの正確検定 |
| 順序カテゴリ | マン・ホイットニーU検定 |
| 3群以上のカテゴリ | カイ二乗検定の拡張 |
関連・予測
| 目的 | 手法 |
|---|---|
| 2変数の関連(連続) | ピアソンの相関係数 |
| 2変数の関連(順序) | スピアマンの順位相関係数 |
| 連続アウトカムの予測 | 線形回帰分析 |
| 二値アウトカムの予測 | ロジスティック回帰分析 |
| 時間イベントの分析 | Cox比例ハザードモデル |
まず正規性の確認をする
パラメトリック検定(t検定、ANOVAなど)を使うには正規性の仮定が必要です。ヒストグラムの目視確認、Shapiro-Wilk検定、Q-Qプロットなどで確認しましょう。正規性が疑わしい場合はノンパラメトリック検定を使います。サンプルサイズが大きい場合(n > 30程度)は中心極限定理によりパラメトリック検定が頑健になります。
結果の解釈
統計的有意性と臨床的意義の区別
このコースを通じて繰り返し強調してきたポイントです。
- 統計的に有意 ≠ 臨床的に重要
- 統計的に有意でない ≠ 効果がない
結果を解釈する際は、以下の4つを総合的に評価します。
- p値 — 偶然性の指標
- 効果量 — 効果の実質的な大きさ
- 信頼区間 — 推定の精度と範囲
- 臨床的文脈 — 患者にとっての実際の意味
結果解釈の実例
ある降圧薬のRCTで以下の結果が得られたとします。
- 主要アウトカム:3年間の脳卒中発症率
- 治療群 4.2% vs 対照群 5.8%
- リスク比 RR = 0.72(95% CI: 0.58–0.90)、p = 0.004
- NNT = 63
この結果は統計的に有意(p = 0.004)であり、効果量も臨床的に意味がある(28%のリスク低下)と言えます。一方でNNT = 63は「63人を3年間治療して1人の脳卒中を予防できる」ことを意味し、コストや副作用とのバランスを考慮する必要があります。
よくある誤解と注意点
誤解1:p値が小さいほど効果が大きい
p値はサンプルサイズに依存します。n = 100,000の研究ではほんの僅かな差でもp < 0.001になりえます。効果の大きさは効果量で判断しましょう。
誤解2:統計的に有意でない = 効果がない
「有意差なし」は「差がない」ことの証明ではなく、「この研究では差を検出できなかった」という意味です。サンプルサイズが小さい場合、実際に効果があっても有意差が出ないことは珍しくありません。
誤解3:相関 = 因果関係
観察研究で見つかった関連は、交絡因子の影響を受けている可能性があります。因果関係の立証にはRCTやメンデルランダム化など、より厳密なデザインが必要です。
誤解4:多重検定の問題を無視する
複数のアウトカムや複数のサブグループを検定すると、偶然に有意な結果が出る確率が上がります。20個の検定を行えば、1つは偶然p < 0.05になる計算です。Bonferroni補正やFDR(偽発見率)制御などの多重検定補正が必要です。
p-hackingに注意
データを様々な方法で分析し、有意な結果が出た分析だけを報告する行為は「p-hacking」と呼ばれ、再現性の危機の一因とされています。研究計画書(プロトコル)の事前登録(ClinicalTrials.govなど)は、p-hackingを防ぐ制度的な取り組みです。
実践的なワークフロー
医療研究を統計的に進める一連の流れを整理します。
ステップ1:研究デザイン
- PICO形式で臨床的疑問を明確化
- プライマリアウトカムの決定
- サンプルサイズの計算
- 統計解析計画書の作成
- プロトコルの事前登録
ステップ2:データ収集
- REDCapなどの電子データキャプチャの活用
- 欠損値の最小化とモニタリング
- データクリーニングのルール策定
ステップ3:データ分析
- 記述統計で対象者の特性を記述(Table 1の作成)
- 事前に計画した統計検定の実施
- 効果量と信頼区間の算出
- 感度分析の実施
ステップ4:結果の解釈
- 統計結果の臨床的文脈での解釈
- 限界(limitations)の率直な記述
- 先行研究との比較
ステップ5:報告
- 報告ガイドライン(CONSORT、STROBE、PRISMA等)に準拠
- 統計手法・ソフトウェアの明示
- 解析コードの公開(再現性の確保)
コース全体の振り返り
このコース「統計学基礎 — 医療研究に必要な統計」で学んだ内容を振り返ります。
- 記述統計 — データの要約、基本統計量、分布
- 推測統計 — 仮説検定、p値、有意水準、検出力
- 信頼区間と効果量 — p値の限界を補完する指標
- 相関と回帰分析 — 変数間の関連と予測モデル
- 感度・特異度・ROC曲線 — 診断性能の評価
- 生存分析 — 時間イベントデータの分析
- メタアナリシス — 複数の研究の統合
- 実践的活用 — 適切な手法選択と結果解釈
これらの基礎知識は、医療AIの性能評価や臨床研究の論文読解、自身の研究デザインに直結するスキルです。
まとめ
- 統計は研究デザインの段階から最後の報告まで一貫して関与する
- データの種類と研究の目的に基づいて適切な統計手法を選択する
- 統計的有意性と臨床的意義を区別し、p値・効果量・信頼区間を総合的に評価する
- p-hackingや多重検定の問題を認識し、研究の事前登録で透明性を確保する
- 報告ガイドラインに準拠した透明な報告を心がける
明日のアクション
自分の専門領域で関心のある臨床的疑問をPICO形式(Patient, Intervention, Comparison, Outcome)で定式化し、そのアウトカムの種類に基づいて適切な統計手法を選択してみましょう。さらに、先行研究の効果量を参考にサンプルサイズ計算ツール(G*Powerなど)で必要症例数を算出してください。