メタアナリシスの基礎

実際のフォレストプロット画面。個々の研究、信頼区間、統合推定値、異質性を順に読む。

フォレストプロットの個別研究と統合推定値を確認している実画面 — ひし形だけでなく、個々の研究の方向と幅も読む。

メタアナリシスで異質性や出版バイアスを確認している画面 — 統合値の前に、元研究の質、異質性、出版バイアスを確認する。

メタアナリシスとは何か

メタアナリシスの定義

メタアナリシス（meta-analysis）は、同じ臨床的疑問について行われた複数の独立した研究の結果を、統計的手法を用いて統合する分析手法です。

目的は3つあります。

検出力の向上：個々の研究では検出できなかった効果を、データを統合することで検出する
推定精度の向上：より正確な効果量の推定を得る
結果の一貫性の評価：研究間で結果が一貫しているかを評価する

エビデンスの階層における位置づけ

エビデンスに基づく医療（EBM）では、メタアナリシスを含むシステマティックレビューがエビデンスの最高レベルに位置づけられています。

視点

なぜメタアナリシスがエビデンスの最高峰なのか

単一のRCTは対象者、施設、時期が限定的です。メタアナリシスは複数のRCTの結果を統合するため、よりサンプルサイズが大きく、一般化可能性の高い結論を導けます。ただし、含まれる個々の研究の質が低ければ「ガベージ・イン・ガベージ・アウト（ゴミの統合はゴミ）」になります。

システマティックレビューとの関係

システマティックレビュー

システマティックレビュー（SR）は、あらかじめ定めた方法論に従って関連研究を網羅的に収集・評価する手法です。

手順は以下のとおりです。

研究課題の明確化：PICO形式（Patient, Intervention, Comparison, Outcome）で定義
文献検索：PubMed, CENTRAL, Embaseなど複数のデータベースを検索
研究の選択：事前に定めた適格基準に基づきスクリーニング
データの抽出：標準化されたフォームで情報を抽出
質の評価：RoB 2（RCT）やNOS（観察研究）などのツールでバイアスリスクを評価
結果の統合：定性的な統合、または定量的な統合（メタアナリシス）

SRとメタアナリシスの関係

システマティックレビューは「研究を体系的に集めて評価するプロセス全体」であり、メタアナリシスは「その中で数値を統計的に統合するステップ」です。すべてのSRがメタアナリシスを含むわけではありません（研究の異質性が高い場合などは定性的統合にとどめます）。

効果量の統合

効果量の標準化

異なる研究から得られた効果量を統合するには、まず共通の指標に変換します。

アウトカムの種類	よく使う効果量指標
連続アウトカム（同じ尺度）	平均差（MD）
連続アウトカム（異なる尺度）	標準化平均差（SMD）
二値アウトカム	オッズ比（OR）、リスク比（RR）、リスク差（RD）
生存時間アウトカム	ハザード比（HR）

統合モデル

複数の研究の効果量を統合する方法には2つの主要なモデルがあります。

固定効果モデル（Fixed-effect model）：すべての研究は同一の真の効果量を推定しているという仮定に基づきます。研究間の差異は抽出誤差のみによるものと考えます。

ランダム効果モデル（Random-effects model）：研究間で真の効果量が異なることを許容します。研究間の分散（τ²）を考慮するため、信頼区間がやや広くなります。

比較

固定効果 vs ランダム効果

臨床研究では対象集団、介入方法、フォローアップ期間などが研究間で異なるのが普通です。そのため医学系のメタアナリシスではランダム効果モデルが推奨されることが多いです。固定効果モデルは研究間の異質性が低い場合に使用します。

異質性の評価

異質性とは

異質性（heterogeneity）は研究間で結果が一致しない度合いです。

統計的異質性：結果の数値的なばらつき
臨床的異質性：対象患者、介入、アウトカムの定義の違い
方法論的異質性：研究デザイン、バイアスリスクの違い

I²統計量

I²はメタアナリシスで最もよく使われる異質性の指標です。

I²	異質性の程度
0–25%	低い
25–50%	中程度
50–75%	高い
75% 以上	非常に高い

注意

I²が高い場合の対処

I²が50%以上の場合、研究を単純に統合してよいか慎重な判断が必要です。サブグループ解析（地域別、用量別、リスク別など）やメタ回帰分析で異質性の原因を探る、あるいは統合を断念して定性的な記述にとどめるという選択肢があります。

フォレストプロット

フォレストプロットの読み方

フォレストプロットはメタアナリシスの結果を可視化する標準的な図です。

構成要素は以下のとおりです。

各研究の効果量（四角）：四角の大きさは重み（研究の寄与度）に比例
各研究の信頼区間（水平線）：効果量の推定精度
統合効果量（ひし形）：ひし形の中心が統合効果量、幅が信頼区間
無効果の線（通常は1または0）：各研究や統合効果量がこの線をまたぐかどうかで有意性を判断

読み取りのポイント

各研究の四角が同じ方向に偏っている → 結果が一貫している
四角がばらついている → 異質性が高い
ひし形が無効果の線をまたがない → 統合効果が統計的に有意
ひし形の幅が狭い → 推定精度が高い

メタアナリシスの限界

メタアナリシスは強力な手法ですが、限界もあります。

出版バイアス：有意な結果の研究が出版されやすく、有意でない結果が埋もれやすい（ファンネルプロットで評価）
ガベージ・イン・ガベージ・アウト：質の低い研究を統合しても質の高い結論は得られない
生態学的誤謬：研究レベルの統合結果を個人レベルに適用する際の限界

まとめ

メタアナリシスは複数の独立した研究の結果を統計的に統合する手法
システマティックレビューのプロセスの一部として実施される
効果量を標準化し、固定効果モデルまたはランダム効果モデルで統合する
I²統計量で研究間の異質性を評価する
フォレストプロットで結果を可視化し、出版バイアスにも注意する

参考文献

Higgins JP, Thompson SG, Deeks JJ, et al. (2003). Measuring inconsistency in meta-analyses. BMJ, 327(7414), 557-560. DOI 10.1136/bmj.327.7414.557
Page MJ, McKenzie JE, Bossuyt PM, et al. (2021). The PRISMA 2020 statement: an updated guideline for reporting systematic reviews. BMJ, 372, n71. DOI 10.1136/bmj.n71
Guyatt GH, Oxman AD, Vist GE, et al. (2008). GRADE: an emerging consensus on rating quality of evidence and strength of recommendations. BMJ, 336(7650), 924-926. DOI 10.1136/bmj.39489.470347.AD

明日のアクション

Cochrane Libraryで興味のある疾患のシステマティックレビューを1つ選び、掲載されているフォレストプロットを読み解いてみましょう。各研究の効果量、信頼区間、重み、統合効果量、I²を確認し、結果が臨床的にどう解釈されるかを考察してください。