統計解析コード生成（Python）

概要

臨床研究データの統計解析に必要なPythonコードをAIに生成させるためのプロンプトです。記述統計から多変量解析まで、研究デザインに応じた適切な統計手法のコードを得ることができます。

プロンプトテンプレート

以下のデータ解析を行いたいので、Pythonコード（pandas, scipy, statsmodelsなどを使用）を作成してください。

# データの説明
- データフレーム名: df
- サンプル数: [n]例
- 変数一覧:
  - [変数名1]: [型（連続変数/カテゴリカル）] - [説明]
  - [変数名2]: [型] - [説明]
  - [変数名3]: [型] - [説明]
  - [アウトカム変数]: [型] - [説明]

# 解析内容
1. 記述統計: [患者背景テーブル（Table 1）の作成 / 基本統計量]
2. 群間比較: [比較する群の変数名] で層別化し、以下を比較
   - 連続変数: [t検定 / Mann-Whitney U検定 / 対応のあるt検定]
   - カテゴリカル変数: [カイ二乗検定 / Fisherの正確検定]
3. 主解析: [ロジスティック回帰 / Cox比例ハザード / 線形回帰 / 生存分析]
   - 目的変数: [変数名]
   - 説明変数: [変数名のリスト]
   - 調整変数: [変数名のリスト]
4. 可視化: [Kaplan-Meier曲線 / Forest plot / ROC曲線 / 散布図]

# 出力要件
- コードにはコメントを日本語で付けてください
- 結果の解釈を各解析の後に記載してください
- p値は小数点以下3桁まで表示
- 95%信頼区間を含めること
- 論文のTable/Figureとして使える形式で出力

使用例

入力例

# データの説明
- データフレーム名: df
- サンプル数: 200例
- 変数一覧:
  - age: 連続変数 - 年齢（歳）
  - sex: カテゴリカル（0=男性, 1=女性）
  - bmi: 連続変数 - BMI
  - hba1c: 連続変数 - HbA1c（%）
  - treatment: カテゴリカル（0=従来療法, 1=新規療法）
  - readmission_30d: カテゴリカル（0=再入院なし, 1=30日以内再入院）

# 解析内容
1. 記述統計: treatment群で層別化したTable 1
2. 群間比較: treatment群間での各変数の比較
3. 主解析: 30日以内再入院をアウトカムとしたロジスティック回帰（age, sex, bmi, hba1c, treatmentで調整）
4. 可視化: ROC曲線と各変数の調整オッズ比のForest plot

よくある失敗と対策

変数の型を指定しない: 連続変数なのにカテゴリカルとして処理される（またはその逆）
欠損値の処理を忘れる: dropna() か多重代入法か、事前に方針を指定する
多重検定の補正を忘れる: 複数の群間比較を行う場合はBonferroni補正等を指示する
生成コードをそのまま実行する: 必ず変数名やパスを自分のデータに合わせて確認する

活用のポイント

データの最初の5行（df.head()の出力）を貼り付けると、変数の型を正確に認識させやすい
tableoneパッケージを指定すると、論文用のTable 1を効率的に生成できる
大規模データの場合はpolarsの使用を指示すると高速化できる
生成されたコードはJupyter Notebookで段階的に実行し、各ステップの出力を確認すること

統計解析コード生成（Python）

統計解析コード生成（Python）

概要

プロンプトテンプレート

使用例

入力例

よくある失敗と対策

活用のポイント

関連する学習コース

関連するナレッジ

初めての症例報告（AIで効率的に書く）

抄読会エクスプレス（15分で1本読む）

AI臨床試験マッチング：患者と治験をつなぐ

コメント