メインコンテンツへスキップ
研究・論文|プロンプト

統計解析コード生成(Python)

pandas, scipy, statsmodelsを使用した統計解析用のPythonコードを生成します。

Ken OkamotoKen Okamoto|2026-02-144分で読めます
データ分析研究支援

統計解析コード生成(Python)

概要

臨床研究データの統計解析に必要なPythonコードをAIに生成させるためのプロンプトです。記述統計から多変量解析まで、研究デザインに応じた適切な統計手法のコードを得ることができます。

プロンプトテンプレート

以下のデータ解析を行いたいので、Pythonコード(pandas, scipy, statsmodelsなどを使用)を作成してください。

# データの説明
- データフレーム名: df
- サンプル数: [n]例
- 変数一覧:
  - [変数名1]: [型(連続変数/カテゴリカル)] - [説明]
  - [変数名2]: [型] - [説明]
  - [変数名3]: [型] - [説明]
  - [アウトカム変数]: [型] - [説明]

# 解析内容
1. 記述統計: [患者背景テーブル(Table 1)の作成 / 基本統計量]
2. 群間比較: [比較する群の変数名] で層別化し、以下を比較
   - 連続変数: [t検定 / Mann-Whitney U検定 / 対応のあるt検定]
   - カテゴリカル変数: [カイ二乗検定 / Fisherの正確検定]
3. 主解析: [ロジスティック回帰 / Cox比例ハザード / 線形回帰 / 生存分析]
   - 目的変数: [変数名]
   - 説明変数: [変数名のリスト]
   - 調整変数: [変数名のリスト]
4. 可視化: [Kaplan-Meier曲線 / Forest plot / ROC曲線 / 散布図]

# 出力要件
- コードにはコメントを日本語で付けてください
- 結果の解釈を各解析の後に記載してください
- p値は小数点以下3桁まで表示
- 95%信頼区間を含めること
- 論文のTable/Figureとして使える形式で出力

使用例

入力例

# データの説明
- データフレーム名: df
- サンプル数: 200例
- 変数一覧:
  - age: 連続変数 - 年齢(歳)
  - sex: カテゴリカル(0=男性, 1=女性)
  - bmi: 連続変数 - BMI
  - hba1c: 連続変数 - HbA1c(%)
  - treatment: カテゴリカル(0=従来療法, 1=新規療法)
  - readmission_30d: カテゴリカル(0=再入院なし, 1=30日以内再入院)

# 解析内容
1. 記述統計: treatment群で層別化したTable 1
2. 群間比較: treatment群間での各変数の比較
3. 主解析: 30日以内再入院をアウトカムとしたロジスティック回帰(age, sex, bmi, hba1c, treatmentで調整)
4. 可視化: ROC曲線と各変数の調整オッズ比のForest plot

よくある失敗と対策

  • 変数の型を指定しない: 連続変数なのにカテゴリカルとして処理される(またはその逆)
  • 欠損値の処理を忘れる: dropna() か多重代入法か、事前に方針を指定する
  • 多重検定の補正を忘れる: 複数の群間比較を行う場合はBonferroni補正等を指示する
  • 生成コードをそのまま実行する: 必ず変数名やパスを自分のデータに合わせて確認する

活用のポイント

  • データの最初の5行(df.head()の出力)を貼り付けると、変数の型を正確に認識させやすい
  • tableoneパッケージを指定すると、論文用のTable 1を効率的に生成できる
  • 大規模データの場合はpolarsの使用を指示すると高速化できる
  • 生成されたコードはJupyter Notebookで段階的に実行し、各ステップの出力を確認すること

コメント