統計解析コード生成(Python)
概要
臨床研究データの統計解析に必要なPythonコードをAIに生成させるためのプロンプトです。記述統計から多変量解析まで、研究デザインに応じた適切な統計手法のコードを得ることができます。
プロンプトテンプレート
以下のデータ解析を行いたいので、Pythonコード(pandas, scipy, statsmodelsなどを使用)を作成してください。
# データの説明
- データフレーム名: df
- サンプル数: [n]例
- 変数一覧:
- [変数名1]: [型(連続変数/カテゴリカル)] - [説明]
- [変数名2]: [型] - [説明]
- [変数名3]: [型] - [説明]
- [アウトカム変数]: [型] - [説明]
# 解析内容
1. 記述統計: [患者背景テーブル(Table 1)の作成 / 基本統計量]
2. 群間比較: [比較する群の変数名] で層別化し、以下を比較
- 連続変数: [t検定 / Mann-Whitney U検定 / 対応のあるt検定]
- カテゴリカル変数: [カイ二乗検定 / Fisherの正確検定]
3. 主解析: [ロジスティック回帰 / Cox比例ハザード / 線形回帰 / 生存分析]
- 目的変数: [変数名]
- 説明変数: [変数名のリスト]
- 調整変数: [変数名のリスト]
4. 可視化: [Kaplan-Meier曲線 / Forest plot / ROC曲線 / 散布図]
# 出力要件
- コードにはコメントを日本語で付けてください
- 結果の解釈を各解析の後に記載してください
- p値は小数点以下3桁まで表示
- 95%信頼区間を含めること
- 論文のTable/Figureとして使える形式で出力
使用例
入力例
# データの説明
- データフレーム名: df
- サンプル数: 200例
- 変数一覧:
- age: 連続変数 - 年齢(歳)
- sex: カテゴリカル(0=男性, 1=女性)
- bmi: 連続変数 - BMI
- hba1c: 連続変数 - HbA1c(%)
- treatment: カテゴリカル(0=従来療法, 1=新規療法)
- readmission_30d: カテゴリカル(0=再入院なし, 1=30日以内再入院)
# 解析内容
1. 記述統計: treatment群で層別化したTable 1
2. 群間比較: treatment群間での各変数の比較
3. 主解析: 30日以内再入院をアウトカムとしたロジスティック回帰(age, sex, bmi, hba1c, treatmentで調整)
4. 可視化: ROC曲線と各変数の調整オッズ比のForest plot
よくある失敗と対策
- 変数の型を指定しない: 連続変数なのにカテゴリカルとして処理される(またはその逆)
- 欠損値の処理を忘れる:
dropna()か多重代入法か、事前に方針を指定する - 多重検定の補正を忘れる: 複数の群間比較を行う場合はBonferroni補正等を指示する
- 生成コードをそのまま実行する: 必ず変数名やパスを自分のデータに合わせて確認する
活用のポイント
- データの最初の5行(
df.head()の出力)を貼り付けると、変数の型を正確に認識させやすい tableoneパッケージを指定すると、論文用のTable 1を効率的に生成できる- 大規模データの場合は
polarsの使用を指示すると高速化できる - 生成されたコードはJupyter Notebookで段階的に実行し、各ステップの出力を確認すること