メインコンテンツへスキップ
レッスン 6 / 10|44分で読めます

小児科AIという視点:見えていないデータ

公開医療画像データセットで小児が1%未満、FDA承認AI医療機器の小児適用が17%という構造的不足を、医療AI評価の視点から整理する

小児科AIという視点:見えていないデータ

小児外来の風景。診察台の上で5歳児を診ている医療職、手元のディスプレイにAIの参考表示が映っている。表示の上に小さく『成人データで訓練』の注釈、医療職の心中の問い『この子に使えるのか?』。Ark Journal調、温かい色調
目の前の子に、このAIは使えるか——成人データで訓練された医療AIを、小児に適用する前の問い

外来で5歳の男の子が発熱で来た。

高熱が3日続いていて、親御さんは不安そうだ。診察台の前で、ふと思った。「このAIは、この子に使えるのか」と。

手元のスマートフォンに入っているAI診断補助アプリは、数十万件の症例で訓練されたと書いてある。感度・特異度も申し分ない。しかし、5歳の発熱に使っていいかどうかを確認する前に、私が最初に問うのはこれだ。

「このAIの訓練データに、5歳の子どもはどのくらい含まれていたか」

この問いを習慣にしてから、AIの見え方がまったく変わった。


小児データ不足を示す3項目の数字インフォグラフィック。3つの大きな数字が縦に並ぶ。1.『1%未満』ラベル『公開医療画像データセットの小児比率』、2.『17%』ラベル『FDA承認AI医療機器の小児適用率』、3.『73%』ラベル『成人での性能 vs 小児での性能差』。各数字の下に小さな注記と出典
3つの数字が、医療AIの「成人偏重」を端的に示す——小児はどれだけ見えていないか

1. 数字で見る構造的不足

小児科医がAIの性能評価を読むとき、最初に確認すべきデータは何か。

答えは単純だ。「対象集団の年齢分布」だ。

しかし、この確認ができる公開医療AIの論文は少ない。なぜなら、そもそも訓練データに小児が含まれていないことが多いからだ。

Hua SBZ らは公開医療画像データセット181件を系統的にレビューした(medRxiv 2025、査読前プレプリント、DOI: 10.1101/2025.06.06.25328913、PMID: 40661269)。年齢情報が得られた116件の解析では、小児患者は全体の1%未満にとどまった。489,000人中4,600人だ。

この数字を、外来の風景に当てはめて考えてほしい。

100人の訓練データが並んでいるとする。そのうち1人が子どもだ。残り99人は成人だ。そのAIが「子どもの胸部X線の肺炎を検出できる」と主張するとき、その根拠はどこにあるのか。

なお、この数字はプレプリント版のものだ。Nature Health出版版(DOI: 10.1038/s44360-026-00111-3)ではデータセット総数が203件に更新され、33%のデータセットで年齢メタデータが欠落していることも明らかになった。出版版では「小児は2%未満」という表現が使われている。データセット数とメタデータの欠落率が最終的な数字に影響する点は、引用の際に注意が必要だ。

承認側のデータも一致した状況を示している。

Brewster RCL ら(Boston Children's Hospital / Harvard Medical School)は2024年3月時点でFDAが承認したAI・機械学習搭載医療機器876件を調査した(JAMA Pediatrics, 2025年2月1日, DOI: 10.1001/jamapediatrics.2024.5437, PMID: 39680415)。小児使用が明示されていたのは149件(17.0%)のみ。さらにその149件のうち、実際に小児データで検証されたと明記していたのは28件(18.8%)にとどまった。

整理すると、こうなる。

  • FDA承認AI医療機器のうち、小児への適用が想定されているのは17%
  • その17%の中でも、小児データで実際に検証されたことが明示されているのは18.8%
  • つまりFDA承認AI医療機器全体を分母にすると、小児での検証が明示されているのは約3%

「AIが医師国家試験に合格した」という話題は多い。しかし、その試験問題に小児の症例がどのくらい含まれていたかを問う声は少ない。

テーゼ vs アンチテーゼ:「医療AIは全患者に有効か」

テーゼ(汎用性の前提)の側は、高精度な医療AIは臨床現場全般に有用だ、と考える。USMLEで95%を超えるAIは医学的知識を広くカバーしている。大規模データで訓練されたAIは、特定の患者集団に依存しない汎用的な性能を持つ、というのがこの立場だ。

アンチテーゼ(小児の構造的排除)の側は、公開医療画像データセットにおいて小児は1%未満しか存在しない、と指摘する(Hua et al., medRxiv 2025、査読前プレプリント)。FDA承認AI医療機器の小児適用は17%のみで、小児データでの検証が明示されているのはその約19%だ(Brewster et al., JAMA Pediatrics 2025)。「汎用」とは事実上「成人向け」を意味している可能性が高い。

ジンテーゼ(2026年4月時点)として整理すれば、AI性能は常に「どの集団で検証されたか」に依存する。「高精度」という記述は、検証集団の記述なしには意味をなさない。小児科医は成人研究の結果を小児に外挿する際の「翻訳コスト」を自分で見積もる必要がある。

Underrepresentation of children in public medical imaging datasets

公開医療画像データセット181件の系統的レビュー。小児は489,000人中4,600人(1%未満)。査読前プレプリント PMID: 40661269。出版版では203件・小児2%未満と更新。

論文medRxiv 2025(査読前プレプリント)/ Nature Health 2026(出版版 DOI: 10.1038/s44360-026-00111-3)Hua SBZ, Heller N, He P, Towbin AJ, Chen IY, Lu AX, Erdman L
US FDA Approval of Pediatric Artificial Intelligence and Machine Learning–Enabled Medical Devices

2024年3月時点のFDA承認AI医療機器876件を分析。小児適用149件(17.0%)、うち小児データで検証明示は28件(18.8%)のみ。DOI: 10.1001/jamapediatrics.2024.5437、PMID: 39680415

論文JAMA Pediatrics 179(2): 212–214Brewster RCL, Nagy M, Wunnava S, Bourgeois FT

小児固有の3課題を示す3カラム概念図。左『発達段階の多様性』に新生児・幼児・学童・思春期と分かれた成長曲線、中『稀少疾患の比率』に円グラフで小児の方が稀少疾患比率が高い表示、右『生理的特性の違い』に体重別薬物動態のシンプルなグラフ
小児は「小さな大人」ではない——年齢ごとに別の患者集団。AIが学習対象として難しい理由

2. 小児固有の3課題

なぜ成人で検証されたAIを、そのまま小児に使えないのか。

「子どもは小さい大人ではない」という言葉は、臨床医学の教育でよく使われる。しかしAI文脈でこの言葉が語られることは少ない。小児固有の課題は3つある。

課題1:成長による形態変化

子どもの体は成長する。これは単純に見えて、AIには深刻な問題を生む。

胸部X線を例にとると、新生児・乳幼児・学童・思春期では、肺野の広がり方、心胸郭比の正常値、骨格の形状がすべて異なる。成人の正常値を基準に訓練されたAIは、新生児の「正常」を異常と判定するリスクがある。

私が実際に経験した場面を話すと、ある画像解析AIを試用したとき、NICU(新生児集中治療室)に入院中の早産児の胸部X線を読み込ませると「心拡大の疑い」と出た。早産児の心胸郭比は正期産児や成人とは異なる。訓練データに早産児がどのくらい含まれていたかを、製品仕様書で確認することは実際には難しい。これは架空の話ではなく、AIを日常的に使うなかで繰り返し直面する疑問だ。

体重別の薬剤用量も同様だ。アセトアミノフェンは10〜15 mg/kg という体重基準の計算が必要で、成人の固定量(多くは500〜1000 mg)とは根本的に異なる設計が必要だ。薬剤推奨AIが成人の固定用量を出力した場合、小児への誤適用は直接的な安全リスクになる。

課題2:疾患スペクトラムの差異

成人と小児では、「多い疾患」「珍しい疾患」の分布が違う。

成人の消化器AIは大腸がんのポリープを検出するために訓練される。小児の消化器疾患は、先天性の消化管奇形、炎症性腸疾患の小児型、感染性腸炎が中心だ。成人のポリープ検出AIを小児腸炎に使おうとしても、そもそも対象疾患が違う。

感染症もそうだ。成人の市中肺炎は肺炎球菌・マイコプラズマが主役だが、乳幼児ではRSウイルス・メタニューモウイルスが主役になる。感染症AIの訓練データが成人の市中肺炎で構成されている場合、小児の呼吸器感染症への適用精度は保証されない。

先天性疾患は成人では稀少だが、小児では頻度が高い。先天性心疾患の心電図や画像を評価するAIが、成人データ中心で訓練されていれば精度は低い可能性がある。

課題3:発達指標の複雑性

最も難しいのが、発達指標を扱うAIだ。

神経発達症(自閉スペクトラム症・注意欠如多動症など)のスクリーニングAI、言語発達評価AI、思春期のうつスクリーニングAIは、小児科外来で実際に試用例が増えつつある。しかしこれらのAIが評価する「発達」は、年齢によって基準が急速に変化する。

18か月で語彙が20語あれば「遅い」、3歳では「早い」かもしれない。同じAIが18か月と3歳を同じ基準で評価すれば、年齢を考慮した正確な解釈はできない。訓練データの年齢分布が偏っていれば、AIの発達評価は年齢層ごとに精度のばらつきが大きくなる。

思春期のうつスクリーニングでは、大人の自己記入式スケールを子どもに使う問題と同じ構造が起きる。「睡眠の変化」「集中困難」は思春期の発達段階でも一定の頻度で見られる。成人データで訓練されたうつスクリーニングAIが、思春期の正常変動と症状を区別できるかどうかは、別途検証が必要だ。

3課題の構造的な共通点

小児固有の3課題に共通するのは「参照基準の年齢依存性」だ。成人では比較的安定している「正常値」が、小児では月齢・年齢とともに大きく変動する。AIが「正常か異常か」を判定するには、その判定基準自体が年齢に適合していなければならない。成人データ中心で訓練されたAIは、この適合を保証しない。

Case Study/ 国際

新生児呼吸障害と画像AIの限界

新生児の呼吸障害(新生児呼吸窮迫症候群・新生児一過性多呼吸など)は小児集中治療の主要疾患だ。胸部X線が診断の要になる。大規模医療画像AIの多くは成人・小児混在データで訓練されているが、新生児に特化した年齢層での検証は少ない。

問題として、新生児の正常な胸部X線は成人と見た目が異なる。肺野は成人より白く、胸郭は狭く、心臓は相対的に大きく見える。これらは正常所見だが、成人基準のAIは「異常」と判定するリスクがある。早産児では骨格の石灰化も未熟であり、さらに差異が大きくなる。

臨床的には、新生児呼吸障害のスクリーニングAIを自施設のNICUに導入するとき、そのAIの訓練データに新生児・早産児がどのくらい含まれていたかを確認することが第一歩となる。「胸部X線AI」という機能だけを見て導入を決めてはならない。

年齢適合性の問いとしては、L04で扱った「訓練分布外への汎化」の問題が、小児AIでは「同じ臓器・同じ疾患分野でも年齢層が違えば別の分布」という形で現れる。新生児はただ「体が小さい成人」ではなく、生理的に異なる参照基準を持つ集団だ。

現代では、新生児専用の画像AI訓練データを構築しようとすると、データ数の少なさという問題にすぐ直面する。単施設のNICU入院患者数は年間数百〜数千人規模で、成人の胸部X線データベースと比べて1〜2桁小さい。小児データが公開医療画像データセットに1%未満しか含まれない背景のひとつは、ここにある。


日本の小児科AI現状を示す概念図。中央にnodocaのアイコン(咽頭画像AI、保険適用済み)、その周囲に他の研究中・開発中の小児AIが小さく配置されている(自閉スペクトラム検出、発達障害スクリーニング、新生児症候判別など)。下部に『2026年4月時点・小児に特化したAI:極めて少数』の注記
日本の医療AIで小児特化はまだ少ない。nodocaが先頭を歩いているが、後続が薄い

3. 日本の小児科AIの現状

日本で小児外来に適用できるAI医療機器は、現時点で非常に少ない。

その数少ない例のひとつが nodoca だ。アイリス株式会社が開発したインフルエンザ診断支援AIで、鼻腔鏡画像を解析してインフルエンザを診断する。PMDA承認番号 30400BZX00101000、承認日 2022年4月26日、新医療機器として承認された。2022年12月1日から保険適用されている。

nodoca の位置づけは重要だ。成人・小児ともに適用可能なインフルエンザ診断補助として設計されており、小児外来での使用を念頭に置いた日本発のAI医療機器だ。小児科医が自施設で試用する場合も、「対象年齢範囲」と「検証集団に小児がどのくらい含まれていたか」を確認する手続きは省略できない。「小児科外来でも使える」という設計意図と、「小児での検証が十分か」は別の問いだ。

一方、国際的には大規模皮膚科AIが話題になっている。Stanford大学グループによる PanDerm(Nature Medicine, 2025, DOI: 10.1038/s41591-025-03747-y)は、27か国のデータを用いたマルチモーダル皮膚科診断AIだ。この研究でも、小児皮膚疾患の検証集団が成人と比べてどの程度含まれているかは、論文を精読しなければわからない。「大規模医療画像基盤モデルが小児にも適用できるか」という問いは、nodocaの例と同じ構造で発生する。

検討してほしい問い

あなたが今日使っている、または導入を検討している医療AIツールについて、以下を確認できますか。

「このAIの訓練データに、自施設の患者年齢層(特に小児)がどの程度含まれているか」

製品のウェブページや論文にこの情報がない場合、それ自体が確認すべきシグナルです。

nodoca PMDA承認情報(承認番号 30400BZX00101000)

インフルエンザ診断支援AI。PMDA承認番号 30400BZX00101000、2022年4月26日承認、2022年12月1日保険適用。PMDA医療機器情報検索で詳細確認可能。

規制PMDA医療機器情報検索アイリス株式会社
Dermatology foundation model for skin disease diagnosis

27か国データを用いたマルチモーダル皮膚科AI(PanDerm)。DOI: 10.1038/s41591-025-03747-y。大規模医療画像基盤モデルが小児に適用できるかを検討する際の参照事例。

論文Nature MedicineSun MD, et al.

フェデレーテッド学習による小児医療AIの可能性を示す概念図。中央に『中央モデル』、周囲に複数の小児病院(A・B・C・D)が配置され、各病院から細い矢印が中央に向かう。各病院に小さな絵文字で患児の数(少なめ)が描かれ、合計で『データ量を増やす』という吹き出し。下部に『稀少疾患小児データを集約する手段』
単独の病院では集まらない小児データを、フェデレーテッド学習で集約する——理論的可能性は2026年に実装が試行中

4. フェデレーテッド学習と小児データの課題

小児データが少ない根本的な理由のひとつは、個々の施設で集められるデータ量の限界だ。

小児科患者数は成人より少ない。さらに小児の中でも、新生児・乳幼児・学童・思春期では正常値も疾患分布も異なるため、実質的には「年齢層ごとの別集団」として扱う必要がある。単施設では、特定の年齢層の十分なデータを集めることが難しい。

L04で扱ったフェデレーテッド学習は、この問題に対して有効なアプローチだ。各施設の小児データを外部に持ち出さずに、施設間でモデルを協調学習させる。患者情報は施設の外に出ない。

日本では次世代医療基盤法(2018年施行)が医療情報の匿名化二次利用を制度的に認めており、フェデレーテッド学習とこの制度を組み合わせることで、複数施設の小児データを安全に活用する枠組みが整いつつある。

ただし解決されていない課題もある。

小児データの各施設における収集量が少ない場合、フェデレーテッド学習で集約されるモデルにも偏りが残る。さらに施設ごとに撮影プロトコル・機器・患者集団の特性が異なるため、施設間の「分布の差」(Non-IID問題)が成人データよりも深刻になりやすい。新生児NICUデータを5施設から集めても、各施設の在胎週数分布・疾患重症度・治療プロトコルが異なれば、集約されたモデルはどの施設にも最適化されていない可能性がある。

フェデレーテッド学習は「解決策」というより、「データ共有の障壁を下げる手段」として捉えるのが正確だ。その上でデータ品質・疾患分布・年齢分布の均質性を確保する努力が別途必要になる。


小児AIチェックリスト。縦に5つの項目が並ぶ。1.『☐ 訓練データに小児を含むか?』 2.『☐ 検証コホートの年齢分布は?』 3.『☐ 体重別の補正があるか?』 4.『☐ 発達段階別の評価は?』 5.『☐ 添付文書に小児の記載は?』。各項目にチェックボックスと小さな関連アイコン
この5問を確認してから、目の前の小児に適用するか決める。最初の防衛線になる

5. 「このAIは小児で検証されたか」チェックリスト

小児科医がAIを評価するとき、最初の5項目を確認する習慣を持ってほしい。

チェック1:対象年齢の明示。製品仕様書・論文・承認申請書に「対象年齢範囲」が明示されているか。年齢範囲が記載されていない場合、小児適用の根拠は存在しない。

チェック2:小児データの比率。訓練データ・検証データに、小児(18歳未満)がどの割合で含まれているか。自施設の患者年齢層と比較する。患者の大半が小児なのに、訓練データに小児が5%未満なら精度の保証はない。

チェック3:年齢層別の性能データ。「小児」と一括りにされた感度・特異度ではなく、新生児・乳幼児・学童・思春期などの年齢層別の性能が報告されているか。年齢一括の報告は精度のばらつきを隠す場合がある。

チェック4:日本人小児での検証有無。体格・疾患スペクトラム・遺伝的背景の差から、海外データで訓練されたAIが日本人小児でも同じ性能を示す保証はない。日本人小児での外部検証が報告されているか。

チェック5:発育・発達指標の年齢適合。神経発達・言語発達・精神発達を評価するAIでは、参照基準が年齢ごとに変化する。AIが使用する正常値・カットオフ値が、評価対象の年齢層に適合しているかを確認する。

チェックリストの使い方

このリストは「AIを使わない理由探し」ではない。「このAIが自施設の患者集団にどの程度適合するか」を見積もるための出発点だ。5項目のうち3項目が確認できない場合、それは「AIが使えない」のではなく「不明な前提で使用することになる」という事実を自覚するための手段だ。


小児医療AIのエラー非対称図。左側『AIが失敗する小児領域』に『新生児・稀少疾患・先天異常・発達障害スクリーニング』のリスト。右側『小児科医が補完する領域』に『家族背景の理解・成長の経時観察・発達段階での判断・親への説明』のリスト。中央に『相互補完で設計』の太字
小児AIの守備範囲と、小児科医の役割は重ならない。だからこそ補完できる

6. エラーパターンの非対称性と小児

L05では「AIのエラーパターンと人間のエラーパターンは体系的に異なる」という話をした。この非対称性は、小児ではより顕著になる。

成人向けに訓練されたAIは、小児に対して「系統的に」間違える。ランダムに間違えるのではなく、「成人の参照基準から外れた小児所見」を一貫して誤判定する可能性がある。これは一つの患者で一つの間違いが起きるのではなく、同じ年齢層の患者すべてで同じ方向に間違いが起きるリスクがある。

新生児黄疸スクリーニングを例にとろう。生後3日の正常な新生児の血中ビリルビン値は成人より高い。成人の正常範囲で訓練されたAIに新生児のデータを入れれば、「黄疸(異常高値)」の判定が多発する。逆に、「生後日数と体重に応じた正常域」という小児科的知識なしに設計されたAIは、治療が必要なビリルビン値を見逃す可能性もある。

思春期のうつスクリーニングでは逆の問題が起きる。成人のうつ診断基準で訓練されたAIは、思春期の正常な感情変動を「症状」として過剰に検出する可能性がある。偽陽性が多いと、不必要な精神科紹介や診断ラベリングが増える。

どちらの方向にエラーが偏るかは、AIの訓練データの構成によって決まる。小児科医は「このAIは見逃しが多いか、過剰検出が多いか」という方向性を把握したうえで使用を判断する必要がある。

この問いの立て方は、L07(医療AIの現在地)で扱う「特定のタスクでのAI活用の正当化」にも直接つながる。どの集団で、どのエラー方向を許容するかという設計思想が、AI導入判断の本質だ。


ここまでの整理

わかっていること

  • 公開医療画像データセットにおいて、小児は1%未満(489,000人中4,600人)しか含まれていないという体系的なエビデンスがある(Hua et al., medRxiv 2025、査読前プレプリント)
  • FDA承認AI医療機器の小児適用は17%のみで、うち小児データでの検証が明示されているのは18.8%だ(Brewster et al., JAMA Pediatrics 2025)
  • 小児は成長による形態変化・疾患スペクトラムの差異・発達指標の複雑性という3つの固有課題を持ち、成人研究の直接外挿は根拠を欠く
  • フェデレーテッド学習は小児データの施設間共有の障壁を下げる手段として機能しうる

わかっていないこと

  • 「小児データが何%以上含まれていれば臨床使用に十分か」という閾値は、疾患・年齢層・用途によって異なり、現時点でコンセンサスはない
  • 日本のPMDA承認に向けた小児専用評価基準は、2026年4月時点で成人との明示的な差別化が進んでいるとは言えない状況だ
  • フェデレーテッド学習で集約されたモデルが、個々の施設の小児患者集団にどの程度汎化するかは、小児データを対象とした実証研究が不足している

AIが医療現場に浸透するほど、「誰のためのデータで訓練されたか」という問いは重くなる。小児科医は、患者の年齢分布が成人医療とは根本的に異なる現場に立っている。「このAIは小児で検証されたか」という問いを、AIを使うたびに発する習慣が、自分と患者を守る最低限のチェックになる。

今日のまとめ

3行で振り返ります。

  • 公開医療データの小児比率は1%未満。FDA承認AIで小児適用は17%しかない。「成人で訓練されたAI」が小児に流用されている現実
  • 小児は「小さな大人」ではない。発達段階の多様性、稀少疾患の比率、生理的特性が成人と根本的に違う——AIが学習対象として難しい構造的理由がある
  • 適用前のチェックリスト5問: 訓練データに小児を含むか/検証コホートの年齢/体重別補正/発達段階別評価/添付文書の小児記載——これを毎回確認する習慣が最初の防衛線

次のレッスンへ

L07「医療AIの今:日本の診療報酬と海外の現場」では、保険適用された医療AIと、研究段階で止まっているものの分岐を、制度設計の観点から見ていく。


明日のアクション

自分がよく使う医療AIツール(診断支援アプリ、薬剤推奨ツール、スクリーニングAIなど)をひとつ選び、以下を調べる。

  1. そのAIの承認・検証時の対象年齢範囲を製品情報または論文で確認する
  2. 訓練データ・検証データに小児(18歳未満)が何%含まれているかを確認する
  3. 年齢範囲が明示されていない場合、または小児の比率が不明な場合、それを「懸念事項」として記録する

「確認できなかった」という結果も、重要な情報だ。年齢適合性の情報が公開されていないAIを使用している場合、その事実を自覚することが出発点になる。


参考文献

  • Hua SBZ, Heller N, He P, Towbin AJ, Chen IY, Lu AX, Erdman L. (2025). Underrepresentation of children in public medical imaging datasets. medRxiv(査読前プレプリント)DOI: 10.1101/2025.06.06.25328913、PMID: 40661269。Nature Health 2026出版版 DOI: 10.1038/s44360-026-00111-3
  • Brewster RCL, Nagy M, Wunnava S, Bourgeois FT. (2025). US FDA Approval of Pediatric Artificial Intelligence and Machine Learning–Enabled Medical Devices. JAMA Pediatrics, 179(2), 212–214. DOI: 10.1001/jamapediatrics.2024.5437、PMID: 39680415
  • アイリス株式会社. (2022). nodoca PMDA承認番号 30400BZX00101000 取得. PMDA医療機器情報検索: https://www.pmda.go.jp/PmdaSearch/kikiSearch/
  • Sun MD, et al. (2025). Dermatology foundation model for skin disease diagnosis. Nature Medicine. DOI: 10.1038/s41591-025-03747-y