メインコンテンツへスキップ
レッスン 5 / 10|45分で読めます

AIの能力と限界:エラーパターンの解像度を上げる

ハルシネーションの分類、自動化バイアス、データバイアスの社会的背景、XAIの実用性限界を医療現場の問いとして整理する

AIの能力と限界:エラーパターンの解像度を上げる

AIのエラーパターンを可視化したヘッダー画像。中央に大きな円形ダイヤルがあり、4つの方向に4種類のエラー(ハルシネーション・自動化バイアス・データバイアス・分布外失敗)のラベル。各方向に小さなアイコン。Ark Journal調
AIは『なんとなく』間違えるのではない。特定の条件で、特定の方向に間違える——その構造を知る

2022年、スタンフォード大学の皮膚科医グループが論文を発表した。商用の皮膚科AIが「アジア系・黒人・ヒスパニック系の患者を含む多様な皮膚色のデータセット(DDI dataset)では、ROC-AUCが27〜36ポイント低下する」という内容だった(Daneshjou et al., Science Advances, 2022)。

この論文を初めて読んだとき、気になったのは数字よりも背景だった。なぜこれほど差が生じたのか。データが少なかったからか。それとも、データ収集の構造そのものに問題があったのか。

AIが「間違える」とき、そのエラーには構造がある。「なんとなく間違える」のではなく、「特定の条件で、特定の方向に」間違える。その構造を知ることが、このレッスンの中心テーマだ。

L04では機械学習の評価指標と過学習の問題を扱った。L05では一歩進んで、「AIのエラーはどう分類できるか」「人間のエラーとどう異なるか」を問う。


AIが得意な能力を3カラムで示す概念図。左『一貫性(揺れない)』に振り子が静止しているアイコンと例『同じ条件で同じ判定』、中『高速処理』に時計と稲妻アイコンと例『1万件を数秒で処理』、右『パターン検出』にレンズと網目アイコンと例『微小な所見の発見』
AIの強みは『揺れない』『速い』『細かい』。だがそのどれも、文脈の理解とは違う

1. AIが得意なこと:「揺れない」という誤解の先

AIは本当に「揺れない」のか。

パターン認識と大量処理という強みは本物だ。数千枚の画像を数秒でスキャンし、放射線科医では見落としやすい微細な変化を一貫して検出する能力は、適切な条件下で実証されている。

しかし「揺れない」という表現には、重要な注意が必要だ。

大規模言語モデル(LLM)にはtemperature(温度)パラメータがある。このパラメータは、トークン予測の確率分布からどの程度「ランダムに」サンプリングするかを制御する。temperature=0に近づけると出力は決定論的になるが、多くのAPIでは0より大きな値が設定されており、同じ入力に対して確率的に異なる出力が生成される。

「AIは同じ入力に同じ答えを返す」という前提は、LLMに対しては常に正しいわけではない。生成AIに同じ質問を3回投げれば、異なる内容が返ってくる場合がある。画像認識AIとLLMは「揺れ方」が異なる。

AIが得意なことを整理すると、こうなる。

  • 訓練分布内での高精度処理:同じ施設・同じ機器・同じ患者集団で検証されている限り、一貫した性能を示す
  • 大量データの高速スキャン:放射線科医が1枚のCTに5〜10分かけるところを、AIは全スライスを数秒でスキャンして異常候補を提示できる
  • 疲労による性能低下がない:勤務後半の注意力低下、直前の症例によるアンカリングバイアスは発生しない

ただし2024〜2025年にGPT-4o・Claude 3.7/4・Gemini 1.5が示したように、「テキストのみ」「数値のみ」という従来の制約は崩れ、マルチモーダル統合が急速に進んでいる。「AIはテキストと数値データのみを処理する」という記述は、2026年4月時点では部分的にのみ正しい。

テーゼ vs アンチテーゼ:「AIは揺れない」は正しいか

テーゼ(一貫性の強み)の側は、AIは疲れず、アンカリングバイアスを持たず、訓練分布内では一定の処理を繰り返す、と考える。同一の画像認識タスクなら、夜中に動かしても午前と同じ精度で動く、というのがこの立場だ。

アンチテーゼ(確率的変動の現実)の側は、LLMのtemperatureパラメータにより、生成AIは同じ入力に確率的に異なる出力を返す、と指摘する。「揺れない」は画像認識AIには近い記述だが、生成AIに対しては誤解を招く。また、いずれのAIも訓練分布外に出れば系統的な誤りを生じる。

ジンテーゼ(2026年4月時点)として整理すると、「AIが一貫している」という強みは「訓練分布内での」という条件付きだ。分布の外では、一貫して間違える可能性がある。

Dermatologist-level classification of skin cancer with deep neural networks

深層学習が皮膚がん診断で皮膚科専門医と同等精度を達成した代表的論文。DOI: 10.1038/nature21056。ただし評価はデジタル画像のみ、触診・病歴・ダーモスコピー動的所見は含まない。

論文Nature, 542, 115–118Esteva A, Kuprel B, Novoa RA, et al.

ハルシネーションの3分類を示す概念図。3つの行に分かれ、各行に種類名と医療例。1行目『事実誤認型』例『存在しないガイドラインを引用』。2行目『出典捏造型』例『PubMed IDが架空』。3行目『推論誤り型』例『正しい前提から誤った結論』。各行に小さな警告アイコン
同じ『嘘』でも、見抜き方が違う。事実誤認・出典捏造・推論誤り——医療現場での対処法はそれぞれ別

2. ハルシネーション:エラーの「種類」を区別する

「AIは嘘をつく」という表現はよく聞く。しかし「嘘」の内訳を知らなければ、対策が立てられない。

ハルシネーション(hallucination)とは、AIが入力データの事実的な裏付けなしに情報を生成する現象だ。Ji et al.(2023, ACM Computing Surveys, DOI: 10.1145/3571730)は、ハルシネーションを2種類に分類した。

Intrinsic(内部矛盾型)は、入力に含まれる情報と矛盾する出力を生成するパターンだ。たとえば、患者情報「アレルギー: ペニシリン」を入力したのに、「ペニシリン系抗菌薬を処方」する推奨文を生成する。入力テキスト自体を参照して検証できる。

Extrinsic(検証不能型)は、入力に情報が存在せず、独立した情報源でのみ検証可能な内容を生成するパターンだ。存在しない論文のDOIを生成する、実在しないガイドライン勧告を引用する、薬剤の用量を誤って提示する、といった形で出てくる。入力テキストだけでは正誤が判断できない。

医療での臨床リスクは、Extrinsic型のほうが高い。Intrinsic型は入力との矛盾として検出できる場合があるが、Extrinsic型は「もっともらしい形式」で出力されるため、専門的な知識なしには誤りに気づきにくい。

Case Study/ 国際

ハルシネーションの2分類と医療リスク(Ji et al., ACM Computing Surveys 2023)

大規模言語モデルの急速な普及に伴い、ハルシネーション現象の体系的な分類が必要とされた、というのが背景だ。

Ji et al.(2023)は自然言語生成分野のハルシネーション研究を網羅的にレビューし、現象の分類・原因・評価方法・軽減手法を整理した。

意義としては、Intrinsic(入力と矛盾)とExtrinsic(独立検証が必要)という2軸の分類を提示し、研究コミュニティの共通語彙として定着させた点が大きい。

LLMの動作原理から見ると、LLMは「次に来る確率が高いトークンを予測する」機械だ。医学的な真偽を判断する機構を持っていない。文脈上「もっともらしい」出力が、事実と一致するかどうかは別の問題になる。

2026年4月時点では、Retrieval-Augmented Generation(RAG)や事実確認ステップの組み込みなど、ハルシネーション軽減の手法は研究が進んでいる。しかし完全に解消されたわけではなく、臨床AIへの適用では引き続き確認が必要だ。

Sycophancy to Subterfuge: Investigating Reward Tampering in Language Models / Survey of Hallucination in Natural Language Generation

自然言語生成におけるハルシネーションの体系的サーベイ。Intrinsic(入力矛盾型)とExtrinsic(検証不能型)の分類を提示。DOI: 10.1145/3571730

論文ACM Computing Surveys, 55(12), 1–38Ji Z, Lee N, Frieske R, et al.

自動化バイアスの概念図。中央に医療職のシルエット、その目の前にAIの推奨が大きく『AIの推奨:◯◯』と表示されている。シルエットの後ろに小さな別の判断材料(カルテ・ガイドライン)が薄く描かれて見落とされている様子。下部に『AIが言うから正しい』という思い込みのフキダシ
AIの推奨が出ると、人間の判断は止まりやすい。これは怠慢ではなく、認知の構造的な現象

3. 自動化バイアス:「AIが言うから」の危険

AIの推奨を受け取ったとき、人間はどう判断するか。

自動化バイアス(automation bias)とは、自動化されたシステムの出力を過度に信頼し、それと矛盾する情報や自身の判断を軽視する傾向だ。航空や原子力の分野で古くから研究されてきたが、医療AIでも同様の問題が確認されている。

Lyell & Coiera(2017, JAMIA, DOI: 10.1093/jamia/ocw105)は、医療における自動化バイアスを系統的にレビューし、次の点を示した。

  • AIの推奨が「正しい」場合、医師の判断精度が向上する
  • AIの推奨が「誤っている」場合、医師がその誤りを見逃す確率が有意に高くなる
  • 認知負荷が高い場面ほど、自動化バイアスが発生しやすい

最後の点が特に重要だ。自動化バイアスは、医師が「余裕がある」ときより「疲弊している」「時間が足りない」ときに起きやすい。つまり、AIの補助が最も求められる状況で、AIの誤りを見落としやすくなる。

自動化バイアスのメカニズム

認知負荷が高い場面(多忙な救急外来、連続する重症例)では、AIの推奨を「ショートカット」として使う傾向が強まる。

「AIがこう言っているから」という推論は、認知負荷を下げる効率的な戦略だ。しかしこの戦略は、AIが誤っているときに最も危険になる。

AIの推奨に反証的な情報があるときに「確認する」習慣は、認知負荷が低い状況では機能しやすい。高い状況では意識的な設計が必要だ。

Automation bias: empirical results assessing influencing factors

医療における自動化バイアスの系統的レビュー。認知負荷が高いほど過信が発生しやすいことを示した。DOI: 10.1093/jamia/ocw105

論文Journal of the American Medical Informatics Association (JAMIA), 24(1), 88–95Lyell D, Coiera E

バイアスの2分類を示す対比図。左『データバイアス』に偏った訓練データの絵(特定の集団だけ多く描かれている)と例『皮膚科AI: 多様な肌色でROC-AUC 27-36ポイント低下』。右『構造バイアス』に医療制度や社会構造の絵と例『そもそも患者が病院に来ない・診断されない』。中央に『どちらも改善が必要』の注釈
同じ『AIが偏っている』でも、原因が2層ある。データを直すだけでは解決しない構造的問題もある

4. バイアスの2種類:データの問題か、構造の問題か

「AIにはバイアスがある」という指摘をよく聞く。しかしバイアスには少なくとも2種類あり、その区別は対策を考えるうえで重要だ。

データバイアス

訓練データが特定の集団に偏っている場合に生じる。

Daneshjou et al.(2022, Science Advances, DOI: 10.1126/sciadv.abq6147)は、商用の皮膚科診断AIを多様な肌色のデータセット(DDI: Diverse Dermatology Images dataset)で評価した。結果として、ROC-AUCが27〜36ポイント低下することを示した。

なぜこれほどの差が生じたのか。皮膚科の訓練データセットは歴史的に白人患者に偏っていた。その背景には、医学雑誌に掲載される症例画像が欧米の大学病院からの提供に集中していたこと、有色人種患者が医療機関にアクセスしにくい社会構造があったことが指摘されている。

データバイアスは「技術的な問題」ではなく「データ収集の偏りという社会的問題」だ。訓練データを集めた研究者集団が同質(欧米・白人中心の医学コミュニティ)であれば、何が「標準的な症例」かという判断自体に偏りが入り込む。

Inductive Bias(帰納的バイアス)

こちらはモデルアーキテクチャに組み込まれた構造的な偏りだ。

Inductive bias(帰納的バイアス)とは、モデルが「どのような解を好むか」という設計上の仮定だ。畳み込みニューラルネットワーク(CNN)は「近傍ピクセルが特徴を共有する」という仮定を持っている。これは自然画像では有効だが、特定の医療画像ではこの仮定が成立しない場合がある。

Transformerは「位置に関わらず情報を参照できる」アーキテクチャを持つが、それ自体が一種のinductive biasだ。

データバイアス vs Inductive Bias

データバイアスは、訓練データの収集・選択の偏りから生じる。対策はデータの多様性確保、アンダーリプレゼンテッドグループの意図的な収集だ。ただし「多様なデータを集める」ためには、医療アクセスの不均衡という社会構造的問題に向き合う必要がある。

Inductive Biasは、モデルアーキテクチャが持つ構造的な仮定から生じる。特定のタスクでは有利に働くが、仮定が外れる状況では性能が劣化する。完全には排除できず、「どのinductive biasを選ぶか」がアーキテクチャ設計の本質だ。

共通点として、どちらも「訓練分布外で系統的に失敗する」という形で現れる。しかし原因が異なるため、対策も異なる。

Disparities in dermatology AI performance on a diverse, curated clinical image set

DDI datasetを用いて商用皮膚科AIの肌色格差を評価。ROC-AUCが27〜36ポイント低下。DOI: 10.1126/sciadv.abq6147

論文Science Advances, 8(31), eabq6147Daneshjou R, Yuksekgonul M, Cai ZR, et al.

EIRL aneurysmの効果を示す棒グラフ。横軸に2グループ『AIなし』『AI併用』、縦軸に『動脈瘤検出率』。左の棒が低く(80%程度)、右の棒が9ポイント高い(89%)。差の上に『+9ポイント』の注釈。下部に『2024年・LG Medical承認・日本初の脳動脈瘤AI』の注記
9ポイントの改善は、医療現場で何を意味するか——見落とし1割の差は、命の数で測られる

5. EIRL aneurysm:「9ポイント改善」が意味すること

では、AIが「うまく機能した」事例を見てみよう。

LPIXELのEIRL aneurysm(PMDA承認番号: 30100BZX00142000、2019年9月17日承認)は、脳MRIによる脳動脈瘤検出を支援するAIだ。

PMDA添付文書(承認番号30100BZX00142000、規制当局公式承認文書)に記載された臨床試験データによれば、医師単独の読影感度は68.2%だったが、EIRL aneurysm AI支援下では77.2%に改善した。9ポイントの感度向上だ。

この数字をどう読むか。

まず、承認時の条件を確認する必要がある。論文の感度数値と同様に、この数値も「特定の臨床試験の患者集団・評価プロトコルで」のものだ。なお、PMDA添付文書は規制当局の公式承認文書であり、臨床試験データの信頼性という観点から一次資料に相当する。査読論文のDOIは2026年4月時点で確認されていないため、引用する場合は「PMDA添付文書出典」と明記することが必要だ。

9ポイントの改善は、統計的に有意だ。しかし「感度77.2%」は、4人に1人近くの動脈瘤を見落とす可能性があることも意味する。AIは見逃しを減らす道具であって、見逃しをゼロにする道具ではない。

Case Study/ 日本

EIRL aneurysm:承認時の臨床試験データ(PMDA 2019)

脳MRI読影における脳動脈瘤の見逃しは、特に3mm未満の小動脈瘤で発生しやすい。放射線科医単独の感度には施設・疲労・経験によるばらつきがあった、というのが背景だ。

LPIXELのEIRL aneurysm(PMDA承認番号: 30100BZX00142000)は、脳動脈瘤候補をヒートマップ形式でマーキングし、読影医の注意を促す仕組みを持つ。PMDA承認のための臨床試験として、医師単独とAI支援下の感度が比較された。

意義として、医師単独感度68.2% → AI支援下77.2%(PMDA添付文書記載、規制当局公式承認文書)という改善があった。小動脈瘤の検出改善が主な貢献だ。

設計思想として、EIRLは「AIが診断する」のではなく「AIが候補を提示し、医師が最終判断する」立て付けだ。候補のマーキングはXAI(説明可能なAI)の一形態でもある。

注記として、査読論文DOIは2026年4月時点で確認できていない。数値の根拠はPMDA添付文書(規制当局公式承認文書)であり、日本国内での承認審査を経た臨床試験データに基づく。


XAI(説明可能AI)の限界を示す対比図。左側にヒートマップで強調されたX線画像と『AIが注目した部分』のキャプション。右側に医師のシルエットが疑問符を浮かべながら『これが本当に判断根拠?』と問う様子。中央に『見えた = 正しい とは限らない』の注釈
ヒートマップは『どこを見たか』を可視化する。だが『なぜそう判断したか』は、別の問い

6. XAIの限界:「見えた」と「正しい」は別の問題

「AIが何を見て判断したか」を可視化する技術を、XAI(Explainable AI、説明可能なAI)と呼ぶ。

代表的な手法の一つがGrad-CAM(Gradient-weighted Class Activation Mapping)だ。画像分類AIが判定に使った領域をヒートマップで可視化する。「AIは腫瘍のある部位を強調表示している」と見れば、「正しい理由で正しい答えを出した」と思いたくなる。

しかしここに、重要な落とし穴がある。

「腫瘍の正しい部位を強調表示している」という事実は、「AIが腫瘍の臨床的特徴を正しく評価して判定した」ことを保証しない。

可能性が2つある。

  1. AIが腫瘍に関連する画像特徴(形状・濃度・周囲の変化)を正しく学習した結果、腫瘍部位を強調した
  2. AIが腫瘍と同時に存在する別の特徴(背景の組織特性、撮影機器の特性、施設固有の画像処理パラメータ)を学習した結果、偶然に腫瘍部位を強調している

2番目のケースでは、「なぜ」は間違っているが「どこ」は合っている。患者集団・施設・撮影条件が変わったとき、2番目のケースでは性能が劣化する。1番目のケースに比べて頑健ではない。

「視覚的説明可能性」と「臨床的妥当性」は別の概念だ。Grad-CAMが「腫瘍を見ている」ことを示しても、「正しい理由で正しい答えを出している」という保証にはならない。

問い: 「Grad-CAMが正しい場所を示した」から信頼できるか

Grad-CAMのヒートマップが腫瘍部位を強調した。このAIを信頼できると結論してよいか。

答えは「条件による」だ。

「正しい場所を見た」という事実は、「正しい理由で見た」とは別の主張だ。AIが学習した特徴量が、画像内の腫瘍特有の臨床的特徴に由来するのか、それとも腫瘍と偶然に共変する撮影特性に由来するのかは、Grad-CAMだけでは判断できない。

外部検証(別施設・別機器・別患者集団)での性能確認が、この問いへの最も実証的な答えになる。

(2026年4月時点)


AI×人間 補完設計のマトリクス図。2x2マトリクス。横軸『時間圧力』(高/低)、縦軸『データ豊富さ』(多/少)。各象限に推奨配分が短文で:左上『時間圧力高×データ多』→AIファースト確認後、左下『時間低×データ少』→医師判断、右上『時間高×データ少』→保留、右下『時間低×データ多』→併用検討
どの場面で『AI先』『医師先』『保留』にするか。エラーパターンを知っていれば、設計で答えが見える

7. エラーパターンの非対称性:設計のための問い

ここまでの議論を一つの問いに集約しよう。

AIのエラーと人間医師のエラーは、どう違うのか。

Topol(2019, Nature Medicine, 25, 44–56)は「High-performance medicine」の概念で、AIと人間の役割分担を論じた。AIが優位な領域と人間が優位な領域は異なり、その差異がエラーパターンに現れる。

AIのエラーパターン:

  • 訓練分布外で系統的に失敗する(病院トークン問題、L04参照)
  • データバイアスを引き継ぐ(Daneshjou et al. 2022が示した格差)
  • temperature変動で非決定論的な出力を生じることがある(LLMの場合)
  • 「なぜ失敗したか」が外部から見えにくい(ブラックボックス問題)

人間医師のエラーパターン:

  • 疲弊・認知的過負荷で失敗率が上昇する
  • 確証バイアス・アンカリングバイアス(直前の症例が次の判断に影響する)
  • 希少疾患・自施設で経験が少い疾患に弱い
  • 自動化バイアスにより、AIの誤りを見落とす

エラーパターンが非対称であれば、相互補完が設計できる。「AIと人間のどちらが優れているか」より「どちらをいつ使うか」を問うほうが、臨床的に有用だ。

エラーパターンの非対称性:相互補完の根拠

AIは疲れず、施設内で一貫して動き、大量の画像を均等に処理できる。しかし訓練分布の外で系統的に失敗し、データバイアスを引き継ぐ。

人間医師は疲弊・バイアスで失敗するが、希少疾患、患者の生活文脈、訓練データに存在しない状況を処理できる。

この非対称性は、「AI + 医師」という組み合わせの設計根拠になる。同時に、Lyell & Coiera(2017)が示した自動化バイアスの危険性も設計に組み込む必要がある。

High-performance medicine: the convergence of human and artificial intelligence

AIと人間医師の役割分担を論じた代表的論説。エラーパターンの非対称性に基づく相互補完設計の概念を提示。DOI: 10.1038/s41591-018-0300-7

論文Nature Medicine, 25, 44–56Topol EJ
Disparities in dermatology AI performance on a diverse, curated clinical image set

DDI datasetでのROC-AUC 27〜36ポイント低下。皮膚科AIの人種・肌色格差を示した。DOI: 10.1126/sciadv.abq6147

論文Science Advances, 8(31), eabq6147Daneshjou R, Yuksekgonul M, Cai ZR, et al.

小児科医として最後に付け加えたいことがある。

成人データで学習されたAIが小児患者に通用するかどうかは、別途検証が必要な問いだ。成人と小児では疾患スペクトラム・有病率・形態的特徴が異なる。小児の脳MRIは成人と解剖学的に異なるため、成人データで学習したEIRLが小児に同等の性能を示すかは保証されない。「このAIは小児データで検証されているか」という問いは、L06のテーマとして引き継ぐ。


ここまでの整理:わかっていること、わかっていないこと

2026年4月時点で、AIの能力と限界について確認できることを整理する。

わかっていること:

  • LLMのtemperatureパラメータにより、生成AIは同じ入力に確率的に異なる出力を生じる
  • ハルシネーションはIntrinsic(入力矛盾型)とExtrinsic(検証不能型)に分類できる(Ji et al. 2023)。医療では後者のリスクが高い
  • 自動化バイアスは認知負荷が高い場面ほど発生しやすく、AIの誤りを見落とすリスクが上がる(Lyell & Coiera 2017)
  • データバイアスとinductive biasは原因が異なり、対策も異なる
  • Daneshjou et al.(2022)はDDI datasetを用いて、商用皮膚科AIがROC-AUCで27〜36ポイント低下することを示した
  • EIRL aneurysm(PMDA承認番号30100BZX00142000)の添付文書では、医師単独感度68.2%がAI支援下で77.2%に改善したと記載されている(PMDA規制当局公式承認文書出典、査読論文DOIは未確認)
  • Grad-CAMが「正しい場所を示す」ことは「正しい理由で正しい答えを出す」ことを保証しない

わかっていないこと:

  • ハルシネーション軽減手法(RAGなど)が医療応用において安全基準を満たすかどうかの確立した評価枠組み(2026年4月時点で研究段階)
  • 自動化バイアスを設計上で軽減する最も効果的な介入の特定(アラートの頻度・表示形式・介入タイミングなど)
  • Grad-CAMが「正しい理由で正しい場所を見た」ことを確認する実用的な手法(人間の専門家によるラベルとの照合以外の方法)
  • 成人医療AIの小児患者への適用可否を体系的に評価する方法論(L06で詳述する)

「AIの能力と限界」を語ることは、「どこで失敗するか」を語ることだ。その解像度を上げることが、AIを適切に使う第一歩になる。

今日のまとめ

3行で振り返ります。

  • AIのエラーには種類がある——ハルシネーション、自動化バイアス、データバイアス、分布外失敗。区別すれば対処法も変わる
  • 「AIが言うから」は最大のリスク。自動化バイアスは怠慢ではなく、認知の構造的現象。設計で軽減するしかない
  • データバイアスは2層構造。データの偏りだけでなく、社会構造の偏りも反映している。データだけ直しても解決しないことがある

次のレッスンへ

L06「小児医療×AI:データの非対称性」では、ここまで触れてきた小児データ不足の問題を、専門医試験の出題傾向と照合しつつ実装上の課題として深掘りする。


明日のアクション

生成AIが出力した医療情報を1件選び、次の2軸でハルシネーションチェックを行う。

Intrinsicチェック(入力との矛盾確認):入力に含まれた情報と、AIの回答が矛盾していないか。患者情報や前提条件を入力した場合、それと逆の推奨が出ていないか。

Extrinsicチェック(独立した検証):引用された論文名・著者・DOI・ガイドライン名・推奨用量は、一次資料で確認できるか。PubMedやPMDA等で実在するか検索する。

選択肢(自分の状況に合わせて選ぶ):

  • 選択肢A(一般的なケース):ChatGPTやClaudeに「成人の高血圧初期治療の第一選択薬と推奨用量」を尋ね、JNC 8またはJSH2019ガイドラインの記述と照合する
  • 選択肢B(小児科医向け):「生後6か月児の発熱への対応」を尋ね、引用される推奨体温閾値・年齢区分・抗菌薬の適応基準が日本小児科学会または米国小児科学会のガイドラインと一致するかを確認する。成人のアセトアミノフェン固定量ではなく体重別の10〜15mg/kg処方が示されているかも確認ポイントだ

Extrinsic型のハルシネーションを1件見つけて記録する。「もっともらしい形式で出てきた誤り」のパターンを自分の目で確認することが、生成AIを臨床に持ち込む前の必須ステップになる。


参考文献

  • Ji, Z., Lee, N., Frieske, R., et al. (2023). Survey of Hallucination in Natural Language Generation. ACM Computing Surveys, 55(12), 1–38. DOI: 10.1145/3571730
  • Daneshjou, R., Yuksekgonul, M., Cai, Z.R., et al. (2022). Disparities in dermatology AI performance on a diverse, curated clinical image set. Science Advances, 8(31), eabq6147. DOI: 10.1126/sciadv.abq6147
  • Lyell, D. & Coiera, E. (2017). Automation bias: empirical results assessing influencing factors. Journal of the American Medical Informatics Association (JAMIA), 24(1), 88–95. DOI: 10.1093/jamia/ocw105
  • Esteva, A., Kuprel, B., Novoa, R.A., et al. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542, 115–118. DOI: 10.1038/nature21056
  • Topol, E.J. (2019). High-performance medicine: the convergence of human and artificial intelligence. Nature Medicine, 25, 44–56. DOI: 10.1038/s41591-018-0300-7
  • PMDA 添付文書 承認番号 30100BZX00142000(EIRL aneurysm、LPIXEL). 2019年9月17日承認. https://info.pmda.go.jp/ygo/pack/171955/30100BZX00142000_A_00_02/