メインコンテンツへスキップ
レッスン 1 / 12|12分で読めます

生成AIの基本:仕組みとハルシネーションの正体

なぜAIは堂々と嘘をつくのか。LLMの仕組みを理解すれば、医療で安全に使うための足場ができる。

生成AIの基本:仕組みとハルシネーションの正体

はじめに:存在しない論文を引用された日

ある研修医がChatGPTに聞いた。「川崎病の冠動脈病変リスクを最も正確に予測するスコアは?」。返ってきたのは、いかにもそれらしい論文の引用。著者名、ジャーナル名、年代まで付いている。だが指導医に確認しようとPubMedで検索すると、その論文はどこにも存在しなかった。全部、AIが作り上げた架空の書誌情報だった。

ハルシネーションと呼ばれる現象だ。架空の話に聞こえるかもしれないが、実際に起きている。

Case Study/ 米国

架空判例を裁判所に提出した弁護士

2023年の事件。米国の弁護士がChatGPTに判例調査を依頼し、AIが生成した6件の架空判例をそのまま裁判所に提出した。裁判所から制裁金5,000ドルを科され、世界的なニュースになった [1]。

法廷でこれなら、医療現場で起きたときの影響は想像に難くない。

この現象がなぜ起きるのか。仕組みから押さえておきたい。


生成AIとは何をしている技術か

2022年11月にChatGPTが公開されてから、わずか2ヶ月で月間アクティブユーザーは1億人を超えた。翌年、GPT-4は米国医師国家試験(USMLE)で86.7%の正答率を叩き出し [2]、医療界も騒然とした。ただし、正答率が高いことと理解していることは、まったく別の話だ。

ChatGPTやClaudeの中核にあるのは大規模言語モデル(LLM)と呼ばれる仕組みで、やっていることは拍子抜けするほど単純。

いまここまでの文脈に対して、次に来る確率がいちばん高い単語を予測する

これを延々と繰り返して、文章が出来上がっている。

文字を読んで意味を理解しているわけではない。インターネット上の膨大な文章から単語同士の繋がり方のパターンを学び、確率的にもっともらしい続きを出しているだけ。流暢な日本語を生成できるのはそのおかげで、嘘をつくのもまた同じ理由による。

LLMは答えではなく文章の確率を出している

医師が診断するとき、所見から鑑別を立て、検査で絞り、確定に至る。論理の階段を一段ずつ昇る。LLMにこの階段はない。「川崎病 冠動脈 リスクスコア 論文」と入力されれば、過去の学習データの中で「この単語の並びの後に来やすい単語」を確率順に並べるだけ。それがたまたまKobayashiスコアかもしれないし、存在しない著者名かもしれない。

AIの出力に医学的根拠があるかどうかは、AI自身は判定していない。判定するのは、使う側の人間の仕事になる。


なぜハルシネーションが起きるのか

理由はシンプルで、LLMには「分かりません」と答える回路がない。次の単語を確率で選び続ける仕組みである以上、確信度が低くても黙らずに何かを出す。

それに加えて、学習データにない情報を聞かれたときが厄介だ。最新のガイドライン、自施設の薬剤採用リスト、ローカルな診療フロー。こうした情報はモデルの中にそもそも存在しないのに、LLMは「それっぽい答え」を組み立ててしまう。嘘をつこうとしているのではなく、確率的にいちばん高いものを出すという仕組みの宿命だ。

医療で特に危ないのは3つのパターンになる。

  1. 存在しない論文・著者・ガイドラインの引用。書誌情報は形式が決まっているぶん、それっぽく生成されやすい
  2. 薬剤量・小児用量・腎機能補正の数値の捏造。数字は文脈から確率的に生成されるので、もっともらしい値が出てくる
  3. 古い情報の再利用。モデルの学習データが2〜3年前で止まっていると、改訂前のガイドラインを平然と答える

医療で使うための3つの原則

ハルシネーションをゼロにすることはできない。ただ、起きる前提で使えば、安全な運用は十分に可能だ。

まず、検証できない答えは採用しない。AIが「Aがいい」と言ったら、PubMedかUpToDateか公式ガイドラインで裏を取る。この習慣を例外なく守る。AIの出力は仮説であって、結論ではない。

次に、AIには必ず「根拠を出して」と追加で聞く。論文タイトルやURLが返ってきたら、実際にリンクを開く。開かないURLは、存在しない文献だと思っていい。

そして、間違いが許されない場面ではLLM単体を使わない。薬剤量、禁忌、小児量、妊婦への投与。患者の安全に直結する情報は、Lexicompや今日の治療薬、添付文書と必ず併用する。


まとめ

AIは確率で単語を選ぶ機械であり、理解も検索もしていない。流暢さと正確さは別物だと知ることが、安全に使う第一歩になる。

生成AIは、次の単語を確率で選ぶ機械だ。理解しているわけでも、調べているわけでもない。流暢なのもそのせいで、嘘をつくのもそのせい。この仕組みが腑に落ちていれば、過剰に期待することも、過剰に怖がることもなくなる。

2026年現在、モデルの精度は2023年当時と比べて大きく向上した。しかしハルシネーションが消えたわけではない。最新のベンチマークでは、最も高性能なモデルでもグラウンデッドなタスクで1〜2%、難度の高い評価では10%以上の割合でハルシネーションが発生する。RAG(検索拡張生成)を組み合わせるとハルシネーション率は約70%低減するが、ゼロにはならない。精度が上がった分だけ油断しやすくなっている点が、むしろ今の本当のリスクだ。

次回は、実際に医療現場で使われている主要なAIツールを、何が得意で何が苦手かという観点から整理する。

参考文献

  1. Mata v. Avianca, Inc., No. 22-cv-1461 (S.D.N.Y. 2023). 弁護士がChatGPT生成の架空判例を裁判所に提出し懲戒処分。
  2. Nori H, King N, McKinney SM, et al. Capabilities of GPT-4 on Medical Competency Examinations. arXiv:2303.13375. 2023.
PubMed

AIが引用した論文の実在を確認するための一次情報源。ハルシネーション検証の基本ツール

WebNational Library of Medicine

明日のアクション

今日、自分が普段聞いているAIに「直近のガイドラインを引用して」と尋ねてみよう。返ってきた論文タイトルと著者を1つ選び、PubMedで実在を確認する。3つ試してみて、何個ヒットして何個ハルシネーションだったかを数えてみてほしい。これが「AIを信じる量」のキャリブレーションになる。