メインコンテンツへスキップ
レッスン 2 / 10|51分で読めます

AIの歴史:繰り返す夢と挫折

ダートマスから生成AIまで、3度のブームと2度の冬を辿り、「今回は本物か」という問いに楽観論と批判論の両方から向き合う

AIの歴史:繰り返す夢と挫折

1956年から2026年までのAI70年史を一本のタイムライン上に配置したヘッダー画像。ダートマス会議、MYCIN、第2次冬、AlexNet、AlphaGo、ChatGPT、DeepSeekといった節目が、波打つ山と谷の曲線(期待と失望のサイクル)として描かれている
AIの70年は、期待と失望が3度繰り返してきた歴史だ。今いる場所がどこなのかを知るために、まず地図を広げる

2025年1月、DeepSeekというあまり知らない名前の中国のAI企業が、OpenAIのモデルに匹敵するとされる言語モデルを公開した。テックコミュニティは「AIの民主化」と沸き立ち、NVIDIAの株価は一時17%下落した。

少し立ち止まって考えてみた。この驚きは何に対する驚きなのか。「中国がここまで来た」という驚きか、「このコストでここまでできるのか」という驚きか、それとも「また何かが変わりそうだ」という曖昧な予感か。

AIの歴史を知っていると、この感覚に名前がつく。「期待の過剰」と「失望」を繰り返してきた70年分のパターンが、2025年の今も続いているという感覚だ。


1. なぜ歴史を学ぶか

同じことを繰り返すために歴史を学ぶわけではない。パターンを知ることで、「期待のキャリブレーション」ができるようになるからだ。

「今回は本物か」という問いは、AIが注目を集めるたびに繰り返されてきた。そのたびに「本物だ」と言う人と「また冬が来る」と言う人が現れ、投資が集まり、失望が来て、また新しいサイクルが始まる。

このレッスンでは、そのサイクルを辿りながら「今回は何が同じで、何が違うのか」を問う。そして2026年4月時点で、「今回は本物か」という問いに対して正直に答えられる材料を揃えていく。

答えを先に言ってしまうことはしない。それがこのレッスンの立場だ。


2. 第1次ブームとAI冬(1950〜70年代)

1956年夏のダートマス大学キャンパスで4人の研究者(マッカーシー・ミンスキー・ロチェスター・シャノン)が黒板の前で議論しているシーン。黒板には『Artificial Intelligence』の文字と簡素な数式が書かれている、Ark Journal調の編集イラスト
1956年、ダートマス大学。「Artificial Intelligence」という言葉が公式に生まれた瞬間。集まった研究者たちは『10年で人間と同等の知能ができる』と信じていた

「人工知能」という言葉が生まれたのはいつか。

正確には2回の出来事がある。提案書が書かれた日と、会議が開催された日だ。

1955年8月31日、ジョン・マッカーシーはロックフェラー財団宛に提案書を送った。そこに「artificial intelligence」という言葉が初めて公式に登場した。翌年の夏、実際の会議がダートマス大学で開催された。このふたつは別のイベントであり、「1956年のダートマス会議でAIが生まれた」は半分正しく、半分省略がある。

提案書の核心的な前提はこうだった。

"The study is to proceed on the basis of the conjecture that every aspect of learning or any other feature of intelligence can in principle be so precisely described that a machine can be made to simulate it."

(この研究は、学習や知性のあらゆる側面は原理的に正確に記述でき、機械がそれをシミュレートできるという推測を前提として進める)

出典: McCarthy, J., Minsky, M.L., Rochester, N., & Shannon, C.E. (1955, August 31). A proposal for the Dartmouth summer research project on artificial intelligence. Stanford University Archives. http://jmc.stanford.edu/articles/dartmouth/dartmouth.pdf

「あらゆる側面が記述できる」という前提。この楽観主義が、後の失望の遠因になる。

会議に集まった研究者たちは、「10年以内に機械が人間と同等の知能を持つ」と信じていた。チューリングは1950年の論文で「50年以内」という予測を述べていたが(L01参照)、現場の研究者たちはもっと楽観的だった。

1969年、MITのMinsky とPapert が著書 Perceptrons で単純なニューラルネットワークの限界を数学的に示した。資金が引き上げられ、第1次AI冬が始まった。

Case Study/ 米国

ダートマス提案書:「人工知能」という言葉の誕生

マッカーシー、ミンスキー、ロチェスター、シャノンの4名が、1956年夏のダートマス大学ワークショップに向けてロックフェラー財団に資金申請した提案書だ。日付は1955年8月31日。

「知性のあらゆる側面は原理的に機械でシミュレートできる」という前提のもと、自然言語処理・ニューラルネットワーク・抽象化・自己改善などのテーマを2か月間研究する、という構想だった。

意義として大きいのは、「Artificial Intelligence」という用語の公式初出になった点だ。バラバラに研究されていた機械知能の諸研究を、一つのフィールドとして定義した。

哲学的には、知性は形式的に記述可能だという記号主義的楽観主義に立っている。あとで明らかになる通り、この前提は「暗黙知」「身体性」「統計的学習」を見落としていた。

2026年4月時点で「AIという言葉の誕生」として史的ランドマークに位置づけられている。「学習のあらゆる側面が記述できる」という前提は、LLMが暗黙知を統計的に学習することで部分的に証明されたが、「意味の理解」については依然として未解決だ(L01参照)。

A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence

「Artificial Intelligence」という用語の公式初出。1955年8月31日付。AI Magazineに再録: https://ojs.aaai.org/aimagazine/index.php/aimagazine/article/view/1904

論文Stanford University ArchivesMcCarthy, J., Minsky, M.L., Rochester, N., & Shannon, C.E.

3. MYCIN:医療AIの先駆けが残した問い

MYCINの仕組みを示す概念図。左に分厚いルールブック(『発熱 AND 血液培養陽性 → カバー薬X』のような600のIf-Thenルールが見える)、中央に推論エンジンの円形フロー、右に出力『推奨薬:X、Y』のカード。下部に大きな数字『65%』と『専門医と同等以上の合致率』のキャプション
MYCINは精度では合格していた。それでも採用されなかった——理由は技術ではなく、制度と倫理にあった

1970年代、第1次AI冬の影の中で、スタンフォード大学では一本の医療AIが作られていた。

MYCINだ。細菌性感染症の起因菌を特定し、抗菌薬を推薦するシステム。約600の「if-then」ルールで構成された。

1976年、Edward Shortliffeが博士論文としてまとめた評価によれば、MYCINの推薦が感染症治療に「適切」と判定された割合は65%だった。この数字は「診断正答率」ではなく「適切な薬剤選択の合致率」であり、指標の定義を混同すると誤解を招く。当時の感染症専門医の同スコアは52〜65%の範囲に分布し、MYCINは少なくとも専門医と同等以上の水準を示した(Buchanan & Shortliffe, 1984)。

ではなぜ、MYCINは臨床採用されなかったのか。

答えは精度ではなかった。精度は問題ではなかったのだ。

理由は3つある。法的責任が不明確だった。電子カルテとの統合ができなかった。そして「AIの推薦に従ったとき、誰が責任を取るか」という倫理的問いに、社会が答えを持っていなかった。

ここが重要だ。技術は間に合っていた。制度と倫理が追いつかなかった。

2022年に日本でnodocaが保険適用された。AIが初めて日本の診療報酬体系に組み込まれた瞬間だ。MYCINから約50年。その間に変わったのは、精度だけではない。

Case Study/ 米国

MYCIN:「精度は合格、しかし臨床採用ゼロ」

スタンフォード大学のEdward Shortliffeが1970年代前半に開発した。菌血症・髄膜炎の起因菌特定と抗菌薬推薦を目的とした、約600のプロダクションルールで構成されたシステムだ。

実装はルールベースの推論エンジンで、「発熱 AND 血液培養陽性 AND 好気性菌 → カバー薬はXとYを検討」のような形式の知識ベースを、専門家インタビューで構築した。

意義として、「適切な薬剤選択の合致率」65%を達成し、感染症専門医と同等以上の水準を示した最初期の医療AIだ(Buchanan & Shortliffe, 1984)。後の医療AIが参照し続ける歴史的ベンチマークになっている。

哲学的にはシンボリズムの立場、つまり医師の知識は「ルール」として明示化できるという前提に立つ。この前提が「知識獲得のボトルネック(knowledge acquisition bottleneck)」と呼ばれる問題の根拠にもなる。

現代では、電子カルテの普及、医療機器規制の整備、診療報酬での評価が、MYCINが解決できなかった課題への部分的な答えになった。ただし「AIの推薦に従ったとき誰が責任を取るか」という問いは、2026年4月時点でも完全に解決されたとは言えない。EU AI Actはこれを「人間による監視」という要件で制度的に応答しようとしている。

Computer-Based Medical Consultations: MYCIN

MYCINの原典。MYCIN評価: 「適切な薬剤選択の合致率」65%の一次資料。PMC: https://pmc.ncbi.nlm.nih.gov/articles/PMC2464549/

論文Elsevier/North-HollandShortliffe, E.H.

4. 第2次ブームと冬(1980〜90年代):知識は誰が入力するのか

知識獲得のボトルネック概念図。左側に『専門家の頭の中(暗黙知・経験・直観)』が大きな雲の形で描かれ、中央に細い漏斗(ボトルネック)があり、右側に『機械が読めるルール』として小さな箱が出てくる。漏斗の周囲に『言語化困難』『暗黙知の壁』というラベル
専門家の知識を機械が読めるルールに落とし込もうとして、漏斗が詰まった——これが第2次AI冬の構造的原因

1980年代、AIは「エキスパートシステム」として商業的ブームを迎えた。「専門家の知識をルール化すればAIができる」という思想だ。

しかし壁がすぐ現れた。「知識獲得のボトルネック(knowledge acquisition bottleneck)」だ。専門家は自分の知識を言語化することが苦手だ。暗黙知はルールに落とせない。メンテナンスには専門家とエンジニアが常駐で必要になる。コストは膨らんだ。

この時期の最大の国家プロジェクトが日本にあった。

第5世代コンピュータプロジェクト(1982〜92年)だ。通商産業省が1000億円規模の予算を投じ、ルールベースのAIで「知識処理」を実現しようとした野心的な計画だ。論理プログラミング言語PrologをベースにAIアーキテクチャを根本から再設計しようとした。

結果は失敗に終わった。1992年の終了時点で、想定した知識処理AIは実現されなかった。理由はMYCINと同じ構造だった。知識の形式化は想定以上に困難で、コネクショニスト(ニューラルネットワーク)という新しい潮流が、シンボリストのアプローチを方法論的に追い越し始めていた。

この失敗は日本だけの話ではなかった。1987年頃から米国でも専門家システムへの失望が広がり、AI研究への政府投資が再び冷え込んだ。第2次AI冬の始まりだ。

テーゼ vs アンチテーゼ:「知識は形式化できるか」

テーゼ(シンボリスト)の側は、知識は「ルール」として記述できる、と考える。専門家の判断を網羅的に言語化すれば、それを機械が再現できるという立場で、MYCIN、第5世代コンピュータプロジェクト、エキスパートシステムがこの系譜に立つ。

アンチテーゼ(コネクショニスト)の側は、人間の知識には「暗黙知」が存在し、ルールに落とせない判断は、訓練データから統計的に学習するしかない、と主張する。MYCINが65%の合致率を実現したにもかかわらず採用されなかった背景には、この知識形式化の限界があった。2012年のAlexNetが、この立場の実証的勝利を象徴する。

「シンボリスト vs コネクショニスト」の対立は、医療AIの設計論争としても現在進行形だ。ルールベースの医療アルゴリズムは説明可能だが更新が難しい。ニューラルネットは高性能だが解釈が難しい。EU AI Actが医療AIに「説明可能性」を求めるのは、シンボリスト的価値観の制度的反映でもある。


5. 深層学習革命(2012〜2017):データが語りはじめた

AlexNet 2012年の breakthrough を示す折れ線グラフ風の概念図。横軸に2010〜2015の年、縦軸にtop-5 error率。2010-2011は緩やかな下降(28.2→26.2%)、2012で急峻な落下(15.3%)、その後さらに低下が続く。2012の点に赤い注釈で『AlexNet:10.9ポイント改善』。背景にGPU・ImageNet・ドロップアウトのアイコン
2012年、AlexNetがエラー率を1年で10.9ポイント下げた。GPU・大規模データ・アルゴリズム改良の3つが揃った瞬間

第2次AI冬を破ったのは、ルールではなくデータだった。

2012年、トロント大学のAlex KrizhevskyがImageNetコンテスト(ILSVRC)に「AlexNet」を投入した。それまで毎年1〜2ポイント改善されていたエラー率が、1年で10.9ポイント下がった。

正確な数字を記しておく。2011年の2位のエラー率は26.2%。AlexNetは15.3%だった(Krizhevsky, Sutskever & Hinton, 2012, DOI: 10.5555/2999134.2999257)。差は10.9ポイント。この圧倒的な差が研究者コミュニティに衝撃を与えた。

何が変わったのか。3つの要因が揃った時期だった。GPU(NVIDIA GTX 580)による計算力の飛躍。ImageNetという大規模なラベル付きデータセット。そしてドロップアウトなどのアルゴリズム改良。どれか1つが欠けても、この結果は出なかった。

2016年、DeepMindのAlphaGoが囲碁でプロ棋士に勝った。スコアは4勝1敗だ。第4局は李世乭が勝利した唯一の対局であり、「5-0」は誤りだ(Silver et al., 2016, DOI: 10.1038/nature16961)。

李世乭が勝った第4局は、後に囲碁コミュニティで「神の一手(The God move)」と呼ばれる着手があった。AIが想定しなかった手を人間が打ったケースだ。「AIは全ての人間に勝てる」と「AIも負けることがある」という両方の事実が、この1試合に凝縮されている。

2017年、Google Brain の研究者8名が「Attention Is All You Need」を発表した。Transformerアーキテクチャの誕生だ(Vaswani et al., 2017, arXiv:1706.03762)。GPT・BERT・ChatGPT・Claude・Gemini、現在の主要言語モデルはすべてTransformerを基盤にしている。

ImageNet Classification with Deep Convolutional Neural Networks (AlexNet)

AlexNet論文。ImageNet ILSVRC 2012でtop-5 error 15.3%(2位26.2%から10.9ポイント改善)。DOI: 10.5555/2999134.2999257

論文NeurIPS 2012Krizhevsky, A., Sutskever, I., & Hinton, G.E.
Mastering the game of Go with deep neural networks and tree search

AlphaGoの原論文。李世乭との5番勝負で4勝1敗。DOI: 10.1038/nature16961 PMID: 26819042

論文Nature, 529(7587), 484–489Silver, D., Huang, A., Maddison, C.J., et al.
Attention Is All You Need

Transformerアーキテクチャの原論文。GPT・BERT・ChatGPT・Claude・Gemini全ての基盤。arXiv:1706.03762。2025年時点で被引用数173,000件超

論文NeurIPS 2017Vaswani, A., Shazeer, N., Parmar, N., et al.

6. Watson の教訓:合成データで訓練したAIが現実に失敗した

合成データと実患者データの分布乖離を示す概念図。左側に『訓練データ(合成症例)』として整然と並んだ理想的な患者カードの山、中央に矢印と『分布乖離』の警告マーク、右側に『実際の患者』として複雑で雑然と重なり合うリアルなカルテの山。下部にWatson for Oncologyの名前と『MD Anderson 提携解消 2017年2月』の年表記
Watsonは合成症例で訓練された。実患者は合成症例ではなかった——医療AIの構造的失敗パターン

2011年、IBMのWatsonがクイズ番組 Jeopardy! に出場し、チャンピオンを破った。IBMはこの「勝利」をがん治療分野に展開しようとした。Watson for Oncologyだ。

MD Anderson Cancer Center(テキサス大学系列)との提携は約6000万ドル規模だった。結果は、2017年2月に提携が解消された。

2018年7月25日、医療専門メディアSTAT Newsがその内部事情を報じた。リークされた内部プレゼン資料によれば、WatsonはNCCN(全米総合がん情報ネットワーク)ガイドラインと矛盾する治療推薦を行っていた。「重篤な出血リスクのある患者に、出血リスクを高める薬剤を推薦した」というケースも記録されていた(STAT News, 2018年7月25日)。

なぜそうなったのか。ここが構造的な問題だ。

Watsonの訓練データは「実際の患者の電子カルテ」ではなく、「医師とエンジニアが作成した仮想症例」だった。合成データで訓練したAIが、実際の患者に適用されたとき失敗した。

これはLLMを医療に使う際の構造的問題とも重なる。事前訓練されたLLMは、インターネット上のテキストを学習している。実際の患者カルテを学習したわけではない。RAG(検索拡張生成)なしに医療情報を生成させると、Watson と同じ構造的リスクを持つ可能性がある。

IBMはWatsonの医療事業を2022年に別会社Merative(旧IBM Watson Health)として分離売却した。

Case Study/ 米国

Watson for Oncology:「勝利」の後に来た失敗

IBMが2011年のJeopardy!勝利を医療に転用しようとしたプロジェクトだ。MD Anderson Cancer Centerほか複数の医療機関と連携し、がん治療の意思決定支援システムとして展開された。

仕組みとしては、Watsonに医療文献・ガイドライン・専門家知識を学習させ、患者情報を入力すると治療推薦を生成する形式だった。ただし訓練データは「実際の患者の電子カルテ」ではなく「医師・エンジニアが作成した仮想症例」が中心だった。

医療における生成AIの商業展開として先駆けで、「IBMの看板」と「巨額の契約」により、AIが医療現場に届くと期待された。

設計思想としては「十分な知識を持ったAIが推薦を出せば、医師はより良い判断ができる」という情報補完モデルだった。この前提は「訓練データが現実の患者を代表しているか」という問いを脇に置いていた。

その後、2018年7月25日のSTAT News報道で内部問題が露呈した。MD Anderson提携は2017年2月に解消済みだった。2022年にWatson Health部門はMerative社として分離売却。「合成症例で訓練したAIが実患者に失敗する」という教訓は、LLMを医療に使う際の設計要件(RAG・実患者データによる検証・分布一致確認)を考える上で今も有効だ。

IBM's Watson recommended 'unsafe and incorrect' cancer treatments

2018年7月25日付。WatsonがNCCNガイドラインと矛盾する治療推薦を行っていたことを示す内部資料リーク報道。MD Anderson提携解消は2017年2月。IBMの立場(自社製品への利害)に留意が必要。

WebSTAT NewsRoss, C. & Swetlitz, I.

7. 2026年の問い:「今回は本物か」

テーゼ vs アンチテーゼの左右対比図。左側『商業的成功派(テーゼ)』にChatGPT年商30億ドル・nodoca保険適用・GPU 1000倍・データ規模の4項目。右側『バブル懸念派(アンチテーゼ)』にGoldman Sachs 2024・Gartner Hype Cycle『幻滅期』・Acemoglu TFP 0.66%・ROI不明確の4項目。中央に『どちらが正しいか』ではなく『何のタスクで、いつ』というジンテーゼの問いが添えられている
「本物か否か」より、「どのタスクで、いつ」を問う。これが2026年の正直な立ち位置

ChatGPTが公開されたのは2022年11月30日。5日間で100万ユーザーを突破した。この数字の出典は、OpenAI共同創業者Greg BrockmanのXポスト(2022年12月5日)だ。

2025年初頭、DeepSeek R1が公開された。中国語の医師国家試験で96%のスコアを記録したとされる(対してOpenAI o1は75%程度)。オープンウェイトで公開されており、誰でもダウンロードして使えた。「中国AIの台頭」と同時に「計算コストの民主化」という文脈で語られた。

2022年4月、日本では咽頭画像AIのnodocaが初めて保険適用された(承認番号: 30400BZX00101000)。AIがC2区分として診療報酬に組み込まれた日本初の事例だ。

これらの事実は「今回は本物」の根拠として提示される。過去のブームと異なる点として「GPUの飛躍的進歩」「インターネット由来のデータ規模」「実際の商業収益」の3点が挙げられることが多い。

しかし別の問いもある。

2024年、Goldman Sachsのアナリストたちは「Gen AI: Is There a Bubble?」というレポートを出した(2024年6月)。AIへの巨額投資に対して、現時点でROI(投資回収率)が明確でないことを指摘した内容だ。Gartner Hype Cycle 2024でも、生成AIは「幻滅期(Trough of Disillusionment)」に向かう軌跡を描いていた。Goldman Sachsは投資銀行であり、AIバブルの議論には自社の投資判断との利害関係がある点も念頭に置く必要がある。ただしその点を差し引いても、「商業的成功の実績がある」ことと「投資規模に見合うROIが実証された」ことは異なる問いだ。

テーゼ vs アンチテーゼ:「今回のAIブームは本物か」

テーゼ(商業的成功派)の側は、過去のブームと今回が質的に異なる根拠を3つ挙げる。GPUによる計算力の飛躍(AlexNet以降10年で1000倍超)、インターネットが生み出したテキスト・画像データの規模、そして実際の商業収益(ChatGPTは2024年に年間収益30億ドル超、nodocaの保険適用)。過去のAIの冬は「商業的成功が実証される前に投資が引き上げられた」というパターンだったが、今回は実際に収益が出ている、というのがこの立場の主張だ。

アンチテーゼ(バブル懸念派)の側は、別の数字を挙げる。Goldman Sachs 2024「AIへの巨額投資のROIがまだ不明確」。Gartner Hype Cycle 2024で生成AIが「幻滅期」へ向かう軌跡。AIデータセンターへの投資額と、そこから生み出される生産性向上の測定困難性。Acemoglu (2024, NBER WP 32487) は「AIが10年間でもたらすTFP(全要素生産性)向上は最大0.66%」と試算している。

立場の利害関係も読み込む必要がある。テーゼ側の代弁者であるOpenAI・Google・Microsoftは自社AI事業の価値最大化と利害が一致する。アンチテーゼ側のGoldman Sachsは投資判断のための分析を行うが、自社の金融商品との利害関係も存在する。双方の主張をその立場とともに読む習慣が必要だ。

ジンテーゼ(2026年4月時点):「本物か否か」より「何のタスクで、いつ」

「今回は本物か否か」という二項問題より、実践的に価値のある問いはこちらだ。

  • どのタスクで本物か。画像診断AIは特定疾患で専門医と同等の水準に達している。カルテ記載補助は実際の外来で使われている。だが「稀少疾患の診断」「患者の生活文脈の統合」は依然として人間優位だ。
  • 投資回収にどれくらいかかるか。技術の実証から保険適用まで、MYCINからnodocaで約50年かかった。生成AIの医療応用でどれだけ短縮されるかは、制度設計の速度に依存する。
  • 「本物」は分野によって非対称だ。タンパク質構造予測(AlphaFold2)は「本物」だった。がん治療推薦(Watson)は失敗した。「AIは本物か」ではなく「このAIは、このタスクで、このデータで本物か」を問う解像度が必要だ。

(2026年4月時点)

問い: DeepSeek R1は何を変えたのか

DeepSeek R1が示したのは、「中国のAIが追いついた」という一点だけではないかもしれない。

オープンウェイトで公開され、比較的小さな計算コストで高性能を達成したとされるこのモデルは、「AIは特定の大企業だけが作れるものか」という問いを更新した。

ただし「中国語医師国家試験96%」という数字の評価方法・データセット・比較条件の詳細は、2026年4月時点で独立した検証が十分ではない。数字を使うときはその限界も一緒に提示する。

(2026年4月時点)


8. 臨床的帰結:失敗パターンの非対称性と小児科医の問い

小児医療データの不足を示す概念図。中央に大きな円グラフ風の構成。99%以上が成人データ(warm beige)、1%未満が小児データ(terracotta accent)。右側に小児科医の小さなシルエット、その吹き出しに『小児で訓練されたAIか?』という問い。下部にnodocaの咽頭画像AIが日本初の小児外来想定として注目される旨の注釈
医療AI訓練データの大半は成人。小児は1%未満という推計もある——小児科医がAIを評価する最初の確認事項

Watson for Oncologyの失敗と、MYCINが採用されなかった経緯を並べると、医療AIが失敗する時のパターンが見えてくる。

訓練データと実患者の分布が乖離したとき、AIは系統的に失敗する。Watsonの合成症例は実患者を代表していなかった。AlexNetが15.3%のエラー率を達成したのは、ImageNetの訓練データとテストデータが同じ分布だったからでもある。

一方、人間医師が失敗するのは別のパターンだ。疲弊、確証バイアス、認知的過負荷、稀少疾患への訓練不足。AIとは系統的に異なる条件で間違える。

このエラーパターンの非対称性が、相互補完的な設計の根拠になる。「AIか人間か」という問いより「どのエラーをAIが、どのエラーを人間がカバーするか」を設計することが臨床的に実用的だ。

小児科医として一つ付け加えたい。

現在の医療AIエビデンスの大部分は成人患者を対象にして構築されている。MYCINを含む初期の医療AIから、AlexNetを応用した皮膚科AIに至るまで、小児を主たる訓練集団とした事例は極めて少ない。公開医療画像データセットの大部分で、小児データは1%未満という推計がある。

nodocaはインフルエンザ診断を対象とし、小児の外来での使用を想定して開発されたという点で、日本の小児科AIとして注目すべき例外的な存在だ。しかし「小児専用に設計されたAI」と「成人データで訓練されて小児にも使われているAI」を区別することは、小児科医が医療AIを評価する際の最初の確認事項になる。

これはL06で詳しく扱う。

臨床的帰結:AIと医師のエラーパターンは非対称

AIが失敗するパターン:

  • 訓練分布外(稀少疾患、新興感染症、データ収集されていない集団)
  • 合成データと実患者の乖離(Watson教訓)
  • ラベルの定義が現実を代表していない場合

人間医師が失敗するパターン:

  • 疲弊・過負荷(認知的過負荷、夜間対応後の判断)
  • 確証バイアス(最初の仮説を維持しようとする傾向)
  • 稀少疾患の経験不足

エラーパターンが非対称であれば、「どちらが優れているか」より「どこをAIがカバーし、どこを人間がカバーするか」を設計する方が実践的だ。


ここまでの整理:わかっていること、わかっていないこと

AIの歴史を70年分辿ってきた。パターンは繰り返している。期待、失望、再起動。そして今また、新しいサイクルの中にいる。

このレッスンで明らかになったことと、まだ不明なことを整理しておく。

わかっていること

  • Dartmouth提案書は1955年8月31日付であり、会議は1956年夏に開催された(別の出来事)
  • MYCINは「適切な薬剤選択の合致率」65%を達成したが、臨床採用されなかった理由は法的・制度的・インフラ的な障壁だった
  • AlexNetはILSVRC 2012のtop-5 errorを26.2%から15.3%に改善した(Krizhevsky et al., 2012)
  • AlphaGoは2016年に李世乭と4勝1敗の結果を残し、第4局は人間が勝った唯一の公式対局だった
  • Watson for OncologyはNCCNガイドラインと矛盾する推薦を行い、MD Anderson提携は2017年2月に解消された。STAT News報道は2018年7月25日
  • 第5世代コンピュータプロジェクト(1982〜92年)は1000億円規模の国家投資にもかかわらず、想定した知識処理AIを実現できなかった
  • nodocaは2022年4月26日に保険適用された日本初の「新医療機器」区分のAIだ(承認番号: 30400BZX00101000)

わかっていないこと

  • 「今回のAIブームは本物か」という問いに対する確定的な答え(2026年4月時点では実績と懸念の両方が存在する)
  • Goldman Sachsが指摘するROIの不明確性がいつ、どのように解消されるか
  • DeepSeek R1を含む中国AIの急速な台頭が、医療AI開発の競争構造をどう変えるか
  • 生成AIの医療応用が「Watsonの失敗」と同じ構造的問題を抱えているかどうか(訓練データと現実患者の分布乖離)

「今回は本物だ」と言い切ることは、このレッスンの仕事ではない。「どの問いを持ち続けるか」を渡すことが仕事だ。

今日のまとめ

3行で振り返ります。

  • AIは70年で3度のブームと2度の冬を経験している。1956年ダートマス→1960年代冬→1980年代エキスパートシステム→1990年代冬→2012年深層学習→現在
  • 過去のAIは「精度」より「制度・倫理・分布乖離」で失敗してきた。MYCIN は精度合格でも採用されず、Watson は合成データで実患者に失敗した
  • 「今回は本物か」より「どのタスクで、いつ」を問う。タンパク質構造(AlphaFold2)は本物、がん治療推薦(Watson)は失敗した——分野ごとの解像度が必要

次のレッスンへ

L03「AIの分類:強いAI/弱いAI/生成AI/識別AI/汎用人工知能」では、混在しがちなAI関連用語を、医療現場で意味のある区別にほぐす。


明日のアクション

AIの歴史で繰り返された「期待の過剰 → 失望」のパターンを念頭に、現在自分が使っているAIツールに対して「過大な期待をしていないか」を棚卸しする。

ステップ1:期待していること3つを書き出す。たとえば「カルテ記載の時間が半分になる」「鑑別診断の漏れが減る」「論文要約が正確になる」など。

ステップ2:区別する。書き出した3つのそれぞれに対して、次の2点を問う。

  • 「すでに自分で検証し、実際に確認できたこと」か
  • 「まだ期待値の域にあり、検証していないこと」か

ステップ3:小児科医・小児医療の視点で問い直す(任意、強く推奨)。自分が使っているAIツールについて「これは小児データで訓練されているか、または小児で検証されているか」を確認する。たとえば「Claudeに聞いたアセトアミノフェン用量は体重別の計算式を反映しているか」「推薦された抗菌薬用量は小児の腎機能を考慮した減量を示しているか」を一度確認してみる。

Watson for Oncologyは「臨床試験で証明されていない推薦」を出し続けた。AIへの期待と、検証された実績を区別する習慣が、その繰り返しを避けることにつながる。


参考文献

  • McCarthy, J., Minsky, M.L., Rochester, N., & Shannon, C.E. (1955, August 31). A proposal for the Dartmouth summer research project on artificial intelligence. Stanford University Archives. http://jmc.stanford.edu/articles/dartmouth/dartmouth.pdf
  • Shortliffe, E.H. (1976). Computer-Based Medical Consultations: MYCIN. Elsevier/North-Holland. PMC: https://pmc.ncbi.nlm.nih.gov/articles/PMC2464549/
  • Buchanan, B.G. & Shortliffe, E.H. (1984). Rule-Based Expert Systems: The MYCIN Experiments. Addison-Wesley.
  • Krizhevsky, A., Sutskever, I., & Hinton, G.E. (2012). ImageNet classification with deep convolutional neural networks. NeurIPS, 25. DOI: 10.5555/2999134.2999257
  • Silver, D., Huang, A., Maddison, C.J., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484–489. DOI: 10.1038/nature16961 PMID: 26819042
  • Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). Attention is all you need. NeurIPS, 30. arXiv:1706.03762
  • Ross, C. & Swetlitz, I. (2018, July 25). IBM's Watson recommended 'unsafe and incorrect' cancer treatments. STAT News. https://www.statnews.com/2018/07/25/ibm-watson-recommended-unsafe-incorrect-treatments/
  • Goldman Sachs. (2024, June). Gen AI: Too much spend, too little benefit? [Research report]. Goldman Sachs Global Investment Research.
  • Acemoglu, D. (2024). The simple macroeconomics of AI. NBER Working Paper 32487. https://www.nber.org/papers/w32487
  • アイリス株式会社. (2022). nodoca 承認番号 30400BZX00101000 取得. https://prtimes.jp/main/html/rd/p/000000015.000035813.html