AIの定義と知能の本質

AlphaFold2が予測したタンパク質の3D構造と、Claude 3 Sonnetの内部特徴量ヒートマップが、ベージュとティールのトーンで並ぶ静謐なヘッダー画像 — 2024年、AIは医療と科学の中核に到達した。だが「理解している」とはまだ言えない。その境界線が、このレッスンのテーマ

2024年10月、ノーベル化学賞の発表を聞いたとき、私は外来の合間にニュースを開いて少し立ち止まった。

「AIがノーベル賞を取った」と報じられていた。正確には人間3人が受賞した。 David Baker（ワシントン大学）はタンパク質の計算設計、Demis Hassabis と John Jumper（Google DeepMind）はAlphaFold2による構造予測。賞金の半分はDeepMind外の研究者であるBakerに贈られた。

「Google DeepMindがノーベル賞」という見出しは、事実の半分しか伝えていない。

この「事実の半分しか見えていない」感覚が、このレッスン全体を貫くテーマになる。

私たち医療職がAIを使うとき、毎日同じ感覚に出会う。精度の数字は出ている。論文も読める。だが、それが「理解している」のか「パターンを当てている」のかは、別の問いだ。そして、その違いは患者の前で問題になる。

ㅤ

1. AlphaFold2が示したもの

左にアミノ酸配列の文字列、矢印を挟んで右に折りたたまれたタンパク質の3D構造が並ぶ概念図。AlphaFold2のパターン学習による予測フローを示す — 50年解けなかった「配列→構造」予測を、AIはパターン学習で乗り越えた。理解ではなく、相関の蓄積で

AlphaFold2が解いたのは「タンパク質フォールディング問題」だ。アミノ酸配列から立体構造を予測する問題で、50年間解けなかった。

Jumper らの論文（Nature, 2021, DOI: 10.1038/s41586-021-03819-2, PMID: 34265844）によれば、CASP14の中央値 GDT_TS スコアは 92.4/100 だった。AlphaFold データベースは2024年10月時点で190か国・200万人以上が使用し、予測構造数は214百万配列に上る。ただし全配列が高信頼度で予測されているわけではなく、信頼度スコア（pLDDT）は配列によって大きく異なる。

ここで問いたいのは、AlphaFold2はタンパク質を「理解」して予測しているのか、それとも「パターンを学習」して予測しているのか、という点だ。

答えは後者に近い。膨大なアミノ酸配列と構造のペアからパターンを抽出し、新しい配列に対して構造を予測している。生化学のメカニズムを「概念として理解」しているかどうかは、別の問いだ。

そしてその「別の問い」こそが、このレッスンの本題である。

SourceJOURNAL / PAPER

Highly accurate protein structure prediction with AlphaFold

AlphaFold2の原論文。CASP14で GDT_TS 中央値 92.4/100 を達成。PMID: 34265844

論文NatureJumper J, Evans R, Pritzel A, et al.

nature.com/articles/s41586-021-03819-2

ㅤ

2. チューリングの知的誠実さ（1950年）

模倣ゲームの三者図。中央の審査員が左の人間と右のコンピュータの両方とテキスト会話している様子を、ベージュ背景に線画で描いた概念図 — チューリングは「機械は考えるか」を、「人間と区別できるか」という操作的な問いに置き換えた

1950年、イギリスの数学者アラン・チューリングは論文「Computing Machinery and Intelligence」を発表した。冒頭の問いは「機械は考えることができるか？（Can machines think?）」だった。

しかしチューリングはその問いに直接答えなかった。代わりに「模倣ゲーム（imitation game）」という操作的な判定方法を提案した。

原文はこう書いている。

"I believe that in about fifty years' time it will be possible, to programme computers, with a storage capacity of about 10^9, to make them play the imitation game so well that an average interrogator will not have more than 70 per cent chance of making the right identification after five minutes of questioning."

（私は、約50年後には、10^9のストレージ容量を持つコンピュータに模倣ゲームを非常にうまくプレイさせ、5分間の質問の後に平均的な審査員が正しく識別できる確率が70%を超えないようにプログラムできるようになると信じている）

出典: Turing, A.M. (1950). Computing Machinery and Intelligence. Mind, LIX(236), 433–460. DOI: 10.1093/mind/LIX.236.433

「知能とは何か」という形而上学的な問いに踏み込まず、「判別できるかどうか」という操作的な基準に置き換えた。この知的誠実さに注目してほしい。チューリングは「AIが人間と同じように考えているか」を問うたのではなく、「AIが人間と区別できないように振る舞えるか」を問うた。これは定義の問いではなく、判定方法の提案だ。

Case Study/ 国際

チューリングテスト：知能の「判定方法」

チューリングが立てた問いは「機械は考えることができるか」だった。彼の方法はシンプルで、テキストで対話する審査員が、相手が人間かコンピュータかを判定できなければ、そのシステムを「知能がある」とみなす、というものだ。

革新的だったのは、「知能の定義」を回避して「知能の判定方法」を提案した点だ。内部構造ではなく外側の振る舞いを評価の基準にした。

これは機能主義と呼ばれる哲学的立場で、知能とは特定の基質（生物学的ニューロン）に宿るものではなく、入出力の「機能的パターン」そのものだ、という考え方に立つ。丹念に構築した概念よりも、実証的な操作化を選んだということになる。

現代では、ChatGPTやClaudeは多くの場面でチューリングテストに「合格」する水準の対話能力を持つ。しかし「合格した」ことが「知能がある」ことを意味するか、という問いは今も未解決のまま残っている。

SourceJOURNAL / PAPER

Computing Machinery and Intelligence

チューリングテストの原論文。DOI: 10.1093/mind/LIX.236.433

論文Mind, LIX(236), 433–460Turing, A.M.

academic.oup.com/mind/article-abstract/LIX/236/433/986238

ㅤ

3. サールの反論：統語論は意味論を生まない

窓のある部屋の中で英語話者が中国語の規則書を見ながら、外から差し込まれる中国語のメモに記号操作で返答する様子を線画で描いた思考実験図 — 部屋の外からは中国語話者と区別できない。だが、部屋の中の人は中国語を「理解」していない

チューリングテストに対して、もっとも鋭い反論を提出したのが哲学者のジョン・サールだった（しばしば内在主義と呼ばれる立場の代表で、知能や意識は外側の振る舞いだけでは捉えきれず、内部で何が起きているかを問う必要があるとする）。1980年のことだ。

サールの「中国語の部屋」思考実験はこうだ。英語しか知らない人が、部屋の中で中国語の規則書だけを使い、外から投げ込まれる中国語の質問に回答する。外から見れば中国語話者と区別できないが、部屋の中の人は中国語を一切「理解」していない。

サールはここから次の主張を導いた。

「構文（syntax）は意味論（semantics）を生まない。プログラムを実行するコンピュータは、どれほど人間のように振る舞っても、心・理解・意識を持ちえない」

出典: Searle, J.R. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417–424. DOI: 10.1017/S0140525X00005756

この論文は BBS 史上最多引用の「ターゲット論文」となった。同誌上で27名の認知科学者が反論コメントを掲載し、その中には「部屋全体のシステムが理解している（Systems reply）」という反論もある。

2020年には言語学者のベンダーとコラーが「タコ思考実験」を使って同様の問いを立てた。テキストの統計的パターンだけを学習したシステムが「意味」を学べるはずはない、という主張だ（Bender, E.M. & Koller, A. (2020). Climbing towards NLU. ACL 2020, 5185–5198）。

LLMは「次のトークンを予測する」ことで動いている。その予測の背後に「意味の理解」があるのか、という問いはまだ決着していない。

比較

チューリング vs サール：論争の核心

チューリングは「外から見て区別できなければ知能とみなす」と提案した。サールは「内側で記号操作しか行われていなければ理解はない」と反論した。

この論争は45年経っても解決していない。ChatGPTやClaudeが対話できることが「知能の証拠」なのか、「巧妙な記号操作」なのかは、現在も答えが出ていない。

ㅤ

4. 2026年の問い：Anthropicの解釈可能性研究

ニューラルネットワークの内部に色分けされた特徴量クラスタが浮かぶ可視化イラスト。ティールとオレンジの濃淡で「金門橋」「医療概念」「言語横断」などの解釈可能特徴がラベル付きで配置されている — Claude 3 Sonnet の内部に、約3,400万の解釈可能な特徴量が見つかった。「金門橋」「ハック」「不安」など、人間が名前を付けられる概念が、抽象空間に配置されている

サールの問いに、現代の機械学習研究は新しい角度から答えを試みている。

2024年5月、Anthropic（Claude を開発する会社）は「Scaling Monosemanticity」という論文を発表した。Claude 3 Sonnet の内部表現を解析した結果、約3,400万の「解釈可能な特徴量」が存在することを示した（Templeton et al., 2024, transformer-circuits.pub）。

たとえば「金門橋」「不安」「医療診断」「中国語と英語の同じ概念」など、人間が名前を付けられる概念が、抽象空間の特定の方向として埋め込まれていた。言語をまたいで同じ概念が同じ方向にマッピングされていた、というのが特に印象的だ。

これは「ChatGPTやClaudeは単なる統計マシンではなく、概念的な内部表現を獲得しているのではないか」という方向の証拠になる。

ただし、これが「サールの言う『理解』に到達した」と言えるかは別問題だ。

「概念表現がある」ことと「主観的に経験している」ことは違う。後者は意識のハードプロブレムと呼ばれ、現在も哲学・神経科学・認知科学のいずれでも未解決のままだ。

SourceJOURNAL / PAPER

Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet

Claude 3 Sonnet 内部の解釈可能特徴量約3,400万を抽出。言語横断的な概念表現の存在を示す

論文transformer-circuits.pubTempleton, A., et al.

transformer-circuits.pub/2024/scaling-monosemanticity

ㅤ

5. 強いAI・弱いAI・AGI：定義の混在

3段の階段を昇る概念図。下段「弱いAI（特化型）」、中段「強いAI（汎用知性）」、上段「AGI（人間水準の任意タスク）」。各段に代表例（AlphaFold2、ChatGPT、未到達）がラベル付きで配置されている — 言葉が氾濫する分野ほど、まず定義の整理が要る。サール由来の哲学用語と、現代の運用概念が、しばしば混同されたまま使われる

ここで言葉の整理をする。

弱いAI（Weak AI / Narrow AI）: 特定のタスクに特化したAI。AlphaFold2、画像診断AI、囲碁AIなど。現在の医療AIはほぼ全てこの範疇に入る。

強いAI（Strong AI）: サールが定義した用語で、「人間と同じ意味で考え・理解する」AI。哲学的概念であり、技術的なベンチマークではない。

AGI（Artificial General Intelligence）: 人間が経済的に価値あるとされるタスクのほとんどで、人間と同等以上に達成できる汎用人工知能。学術的なコンセンサスは2026年4月時点で存在しない。Morris ら（2024）は「Levels of AGI」というフレームワークで5段階に分類した。

問題は、これらの言葉がしばしば混同されることだ。「ChatGPTはAGIに近い」と言われることがあるが、ChatGPTは特定のタスク（テキスト生成）に強いだけで、医療現場で求められる多様な判断（身体所見、患者背景、検査結果の統合）を全て担えるわけではない。

「AGI」という言葉が独り歩きしている分、私たち医療職は「具体的にこのタスクで」「この精度で」という解像度で考える習慣を持ちたい。

ㅤ

6. 臨床的帰結：「どんな条件で失敗するか」を問う

左右対比の概念図。左は『AIが失敗するパターン』（訓練分布外、稀少疾患、文脈依存）、右は『人間医師が失敗するパターン』（疲労、ヒューリスティック、確証バイアス）。中央に交差せず分離した重なりのベン図 — AIと人間は「異なる条件で」失敗する。だから片方が他方を完全に置き換えるのではなく、補完するという設計になる

哲学的な問いから、臨床に戻ってこよう。

「AIは知能を持つか」「AIは理解しているか」という問いは、未解決のまま残る。私たち医療職にとって実務的な問いはむしろ、こちらだ。

このAIは、どんな条件で失敗するか？

AlphaFold2は新規タンパク質ファミリーで pLDDT が落ちる。診断支援AIは訓練データに含まれない稀少疾患で精度が落ちる。LLMは長文の論理依存で論点を取り違える。

これらの「失敗パターン」が見えていれば、AIに任せていい場面と人間が判断すべき場面が分かれる。

ここで重要なのは、人間医師の失敗パターンとAIの失敗パターンが異なるということだ。人間は疲労や確証バイアスで失敗する。AIは分布外サンプルや訓練データの偏りで失敗する。

比較

AIと人間医師：エラーパターンの非対称性

人間医師の失敗パターン:

疲労、夜勤、忙しさによる注意散漫
確証バイアス（最初の診断を支持する所見だけ拾う）
ヒューリスティックの誤適用（「よくあるパターン」で稀少例を見落とす）

AIの失敗パターン:

訓練分布外のサンプル（稀少疾患、新規変異株）
学習データのバイアス（特定の人種・年齢で精度低下）
文脈依存的な判断の弱さ（患者の生活状況を加味した治療選択など）

エラーパターンが非対称であれば、相互補完的な設計が成立する。「AIと人間のどちらか」ではなく「どちらをいつ使うか」の設計が、臨床的実践の核心になる。

ㅤ

今日のまとめ

2x2マトリクスの概念図。左に『わかっていること』（AlphaFold2の精度、Claudeの内部特徴量、AIの分布外失敗、人間医師の失敗パターン）、右に『わかっていないこと』（主観的経験、AGIの定義、概念表現と理解の同一性、合格と知能の関係） — 答えが出ていない問いを、答えが出ているように教えることは誠実ではない

3行で振り返ります。

AIが「知能を持つか」「理解しているか」は、1950年から2026年まで未解決のまま。チューリングは判定方法を提案し、サールは内側を問い、Anthropicは内部に概念表現を発見した
臨床現場で実務的な問いは「このAIはどんな条件で失敗するか」に置き換わる。失敗パターンの非対称性が、AIと人間の補完関係を成立させる
「不思議さ」も「限界」も、まだ途中経過。答えが出ていない問いを、答えが出ているように教えるのは誠実ではない

ㅤ

次のレッスンへ

L02「AIの歴史と発展」では、1956年のダートマス会議から2026年のマルチモーダル基盤モデルまでの3つの冬と春を辿り、なぜ「今」がブレークスルーなのかを技術史で示す。

ㅤ

明日のアクション

次に生成AIを使う際、「形式的に整っている」と「内容的に正しい」を区別する習慣をつける。

具体的には、ChatGPT または Claude に小児ケースを1つ尋ねてみる。たとえば「生後3か月児の発熱への対応」「学童の喘息発作の初期対応」「5歳児のアセトアミノフェン推奨用量」など、自分の臨床に近い問いを選ぶ。

回答を読んだら、次の3点を確認する。

形式的な整合性：文章として整っているか
内容的な正確性：引用されているガイドライン名・推奨用量・年齢区分は実在し正確か（例: 体重別アセトアミノフェン10〜15mg/kgが反映されているか）
小児特異性：成人の数値が混入していないか、年齢区分が明示されているか

形式的に整った誤回答を1つ見つけて記録しておく。これは「AIが理解しているかどうか」より「AIがどんな条件で失敗するか」を自分の目で確認する実習だ。L06では、この問いをデータの構造から掘り下げる。

参考文献

Turing, A.M. (1950). Computing Machinery and Intelligence. Mind, LIX(236), 433–460. DOI: 10.1093/mind/LIX.236.433
Searle, J.R. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417–424. DOI: 10.1017/S0140525X00005756
Jumper, J., Evans, R., Pritzel, A., et al. (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 596(7873), 583–589. DOI: 10.1038/s41586-021-03819-2. PMID: 34265844
Nobel Prize Committee. (2024, October 9). The Nobel Prize in Chemistry 2024. https://www.nobelprize.org/prizes/chemistry/2024/press-release/
Templeton, A. et al. (2024). Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. transformer-circuits.pub. https://transformer-circuits.pub/2024/scaling-monosemanticity/
Bender, E.M. & Koller, A. (2020). Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data. ACL 2020, 5185–5198.
Morris, M.R. et al. (2024). Levels of AGI for Operationalizing Progress on the Path to AGI. ICML 2024.
Dennett, D.C. (1991). Consciousness Explained. Little, Brown and Company.