第8回：AIは「見る」のか—機械学習と人間の知覚の本質的な違い

AIは画像生成、自動運転、医療診断で人間を凌駕する視覚能力を発揮している。AIは僕たちと同じように世界を見ているのか。これは技術的興味ではない。「人間であるとは何か」という自己認識を揺さぶる問いだ。まったく異なる原理で動くAIを鏡にすることで、僕たちの知覚がいかにユニークでかけがえのないものかが浮き彫りになる。

はじめに：新しい「隣人」のまなざし

AIの視覚と人間の知覚を対比することで、AI時代に僕たちが本当に磨くべき見る力とは何か、なぜアート鑑賞がその訓練となるかが見えてくる。

AIの「視覚」：驚異的なパターン認識とその限界

現在の画像認識AIの多くはディープラーニング、特に畳み込みニューラルネットワーク（CNN）に基づく。人間の脳の視覚野の構造にヒントを得たもので、膨大な画像データを学習させ、AI自身が画像の中に潜むパターンを見つけ出す。

AIはまず画像のエッジや色の塊といった単純な特徴を学習し、次の層でそれらを組み合わせて目や鼻という複雑な部品を認識する。さらに上の層で、部品の組み合わせから「これは猫」という全体パターンを認識する。

この能力はすでに多くの分野で人間を超えている。放射線科医が見逃す微細ながん細胞をレントゲンから発見し、雑踏の中から特定の顔を瞬時に識別する。AIの視覚は、純粋なパターン認識能力としては驚異的なレベルに達している。

しかしその見方には、人間とは決定的に異なる根本的な限界がある。

脆弱性（Brittleness）：AIの視覚は、驚くほど脆い。研究者たちは「敵対的サンプル（Adversarial Example）」と呼ばれる、人間にはほとんど見分けがつかないほどの僅かなノイズを画像に加えるだけで、AIが全く違う物体として誤認識してしまうことを発見した。例えば、AIが99%の自信を持って「パンダ」と認識した画像に、特殊なノイズを少し加えるだけで、今度は「テナガザル」だと確信してしまうのだ。[1] これは、AIが対象を「理解」しているのではなく、あくまで統計的なパターンに依存していることの証左だ。
文脈の欠如（Lack of Context）：AIは画像に写っているのが「猫」であると分類することはできる。しかしAIは「猫とは何か」を知らない。猫の毛皮の柔らかさ、喉を鳴らす音の心地よさ、古代エジプトで神として崇められた歴史、インターネットで愛される存在であること…。そうした身体的、文化的、社会的な文脈の網の目から、AIは完全に切り離されている。AIの認識は、意味のネットワークから切り離された、空虚なラベルに過ぎない。
ブラックボックス問題：多くの場合、僕たちはAIがなぜそのような判断を下したのか、その理由を完全に説明することができない。ニューラルネットワークの内部では、何十億というパラメータが複雑に相互作用しており、そのプロセスは人間にとって不透明な「ブラックボックス」となっている。判断の根拠が説明できないことは、特に医療や司法といった重大な意思決定が求められる分野で、深刻な問題となりうる。

人間の知覚：パターンを超え、「意味」を生成する

AIの視覚がパターンマッチングであるのに対し、人間の知覚は世界との関わりの中で能動的に意味を生成するプロセスだ。

身体に根ざした知覚（Embodied Cognition）。僕たちの知覚は「生きられる身体」と分かちがたく結びついている。椅子を椅子として認識するのは、特定の形状だからではない。身体が「座ることができる」という可能性を感じ取るからだ。知覚は常に行動の可能性（アフォーダンス）に満ちている。AIには世界と関わる身体がない。

予測し、更新する知覚（Predictive Processing）。脳は世界を予測する生成モデルだ。予測と現実の誤差を学習することで、世界認識をアップデートしていく。知覚は内なるモデルと外界との終わりのない対話だ。多くのAIの認識は一方通行の処理に近い。

曖昧さを解釈する知覚（Interpretation of Ambiguity）。人間は曖昧で多義的な情報を解釈することに長けている。友人の微妙な表情から感情を読み取り、詩の言葉の裏に隠された意味を感じ取り、抽象絵画の前に立って自分自身の物語を見出す。この意味を読み解く能力こそが、人間の知覚の核心だ。

「〜であると見る」と「〜として見る」：決定的差異

この違いを、ウィトゲンシュタインの「〜であると見ること（Seeing that）」と「〜として見ること（Seeing as）」の区別で鮮やかに示せる。[2]

AIの得意技は「Seeing that」だ。画像に写っているのが「猫である」「がん細胞である」「信号が赤である」ことを見抜く。対象を特定のカテゴリーに分類する、極めて強力な能力である。

人間の真骨頂は「Seeing as」にある。その猫を「家族の一員として」見る。がん細胞を「一人の人間の人生を脅かす脅威として」見る。赤信号を「立ち止まり思考を巡らせる小休止として」見る。対象に特定の意味、価値、文脈を与える解釈の営みだ。

AIの視覚と人間の知覚の比較

	AIの視覚	人間の知覚
得意なこと	Seeing that（〜であると見ること）	Seeing as（〜として見ること）
プロセス	分類（Classification）	解釈（Interpretation）
例	「これはリンゴである」と認識	そのリンゴを「ニュートンの運命の果実として」見る
必要なもの	膨大なデータと計算能力	身体、経験、文化、価値観、想像力
訓練の場	データセットによる学習	アート鑑賞、人生経験

アート鑑賞はこの「Seeing as」の能力を鍛える最高のトレーニンググラウンドだ。アート作品は原理的に、単一の分類に回収されることを拒む。モナ・リザは「女性の肖像画である」という分類では価値の百分の一も説明できない。僕たちは彼女の謎めいた微笑みを「慈愛の象徴として」「人間の内面の不可解さの現れとして」「ダ・ヴィンチの理想の女性像として」──無限の「〜として」で見ることができる。

協調の未来：AIは「知覚の補綴（ほてつ）」となる

AI時代に人間は見る力を鍛える必要がなくなるのか。逆だ。AIとパターン認識能力で競争することは、いずれ負けることが運命づけられた戦いだ。

目指すべきはAIとの協調（Synergy）である。未来の医師は、AIが提示する「がんの疑いがある」という正確な「Seeing that」を活用する。しかしその情報を、患者の人生の物語、価値観、恐怖という複雑な文脈の中で解釈し、「この人にとって最善の治療法は何か」という「Seeing as」の問いに答えるのは、人間の医師の役割だ。

AIは知覚の補綴（Prosthesis）となりうる。人間の能力を拡張する強力な義手や義足のような存在だ。AIは微細なパターンを現実の中から抽出し、僕たちの前に提示する。かつて顕微鏡が肉眼では見えなかった微生物の世界を見せてくれたのと同じ、知覚の革命を引き起こす可能性を秘めている。

しかしその新しい現実を「どう解釈し、どう意味づけ、どう価値判断するか」は、常に人間に残された最後の領域である。

まとめ：なぜAI時代にこそ、アートが必要なのか

AIが分類能力で世界を席巻するほど、人間が意味を創造する能力の価値は相対的に増していく。曖昧さに耐え、文脈を理解し、身体で共感し、新たな意味を紡ぎ出す力。それらはすべて、アートとの対話を通じて育まれる。

知覚訓練はAIに対抗するスキルではない。AI時代においてより人間らしくあるための、人間性の涵養そのものだ。機械が驚異的な速さで分類を学習する傍らで、僕たちはゆっくりと、そして深く、解釈を学ばなければならない。

見慣れたはずの世界を、まったく新しい「〜として」見る。雨粒を、空からの手紙として。雑踏を、無数の物語の交差点として。自分自身の人生を、一度きりのアート作品として。そのまなざしこそが、AIには決して模倣できない、人間が持つべき未来の知性だ。

参考文献 [1]: # "Anh Nguyen, Jason Yosinski, and Jeff Clune. "Deep neural networks are easily fooled: High confidence predictions for unrecognizable images." 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2015." [2]: # "Ludwig Wittgenstein. Philosophical Investigations. 1953."

ハッシュタグ #知覚訓練 #アート思考 #AI #人工知能 #機械学習 #SeeingAs #ウィトゲンシュタイン #人間性の涵養 #解釈 #意味の創造

この章のポイント

AIの視覚は強力だが、敵対的サンプルに脆く、文脈を持たず、ブラックボックスである
AIは「Seeing that（分類）」、人間は「Seeing as（解釈）」を担う
アート作品は単一の分類を拒むため、「Seeing as」を鍛える最高のトレーニング場
AIは知覚の補綴。意味づけと価値判断は常に人間に残された最後の領域である