2026年AI論争：6人の視点で読む現在地

2026年のAI論争を象徴するヘッダー画像。中央にラウンドテーブル、その周囲に6人のシルエット（Altman・Amodei・LeCun・Marcus・Goldman Sachsアナリスト・IMFエコノミスト）が議論している様子。各シルエットの上に名前ラベル — 同じAIを、6人がそれぞれ違う立場から語る。『誰が正しいか』より『誰が何の立場から何を言っているか』を読む習慣

2025年8月、Sam AltmanがCNBCのインタビューでこう述べた。「2028年までに、知的能力の多くがデータセンターの中に宿るようになる」。

その発言を読んだとき、私が最初に考えたのは「本当か」ではなかった。「この人は誰で、何の立場から言っているのか」だった。

AI関連の発言には、技術的な中身と同時に、発言者の立場・利害関係・文脈が必ずついてくる。それを剥がして中身だけを受け取ると、「AIがすべてを解決する」説と「AIは大したことない」説の間で迷子になる。

このレッスンは、論争の「正解」を提供しない。論争の「構造」を渡すことが目的だ。L08で扱った社会的影響と倫理の問いは、ここで「誰が何を言っているか」という論争として噴出している。

1. なぜ「論争」を学ぶか

AIの論争を追っていると、奇妙なことに気づく。同じ事実を見て、まったく逆の結論を出す専門家が共存している。

「LLMはAGIへの道ではない」と主張する人がいる一方で、「AGIはもはや近い」と言う人がいる。「AIは雇用を奪う」と言う機関があれば、「ROIが証明されていない」と言う投資銀行もある。

これは「どちらかが間違っている」のではなく、「違うものを見ている」場合が多い。異なる時間軸、異なる産業、異なる指標を見ているから、結論が食い違う。そしてここに、発言者の立場と利害関係が加わる。

論争を読む第一歩は、「誰がその発言をしているか」を問うことだ。

問い

論争を聞くときの3つの問い

AI関連の発言に接したとき、次の3点を問う習慣を持つ。

この人は誰か：肩書き・所属・役割は何か
この人の利害関係は何か：この発言が正しいと思われることで、誰が得をするか
これは事実か予測か：現在観察可能な事実なのか、それとも将来の予測なのか

この3点を整理すると、「権威ある発言」の見え方が変わる。

AGIの複数定義を並べた4カラム概念図。各カラムに定義者と短い説明。Column 1: OpenAI『経済的に価値あるタスクで人間以上』、Column 2: Anthropic『新規問題を扱える汎用知性』、Column 3: Marcus『人間と同等の柔軟な学習』、Column 4: 学術界『コンセンサスなし』 — 同じ『AGI』という言葉でも、定義は人ごとに違う。コンセンサスがないことが、論争の前提条件

2. AGI定義の問題：コンセンサスなき論争

まず前提として押さえておきたいのは、AGI（Artificial General Intelligence）の定義に、2026年4月時点で学術的コンセンサスが存在しない、という事実だ。

AGIとは何か。少なくとも4通りの定義が流通している。

タスク汎用性：人間が行える知的タスクの大部分をこなせるAI
経済的価値：人間と同等以上の経済的価値を生み出す知的労働を行えるAI（Altman的定義）
自律的エージェント：人間の監督なしに自律的に行動し目標を追求できるAI
意識・理解の保有：主観的経験や真の理解を持つAI（サール的問い）

「AGIは実現したか」という問いへの答えが人によって異なるのは、前提にしている定義が異なるからだ。L01で見たチューリングとサールの論争が、ここで「AGIとは何か」という問いとして再登場している。

視点

二項問題を検証可能な問いに変換する

「AGIは実現した／していない」という二項問題は、定義が定まらない限り答えられない。

より検証可能な問いに変換するとこうなる。「どの能力が、どのベンチマークで、どの水準を達成したか」。そしてその達成が、どのような自律性の条件下で行われたか。

定義の違いを先に確認することで、論争の多くが「用語の食い違い」に過ぎないと分かる場合がある。

（2026年4月時点）

Morris et al. 2024 のAGIレベル分類図。5段の階段（Level 0-5）が水平に配置されている。各段に名称と例: L0『No AI』、L1『Emerging』(GPT-3.5)、L2『Competent』(GPT-4)、L3『Expert』(専門家相当)、L4『Virtuoso』(top 1%)、L5『Superhuman』(全人間超)。各段に到達状況の注記 — AGIを単一の到達点ではなく、5段階の連続体として捉える。『どこまで来た』を測れるようにする道具

3. Morris et al. 2024：AGIレベル分類という道具

AGI論争に対して、最も実用的な回答の一つを提示したのが、Google DeepMindの研究チームによる Morris et al.（2024, ICML）の論文だ。

この研究は「AGIかどうか」という二項問題を棄却し、「能力」と「自律性」の2軸でAGIを段階的に分類するフレームワークを提案した。

能力軸（6段階）：

Level 0：AI以前（従来のソフトウェア）
Level 1 Emerging：タスクの一部で人間の非熟練者水準
Level 2 Competent：少なくとも50%の人間の熟練者水準
Level 3 Expert：少なくとも90%の人間の熟練者水準
Level 4 Virtuoso：少なくとも99%の人間の熟練者水準
Level 5 Superhuman：すべての人間を超える水準

自律性軸（5段階）：

Level 0：完全人間制御
Level 1：人間が最終決定するが、AIが提案
Level 2：人間が監督するが、AIが行動
Level 3：人間が確認するのは異常時のみ
Level 4：ほぼ完全自律

このフレームに照らすと、2026年時点の主要LLM（GPT-4o、Claude 3.7、Gemini 2.0）は、「能力: Level 1〜2（タスク依存）、自律性: Level 1〜2」に位置づけられる。論文はこれを「Level 1: Emerging AGI」と呼んだ。

重要なのは、「AGIはまだ実現していない」という断言とは意味が異なる点だ。「一部のタスクで人間の非熟練者水準に達しており、さらなる進展が段階的に観察可能」という記述は、「未実現」より情報量が多い。

SourceJOURNAL / PAPER

Levels of AGI for Operationalizing Progress on the Path to AGI

Google DeepMind研究チームによるAGIレベル分類フレームワーク。能力×自律性の2軸6段階で、二項問題を検証可能な問いに変換。

論文ICML 2024 / arXiv:2311.02462Morris MR, Sohl-Dickstein J, Fiedel N, et al.

arxiv.org/abs/2311.02462

6人の論者をマトリクスで配置した概念図。横軸『楽観⇔懐疑』、縦軸『業界・学術・経済』。6人のシルエットと名前: Altman(楽観・業界)、Amodei(中間・業界)、LeCun(中間・学術)、Marcus(懐疑・学術)、Goldman Sachs(懐疑・経済)、IMF(中間・経済) — 6人を立場と発言で配置すると、論争の構造が見えてくる。誰がどこから語っているかは、何を言っているかと同じくらい重要

4. 6人の立場と利害関係

ここからが本章の核心だ。同じ「AI」という現象を見て、どう評価が割れるのかを、6人の立場から並べる。

重要な前提として、全員の発言に利害関係が存在する。「利害関係があるから嘘をついている」ということではなく、「立場が見え方を形成する」ということだ。

Sam Altman（OpenAI CEO）

「2028年までに知的能力の多くがデータセンターの中に宿るようになる」（CNBC, 2025年8月）。また「AGIはもはや有用な言葉ではなくなった」とも発言している。

利害関係の注記: OpenAI CEOとしての発言であり、OpenAIへの投資誘致・製品需要喚起と利害が一致する。楽観的な見通しを示すことで投資家・企業顧客を引き寄せる動機が構造的に存在する。

Dario Amodei（Anthropic CEO）

著書「Machines of Loving Grace」（2024年10月）で「データセンターの中の天才の国」という表現を用い、強力なAIが医療・科学・経済に変革をもたらすと論じた。Constitutional AI（arXiv:2212.08073）に代表される安全性研究を軸に、「能力と安全性の両立」を一貫して主張する。

利害関係の注記: Anthropic CEOとしての発言であり、「AI安全性のリーダー企業」というブランドポジションが競合優位につながっている。安全性を訴求することがOpenAI・Google DeepMindとの差別化戦略と構造的に一致する。Altmanへの注記と対称的に、Amodeiへも同じ批判的フレームを当てる必要がある。

Yann LeCun（AMI Labs Executive Chairman）

「LLMはAGIへの道ではない。世界モデルなしに真の知能は不可能だ」が一貫した主張だ。彼が提唱するJEPA（Joint Embedding Predictive Architecture）は、テキストではなく物理世界のダイナミクスを学習するアーキテクチャで、LLMとは根本的に異なる設計思想だ。2025年11月にMetaを退社し、2026年3月にAMI Labsが正式ローンチされた。LeCunはexecutive chairmanを務める。

利害関係の注記: 自身が長年主張してきた「LLMではなく世界モデル」という研究路線の正当化と、AMI Labsへの注目・投資誘致に利害がある。

Gary Marcus（AI批評家）

現行LLMの論理推論・常識推論の構造的限界を長年指摘してきた。Bender et al.（2021, FAccT, DOI:10.1145/3442188.3445922）が提唱した「確率的オウム（Stochastic Parrots）」のフレームと親和性が高い。統計的パターンの操作はあっても意味の理解はない、という立場を強く支持している。

利害関係の注記: AI批評家・著作者・講演者としての立場から、「AIの過大評価への反論」に注目と需要がある。LLMの限界を指摘することで著作・講演の価値が維持される構造的利益がある。

Goldman Sachs（2024年）

2024年6月のレポート「Gen AI: Too much spend, too little benefit?」で、「GenAIへの投資規模に対してROIが証明されていない」という分析を示した。

立場の注記: 投資銀行としての市場分析であり、自社金融商品・運用サービスへの影響が利害関係として存在する。分析の独立性は評価できるが、完全な中立とは言えない。

IMF（2024年）

「Future of Work」報告書で、先進国の約60%の職業がAIの影響を受け、そのうち約半数は業務内容の悪化または代替につながりうると推計した。

立場の注記: 国際機関としての政策勧告であり、加盟国政府の政策立案への影響力行使が主な動機だ。「影響60%」という数字は、社会安全網・再訓練プログラムへの政策投資を促すフレーミングとして機能している。

比較

6人の立場対比：何を見て、何を言っているか

産業内楽観派：Altman（OpenAI CEO）、Amodei（Anthropic CEO）

共通：AIの能力向上は急速、社会的インパクトは大きい
違い：Altmanは「経済的価値」、Amodeiは「能力と安全性の両立」
利害：自社製品の需要喚起・投資誘致

研究者懐疑派：LeCun、Marcus

共通：現行LLMはAGIへの道ではない
違い：LeCunは「世界モデル必要」、Marcusは「論理・常識の根本欠如」
利害：自身の研究路線・著作・講演の価値

外部観察派：Goldman Sachs、IMF

Goldman Sachs：投資視点で「ROI不明確」
IMF：政策視点で「労働市場への影響60%」
利害：投資銀行のポジション、国際機関の政策影響力

読み解き方として、同じ「AI」を見ていても、見ている軸（性能/安全性/経済/政策）と立場（事業者/研究者/投資家/政策立案者）が異なる。論争は「正誤の問題」ではなく「どの軸から何を見ているかの相違」が大きい。

SourceJOURNAL / PAPER

On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?

LLMを「確率的オウム」と特徴づけた論争的論文。Marcusら懐疑派の理論的支柱。DOI:10.1145/3442188.3445922

論文FAccT 2021Bender EM, Gebru T, McMillan-Major A, Shmitchell S

dl.acm.org/doi/10.1145/3442188.3445922

SourceARTICLE

The Future of Work in the Age of AI

先進国の約60%の職業がAIの影響を受け、約半数は業務内容悪化または代替リスクと推計。労働市場への政策的影響評価。

WebIMF Finance & DevelopmentInternational Monetary Fund

imf.org/en/Publications/fandd/issues/2024/01/the-future-of-work

2026年版のスケーリング論争を示すグラフ。横軸『計算資源』、縦軸『性能』。1本目（楽観派）は『指数的に伸び続ける』曲線を予測、2本目（懐疑派）は『2025年で頭打ち』の予測。曲線が分岐する部分にハイライト。脇に『2026年4月時点・どちらが正しいかは未確定』の注記 — 『スケーリングはどこまで効くか』の論争は、2026年に入っても継続中。両派の予測が分岐するのが2025-2030年

5. スケーリング論争の2026年版

「モデルを大きくしてデータを増やせば性能が上がる」というスケーリング仮説は、2020〜2022年に支配的なパラダイムだった。その後、何が起きたか。

Kaplan et al.（2020, arXiv:2001.08361）はモデルサイズ・データ量・計算量の3要素が冪乗則に従うスケーリング則を示した。Hoffmann et al.（2022, arXiv:2203.15556、通称Chinchilla）はこれを修正し、「モデルサイズとデータ量の比率に最適点がある」ことを示した。

Test-Time Compute（推論時計算）の登場が2024〜2025年の論争を塗り替えた。o1（2024年9月）とo3（2025年4月）は、「学習時のスケール」でなく「推論時のスケール」で性能を高めるアーキテクチャを採用した。

ARC-AGIベンチマークでの攻防もある。Chollet（2019, arXiv:1911.01547）が設計したARC-AGIは「パターン学習ではなく推論能力を測る」という設計思想のベンチマークだ。o1が75.7%、o3が87.5%を達成した（2025年時点）。しかしARC-AGI-2ではo3のスコアが3%未満だった（Chollet, 2025年）。

この落差は「スケールと推論時計算の改善で達成できたのは、ARC-AGI初代のパターンへの適応であって、新しい抽象化問題への汎用推論ではなかった可能性」を示唆する。「スケーリングで全てが解決する」という主張への強い反証として機能する。

Anthropicの解釈可能性研究（Templeton et al. 2024）はスケーリング論争とは別の軸で重要だ。「LLMの内部に概念表現がある」という実証的な部分回答は、Marcusらの「確率的オウム」批判への応答の一つになりうる。ただし「概念表現がある」ことと「意味を理解している」ことが同じかどうかは依然として未解決だ。

視点

スケーリング論争：2026年4月時点の到達点

スケーリング仮説の「強い形」（モデルとデータを増やせば全てが解決する）は、ARC-AGI-2でo3が3%未満に失敗した事実によって反証されている。

しかし「弱い形」（特定タスクではスケールが性能を引き上げる）は維持されている。GPT-4からGPT-5への進展、Chinchilla法則の有効性は、スケールが無意味になったわけではないことを示す。

論争の現在地は「スケールは必要条件だが十分条件ではない」というジンテーゼに収束しつつある。Test-Time Compute、ニューロシンボリック統合、世界モデル、解釈可能性研究が、それぞれ「スケール以外に何が必要か」を提案している。

（2026年4月時点）

SourceJOURNAL / PAPER

Scaling Laws for Neural Language Models

モデルサイズ・データ量・計算量の3要素が冪乗則に従うスケーリング則を提唱。OpenAI研究チーム。

論文arXiv:2001.08361（査読前プレプリント）Kaplan J, McCandlish S, Henighan T, et al.

arxiv.org/abs/2001.08361

SourceJOURNAL / PAPER

Training Compute-Optimal Large Language Models (Chinchilla)

Kaplan則を修正、「モデルサイズとデータ量の比率に最適点」を示した。Chinchilla 70Bが Gopher 280B・GPT-3 175Bを上回る。

論文NeurIPS 2022 / arXiv:2203.15556Hoffmann J, Borgeaud S, Mensch A, et al.

arxiv.org/abs/2203.15556

SourceJOURNAL / PAPER

On the Measure of Intelligence

ARC-AGIベンチマークの理論的基盤。知能を「スキル習得効率」と定義。2025年にARC-AGI-2でo3が3%未満に失敗、スケーリング限界を示した。

論文arXiv:1911.01547（査読前プレプリント）Chollet F

arxiv.org/abs/1911.01547

SourceARTICLE

Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet

Claude 3 Sonnetから3400万の解釈可能特徴量を抽出。LLMの内部概念表現の存在を実証的に示した。

WebAnthropic / transformer-circuits.pubTempleton A, et al.

transformer-circuits.pub/2024/scaling-monosemanticity

医療職にとっての『論争の読み方』フローチャート。中央に問い『この発言を信じるべきか？』、そこから3つの分岐: 1.『誰が、どの立場から』、2.『何の証拠で』、3.『何の利害があるか』。それぞれの分岐先に短い実例。下部に『3問チェックで判断する』の太字 — 論争の中で迷子にならないために。3問チェックで自分の判断を作る方法

6. 臨床的帰結：設計の問いへ

「AGIは医師を代替するか」という問いを設計の問いに変換しよう。

まず定義の問いがある。「医師を代替する」とは何か。外来での診断・処方行為か、共感的なコミュニケーションか、緊急時の身体的介入か、倫理的・法的責任の引き受けか。タスクによって答えが全く変わる。

次に誰が言っているかを問う。「医師代替」を語る人がAI企業のCEOなら需要喚起の動機がある。「代替されない」と語る医師会なら職業保護の動機がある。どちらの発言も立場から自由ではない。

小児科の外来での観察を加えると、「医師代替」の議論は「代替可能な医療行為の集合」を念頭に置いているが、子どもの診療では親子関係の動態・発達段階の評価・非言語コミュニケーションが診断に大きく影響する。成人中心の評価データで訓練されたAIが「小児科医を代替できる」という主張には、追加の根拠が必要だ。

有用な設計の問いはこうなる。「どのタスクを、どの患者集団において、いつの時点でAIに委ねることができるか。そして医師は何に集中するべきか」。

Case Study/ 国際

ARC-AGI-2 でo3が失敗した事実：「スケーリングで全てが解決する」への反証

ARC-AGIはFrançois Cholletが2019年に設計したベンチマークで、「パターン学習ではなく抽象的推論」を測ることを目的としていた。OpenAI o1が2024年に75.7%、o3が2025年に87.5%を達成し、「人間レベル参照スコア85%」を超えたとして話題になった。

ARC-AGI-2の登場として、Cholletは2025年、より難度の高いARC-AGI-2を発表した。o3のスコアは3%未満にとどまった。この落差は、「o3がARC-AGI初代を解けたのは抽象推論の獲得ではなく、ベンチマーク特有のパターンへの適応だった可能性」を示唆する。

論争の意味としては、スケーリング仮説の「強い形」（モデルとデータを増やせば汎用推論が達成される）への強い反証となった。同時に、特定タスクでは依然としてスケールが性能を引き上げる事実は変わらない。

哲学的立場として、Cholletの主張「知能はスキル習得効率である」は、L01で扱ったチューリングテスト批判と地続きだ。「ベンチマークで高得点を取る」ことと「知能がある」ことは別の問いだという視点が、ベンチマーク設計の最前線にある。

2026年4月時点で、ARC-AGI-2への対応は主要LLMのいずれも初代ARC-AGIに比して大幅に低い。「スケールは必要条件だが十分条件ではない」というジンテーゼが、論争の現在地を最もよく表す。

視点

L10への接続：設計の問いを臨床に持ち帰る

論争の構造を理解したうえで、自分の臨床現場に持ち帰るとき、問いはこうなる。

どのタスクをAIに委ね、どのタスクは医師が担うか
その境界線は、患者集団・施設・時間帯・専門領域によってどう変わるか
AIの「精度」を評価する基準は、誰の利益のために設計されたか

L10ではこれらの問いを、現場での具体的な実装に落とし込む。論争を理解することと、論争の中で自分の判断軸を持つことは別の動作だ。

SourceJOURNAL / PAPER

A Roadmap to Pluralistic Alignment

多元的アライメント（Pluralistic Alignment）の3類型を提案。文化適応とユニバーサル基準の両立への学術的アプローチ。

論文ICML 2024 / arXiv:2402.05070（査読前プレプリント）Sorensen T, Jiang L, Hwang J, et al.

arxiv.org/abs/2402.05070

SourceJOURNAL / PAPER

Constitutional AI: Harmlessness from AI Feedback

AIフィードバックによる無害化（RLAIF）を提唱。Anthropicの「能力と安全性の両立」戦略の理論的基盤。

論文Anthropic / arXiv:2212.08073Bai Y, Kadavath S, Kundu S, et al.

arxiv.org/abs/2212.08073

ここまでの整理：わかっていることとわかっていないこと

わかっていること：

AGIの定義に学術的コンセンサスは存在しない（2026年4月時点）
Morris et al. 2024のフレームでは、現在のLLMは「Level 1: Emerging AGI」
ARC-AGI初代でo1が75.7%、o3が87.5%を達成
ARC-AGI-2でo3のスコアは3%未満
スケーリングは性能改善に有効だが、単独で汎用推論に到達するかは未確認
全6人の発言に構造的利害関係が存在する
「タスク代替」と「職業代替」は別の問い（L08のHinton予言修正）
Anthropic Monosemanticity研究はLLM内部に概念表現があることを実証的に示した

わかっていないこと：

AGIが実現するかどうか（定義が定まらない限り答えられない）
スケーリングの延長線上でAGIに到達できるかどうか
Test-Time Computeが「真の推論」か高精度なパターン照合かどうか
「医師代替」が何を意味し、どの時間軸で起きるか
LLMの概念表現が「意味の理解」と同じかどうか（L01のハードプロブレムの延長）

論争は終わっていない。「誰が言っているか」「利害関係は何か」「事実か予測か」を問う道具が手元にあれば、これから蓄積される事実を適切に読み取ることができる。

ㅤ

今日のまとめ

3行で振り返ります。

AGIにコンセンサスはない。OpenAI、Anthropic、Marcus、学術界それぞれが別の定義で語っている。論争の前提がそもそも揃っていない
6人の発言は『立場』とセットで読む。Altman・Amodei（業界）、LeCun・Marcus（学術）、Goldman Sachs・IMF（経済）。同じAIを違う動機で語る
論争の中で迷わないための3問: 誰が、どの立場で、何の証拠で。この3問を毎回かけることが、フェアな判断を作る最低限のフィルター

ㅤ

次のレッスンへ

L10「次のステップ：医療職としてのロードマップ」では、ここまで10レッスンで学んだことを実務に橋渡しする。明日から何を変えるか、3か月で何を身につけるか、1年でどこに立つか。

ㅤ

明日のアクション

AI関連のニュース記事を1本選び、§1で示した3つの問いを使って分析する。

Step 1：記事を1本選ぶ。直近1週間のAIニュース（医療AI関連が望ましい）から1本選ぶ。新聞・専門誌・ブログ問わず。

Step 2：3つの問いを適用する。

誰が発言しているか
- 発言者の肩書き・所属・役割を書き出す
- 「研究者」「CEO」「政府関係者」など、立場のラベルを明示する
利害関係は何か
- その発言が広く受け入れられた場合、誰が得をするか
- 自社製品の需要、研究予算、政策影響力、講演料、株価のいずれか
事実か予測か
- 記事中の主要な命題を抜き出し、それぞれが「現在観察可能な事実」か「将来の予測」かを区別する
- 予測の場合、どの時間軸での予測かを確認する

Step 3：振り返る。3つの問いを通すことで、最初に読んだときと印象が変わったか。変わったとすれば何が変わったか、1〜2文で書き出す。

この実習を繰り返すと、AI関連のニュースを「驚き」や「不安」で受け取る前に、構造を読み解く習慣が身につく。

参考文献

Morris, M.R., Sohl-Dickstein, J., Fiedel, N., et al. (2024). Levels of AGI for Operationalizing Progress on the Path to AGI. ICML 2024. arXiv:2311.02462
Bender, E.M., Gebru, T., McMillan-Major, A., Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? FAccT 2021. DOI: 10.1145/3442188.3445922
Sorensen, T., Jiang, L., Hwang, J., et al. (2024). A Roadmap to Pluralistic Alignment. ICML 2024. arXiv:2402.05070（査読前プレプリント）
Templeton, A., et al. (2024). Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. transformer-circuits.pub. https://transformer-circuits.pub/2024/scaling-monosemanticity/
IMF. (2024). The Future of Work in the Age of AI. Finance & Development. https://www.imf.org/en/Publications/fandd/issues/2024/01/the-future-of-work
Kaplan, J., McCandlish, S., Henighan, T., et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361（査読前プレプリント）
Hoffmann, J., Borgeaud, S., Mensch, A., et al. (2022). Training Compute-Optimal Large Language Models. NeurIPS 2022. arXiv:2203.15556
Chollet, F. (2019). On the Measure of Intelligence. arXiv:1911.01547（査読前プレプリント）
Bai, Y., Kadavath, S., Kundu, S., et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073
Amodei, D. (2024). Machines of Loving Grace. https://darioamodei.com/machines-of-loving-grace