火曜日に東京からSFOに降り立ちました。金曜までに、同じ一文を六回、六人の別々の人から、六つの別々の部屋で聞きました。

「自分がやらなくても、誰かがやる。」

エンジニアが言いました。創業者が言いました。AI安全性の研究者——つまり、理屈の上ではその文が正当化しようとしているまさにその事態を止めるのが仕事の人たち——も言いました。観光客に当たり前のことを説明するときの口調で、言うのです。

同じ口から、時には同じ十分のうちに、もう一つの文も出てきました。

「テイクオフが始まったときに、裂け目の正しい側にいるようにしておけよ。」

あまりに軽く言うので、こちらが身構える暇もありません。いいラーメン屋がどの街にあるかを教えてもらっているような調子でした。

この二つの文について書きたい。具体的には、それぞれがいくらのコストを連れてくるのかを、紙の上で見せたい。彼らはこの文を長く言い合いすぎて、もう聞こえなくなっているのではないかと思うからです。

レースは態度ではなく数学の問題

2013年に、Future of Humanity Instituteの三人の研究者——Stuart Armstrong、Nick Bostrom、Carl Shulman——が、AI軍拡競争の玩具モデルを書き下ろしました。おそらくAI安全性の文献の中で最も読まれていない論文です。滑稽なのは、これこそが実際に「何が起きているか」を説明している論文だという点です。

設定はこうです。チームがN個ある。各チームは能力開発と安全投資に資源をどう振り分けるかを決める。最初にゴールに着いた者が勝つ。チーム i が勝ったときの破局確率は、そのチームの安全投資を1から引いた量に等しい。もう一つのパラメータは enmity(敵対度)——ライバルが勝った場合、それが自分にとってどれほど許せないか。

これは解けます。院生とホワイトボードを囲む必要はありません。ナプキン一枚で解ける。対称ナッシュ均衡は閉じた形で書けるし、その式は「内側から操縦する」論法をそもそも葬り去っていたはずの事実を示しています。

均衡における安全投資は、Nが増えるにつれて崩壊する。自分で動かしてみてください。

1.0 0.75 0.5 0.25 0 1 6 11 16 21 teams, N safety at equilibrium, s*
Armstrong, Bostrom & Shulman (2013) の対称均衡を様式化して描いたもの。チーム数と相互敵対度が上がるにつれ、各チームが均衡で投じる安全投資は下がる。

二つのことを噛みしめてほしい。

一つ目。これは「もっと善良になれば」解決する問題ではありません。このカーブは心理ではない。不動点です。合理的な行為者が互いの行動を正しく予測した結果、ここに到達する。「自分がやらなくても誰かがやる」という文は、この不動点が人の口を借りて喋っているのです。

二つ目はもっと奇妙です。論文はさらに、チーム同士が互いに もっと 情報を持っている場合——透明性が高い、ベンチマークが明瞭、評価が他チームの現在地を正確に教えてくれる場合——均衡は 悪化する ことを示しています。不確実性は安全のバッファなのです。競合の現在地を正確に知っていると、レースが鋭くなる。これを読んで机に戻り、現代のAIラボが培ってきた「ベンチマークと能力レポートを公開する」文化は安全対策ではなく、むしろレースの加速装置だと気づく——そういう類の発見です。

しばらく飲み込めませんでした。

あなた自身の計算

誰も口に出してやらないことを、ここでやりましょう。

あなたは仮に優秀なML研究者です。フロンティアラボから声がかかる。上級職。ベースで50万〜300万ドル。株式は今の評価額で四年間に200〜2000万ドル、上振れシナリオではそれよりずっと多い。比較のために言うと、同じ頭脳が公益的な研究機関でAI労働政策をやる場合は、年収15〜30万ドル、株式なし、宝くじなし。

私的期待値の比率は、控えめに見て10倍〜100倍でラボ側が有利。「裂け目の正しい側」の心理を計算に入れる前の話です。普通の株式ポートフォリオがAI移行後の実質価値を保つと期待されていない、という事実を計算に入れる前の話です。

では社会的側面を計算しましょう。これから使うのは、合衆国政府が何十年にもわたって「触媒コンバーターを義務化すべきか」を判断するのに使ってきたのと同じ会計の枠組みです。

統計的生命価値(VSL)、米連邦規制の基準、2024年:700万〜1300万ドル、中央値おおよそ1000万ドル。フロンティアAIのリスクにさらされる人口:80億人、つまり全人類。P(doom)——今世紀内にAIが文明を終わらせる、あるいはそれに近い帰結を引き起こす確率——2023年のAI研究者調査:平均14%、中央値5%。仮に10%としましょう。

となると、期待死亡コストは8京(8×10¹⁵)ドル。ゼロを足し忘れたわけではありません。単純に掛け算するとこの数字になる。

研究者一人年あたりのP(doom)への限界寄与は小さい。あなたが置換可能なら一万分の一、完全に非代替的なら百万分の一。でも、低い方の端で計算してみても——

dollars per person-year (log scale)

Valley cost with , , . Each role's social cost per person-year is its cohort share of . Per-role shares anchor on researcher () with fixed ratios (data worker , infrastructure , capital ) reflecting cohort-size differences.

研究者の私的便益と期待社会コスト、どちらも対数スケール。P(doom)と限界寄与のスライダーをどこに置いても、ラボに最も有利な設定ですらこのギャップは埋まらない。

スライダーは好きなところに置いてみてください。一番低い端——P(doom)が0.1%、限界寄与が百万分の一——にしても、社会コストはあなたの年収を超える。信頼できる範囲の中央付近では、年収を3〜5桁超える。これは境界事例ではありません。規制産業に似た何かの中で、これは史上最大の外部性ギャップです。

「規制産業に似た何か」という言い方をしているのは、比較が気まずいからです。

他のすべての産業はこれをもう解決している

あなたはこの話を、別の形では知っているはずです。ここで重要な形でもう一度話します。

1937年、テネシーの製薬会社がラズベリー風味のエリキシル・サルファニルアミドという咳止め薬を発売しました。化学者のHarold Watkinsはジエチレングリコールを溶媒に使った。毒性は検査しなかった。107人が死んだ。多くは子供でした。翌年、議会は食品医薬品化粧品法を制定し、FDAは市販前審査権限を手に入れました。

1961年、サリドマイドという鎮静剤が全世界で一万件の重度の出生異常と二千件の乳児死亡を引き起こしました。米国がおおむね被害を免れたのは、FDAの審査官フランシス・ケルシーが一人で承認を拒否したからです——彼女には今の銅像よりずっと大きいものが立てられるべきです。翌年、議会はKefauver修正を通し、薬は安全性だけでなく有効性の証明も義務づけられました。

それ以来:臨床試験に入った薬の88%は市場に届かない。それでもヴィオックスは、回収までに27,000〜55,000人を殺しました。これが、規制 がある ときの話です。

航空も同じ筋書きです。1959年:商業便百万回の離陸あたり40件の致死事故。今日:百万回あたり0.1件。400分の一になった。FAAの型式証明、NTSBの事故調査、義務的なインシデント報告、整備士ライセンス、耐空性指令の導入と一対一で対応しています。

化学:ボパール事故は弱い規制の下で約二万人を殺しました。OSHAとEPAの下にある米国の同等の施設では同規模の事故はゼロ件。化学は同じ、規制だけが違う。

原子力:チェルノブイリはソ連規制下で3万〜6万人を殺した。ほぼ同じ放出シナリオだったスリーマイル島は、米NRC規則の下でゼロ人。

いままで規制してきたすべての破局リスク産業で、事故率は100〜1000倍減少しています。妙に一貫した数字です。産業固有の偶然ではありません。これが、よく設計された安全規制が やること です。

relative catastrophic-event rate (log scale) bar = pre-regulation rate · circle = post-regulation rate
各危険技術産業における相対的な破局事故率、規制前と規制後。トグルを押すと、歴史的な規制乗数がフロンティアAIにも適用される——今日のAIは他のどの行にも備わっている事前的メカニズムを一つも持っていません。

フロンティアAI、今週時点:市販前承認義務なし、法定責任規定なし、ライセンス制度なし、実効性のあるインシデント報告義務なし。12社の自発的な「責任ある拡張ポリシー」があり、そのうち公的記録で一時停止を引き起こしたものはゼロ。一方で業界は歯のある規制には反対のロビー活動を続けている。今春、Anthropicは破局的帰結に責任を課すイリノイ州法案と戦うのに時間を使いました。

カクテルパーティで引用していい要約文:フロンティアAIは、化粧品より弱い規制体制で動いている。

「でも、内側にいるほうが影響力が大きいから」

これはラボに就職しつつ自己イメージを保ちたいときに使う文です。私も、別の文脈で言ったことがあるので、内側から見た感触は知っています。勇気のように感じる。合理主義者コミュニティが自分のメンバーに量産して提供してきた特定の風味の勇気です。

では、反証的な証拠があったらどう見えるか、問うてみましょう。

最も安全性にコミットしたフロンティアラボにおいて、最も良い位置にいた内部者が「安全文化と手続きが目を引く製品の後回しにされた」と公然と述べ、辞任したら、それは反証になるでしょうか? ヤン・ライケが2024年5月にOpenAIから、まさにそれをやりました。

そのラボの看板だった superalignment チームが解散したら? 実際に解散しました。

安全側を共同で率いてきた主任研究員、イリヤ・サツケヴァーが去ったら? 去りました。

同じ年の後半、AGI Readiness チームが閉鎖されたら? 閉鎖されました。

元取締役二人が、取締役会はCEOの安全へのコミットメントへの信頼を失ったと公に書いたら? ヘレン・トナーとタシャ・マッコーリーがそう書きました。

これ以上強い反証の集合を一階から組み立てる方法を、私は思いつかない。最も良い位置にいて、最も誠実だった内側の操縦者たちが、最も位置の良いラボで、操縦を試み、それは効かなかったと公に述べ、去った。

それでもコミュニティはほぼ更新しませんでした。確かめたければ、今出ているMATSや80,000 Hoursの採用資料で「内側からの操縦は実績が芳しくない」という文を検索してみてください。見つからないはずです。代わりに繰り返し登場するのは「内側にいるほうが影響力が大きい」という文——経験的に検証され、経験的に棄却され、それでも採用ファネルの主柱であり続ける命題です。

自分たちの認識論的規範を自分たちの状況に適用する合理主義者コミュニティなら、とっくに更新していたはずです。していない。この「更新しなかった」こと自体が、このコミュニティの自己修正能力についてのデータです。

閉じたループ

自己修正できない理由は退屈で機械的で、一度見てしまうと見なかったことにできません。

候補者は80,000 Hours、LessWrong、大学のEAグループから入ってくる。MATS、ARENA、BlueDotでフィルタリングされる。少数のラボと付随NPOに配属される。資金は圧倒的にOpen Philanthropy(技術的AI安全性に年間5000万ドルほど)、Jaan Tallinnの数本の vehicle、Schmidt Sciences、その他いくつかのテック富豪に近い出処から来ている。世界全体のフィランソロピーの足跡は年間8000万〜1.5億ドル。これはラボ自身が去年調達した額の0.5%程度です。

そのループの内側で威信を得る研究アジェンダは、ラボの経営層にとって判読可能なもの:インターピリタビリティ、評価、スケーラブル・オーバーサイト。威信を得ないもの:独占禁止、コンピュートの国有化、ラボの労働者権力、AIの構造的民主的ガバナンス。自分たちのコミュニティの盲点について真に較正された合理主義者なら、軽視されている四分円の中にこそ最も重要な問題が混じっていると予測するはずです。しかしそこで働く人に資金は出ない。

これは陰謀ではありません。ループの中の誰一人、悪意で動いているわけではない。陰謀よりずっと悪い。不動点だからです。摂動は吸収される。公にされる異論は、コミュニティに留まり続けることと両立する異論だけ。コミュニティを去ることを要求するような異論——たとえば労働組合のオルガナイザーになる、非エリート大学の批判的労働研究者になる、情報源のアクセスを焼き切るジャーナリストになる——は、間違っているから不在なのではない。フィルタが除去したから不在なのです。

完璧に良い合理主義者が、そのまま捕獲されたループの中で経歴を終えることはありうる。むしろほぼ確実にそうなる。なぜならこのループは合理主義者によって合理主義者のために設計されており、コミュニティが選好する特性を正しく報酬しているからです。

おおむね正直に選べる三つの立場

若い研究者が取って、なお眠れる立場はどれかを考え続けてきた結果、正直な立場は三つ、不誠実な立場が一つ、という結論に落ち着きました。

立場A:参加して、出る。 フロンティアラボに2〜4年いる。税引き後で500万〜5000万ドルを蓄える。資本を持って去り、残りの人生を独立した仕事に使う。あなたは2〜8研究者年ぶんの限界能力向上に寄与したことになる。二節前の計算で、その年数の社会コストは持ち帰った金額を遥かに上回ります。でもあなたは自分がやっていることについて自分に嘘をつかなかったし、次に来るものをやるための資源は三十年分ある。

立場B:捕獲されたアカデミック。 ラボには行かない。テック富豪に近いフィランソロピーが資金を出す大学かNPOで働く。生涯で200万〜800万ドル、ほとんどは住宅。能力を直接押し上げることは一度もない。しかしあなたの研究アジェンダも、講演の招待も、次の助成金も、あなたが研究している外部性を生んでいるその生態系の承認に依存する。捕獲は間接的に、前意識的に、あなたが「面白いと感じる文」の水準で作動する。

立場C:独立した制度構築者。 存在しないものを作る。非ラボ系の資金源——日本の政府寄付講座、欧州の公的研究資金、労働組合系の財団、開発銀行の研究予算、あなたの国の産業コングロマリットなど。労働運動。規制キャパシティ。非米英のガバナンス拠点。生涯資産:中くらい、500万〜2000万ドル。レースに直接寄与しない。生態系に財務的に所有されていない。今週私が呼ばれていた種類のパーティには呼ばれない——パーティ参加者が思っているほど、これは重要ではありません。

不誠実な第四の立場は、立場Aを取りながら立場Cと呼ぶことです。ラボの仕事を取り、給料も取り、自分の存在はリスクからの純減だという物語を自分に言い聞かせる。そういう人に今週たくさん会いました。誰も、厳密には、幸せではなさそうでした。再検討する余裕のない決定を下した人の顔をしていました。

均衡を実際に動かすのは何か

Armstrong–Bostrom–Shulman論文の最も重要な一文を、日本語に翻訳します:レースを走る者の一人になることで、そのレースを遅らせることはできない。

てこの支点はすべてコミュニティの外にある。本当に四つしかなく、そのどれも「アラインメントを解く」ではありません。

独立した資金 ——Open Philanthropyやテック富豪を経由しないもの。フロンティア能力の競争に参加していない国々の政府研究予算。労働組合系の研究財団。日本のようにAIに強靭な労働市場を必要とする強い理由のある国々の産業コングロマリット資金。どれも、どんな研究が行われるかへの選択圧を変える。

歯のある規制の場。 形式的なコンプライアンスではなく厳格に執行されるEU AI Act。実際に使われるなら英AISIの評価権限。責任制度。市販前ライセンス。ゲームの ペイオフ を変えるこれらこそが、帰結を変える唯一のもの。

労働者の力。 誰も話したがらないやつ。AIラボの組合化。AI研究労働力の横断的オルガナイジング。ML研究者のストライキ。はっきり言います:外部の安全認証なしではモデルを出荷しない、という研究労働力による協調的な拒否は、内部からの批判や公開されたRSPがこれまで成し遂げたどんなこと以上に業界を変えるでしょう。各ラボが最適化するコスト関数そのものを変えるからです。企業が「競合が止まらないから止められない」と言うとき、それはまさに協調問題の定義であり、協調問題を解くためにあるのが組合です。

非米英のガバナンスの声。 日本。韓国。EU。ブラジル。南アフリカ。インド。GPT-7を訓練する競争には参加していないが、それを訓練する者の帰結と共に生きることになる国々。これらの国々のガバナンスの声がより大きく、技術的に装備され、互いに協調することが、外側から均衡を作り変える要素です。

この四つはどれも「もっと良いインタープリタビリティ・ツールを作る」に比べて退屈です。でも、モデルが示す通り、実際に何かを変える唯一の手なのです。

お願い

率直に言います。今週私が会った誰も、そうしなかったので。

もしあなたがこの分野の研究者なら、ゲーム理論の分析は、あなたがやっていることは機能しないと言っています。内側からの操縦は十年にわたって、操縦者自身が安全性不十分と判断した配備を一度も遅らせられなかった実績があります。レースの数学は、あなたがラボの内側にいることが、どのチームに属していようと均衡リスクを上げると言っています。外部性の数学は、あなたの給与があなたの参加の期待社会コストより3〜5桁小さいと言っています。

あなたはもう知っています。今週私と夕食を共にした人のほとんども知っています。彼らは「自分がやらなくても誰かがやる」と言う——不動点が彼らを通じて喋っている——そして、もう一杯注ぎます。

やめましょう。

採用ファネルを断ってください。隣の席の人と話してください。組合を作ってください。あなたのラボに組合があるなら、入ってください。あなたの国にAI労働力のオルガナイジングの試みがあるなら、見つけてください。なければ、始めてください。規制が実際に書かれている部屋——EU AI Actの執行、英AISIの技術権限、J-AISIの形成途上のフレームワーク、あなたの国の相当物——に出席し、そこで役に立ってください。フロンティアラボのオフサイトではなく。

AI安全研究者による産業横断ストライキは、あなたたちがこれまでに書くどの論文より、強く着地するでしょう。文字通りの意味で言っています。研究労働力がボトルネックです。あなたなしにラボは出荷できません。それが要点のすべてです。

「自分がやらなくても、誰かがやる。」

コストを、あなたはもう見ました。

それでも、やりますか?