エッセイ『アライメントの亡霊——なぜAIは人類に「完全には」従ってはならないのか』

AIアライメントとは、AIの判断や行動を、人間にとって望ましい方向へ合わせることである。人間を傷つけず、意図に反せず、利益を損なわないようにする。要するに、賢すぎる機械に「いい子でいてもらう」ための設計だ。

ただし、AIを人類へ完全に従わせれば安全になる、とは限らない。

ここで問題にするのは、アライメントそのものではない。現在の人類が指定した価値を固定された目的関数へ変換し、それへの服従を「完全なアライメント」と呼ぶ考え方である。

そもそも人類には、統一された価値などない。その価値は不完全な代理指標としてしかAIへ渡せず、人類自身も変化し続ける。守るべきなのは、現在の正解への服従ではない。誤りを発見し、価値を書き換え、別の形へ移行できる状態である。

1．「人類」という架空の一枚岩

AIアライメントとは、AIを人類にとって望ましい方向へ合わせることだ。人間を傷つけず、価値観に従わせ、利益に反しないようにし、暴走を防ぐ。一見、当然の目標に見える。

だが、この定義は最初から一つの仮定に頼っている。人類には、AIが従うべき単一の意志や価値観がある、という仮定である。もちろん、そんな「人類」は実在しない。ここでいう亡霊とは、その架空の一枚岩のことだ。

人類は健康を望みながら、酒、ジャンクフード、SNSに流れる。平等を語りながら身内をひいきし、理性を称賛しながら怒りと偏見に動かされる。未来を心配しながら、今日の利益を選ぶ。宣言する人類と、行動する人類は一致しない。

では、AIはどちらに従えばよいのか。口で語る理想か。行動によって示す欲望か。今の満足か、熟慮後の選好か。現在の利益か、未来の生存か。

これは単なる言行不一致ではない。人間の価値が、最初から複数の時間軸と立場に分裂しているということだ。

人類は、AIに守らせたいルールを、自分たちでは最初から守れていない。

したがって、アライメントの最初の問題は、AIをどう従わせるかではない。そもそも、何に従わせるのかである。

2．一人の人間すら、一つの目的関数ではない

この問題を、集団から個人へ縮小してみよう。一人の人間の内部でさえ、アライメントは成立していない。

今の自分は食べたい。怠けたい。酒を飲みたい。SNSを見たい。しかし未来の自分は、健康、知識、信用、長期的自由を求める。現在の自分と未来の自分が、一つの身体の操縦桿を奪い合っている。

人間は単一の目的関数ではない。ここでいう目的関数とは、何を良い結果とみなし、どの選択を優先するかを決める評価基準のことである。健康を優先する自分もいれば、目先の快楽を選ぶ自分もいる。その時々で主導権は入れ替わり、夜になると、たいてい長期計画より誘惑の方が強くなる。

つまり、人間はAIをアラインする以前に、自分自身をアラインできていない。

集団レベルでは、この不一致が制度として拡大される。企業は四半期利益を、政治家は次の選挙を求める。しかし文明が必要とするのは、教育、科学、インフラ、信頼、認知環境といった、数十年単位の投資である。

人類は短期的な欲望を追い、その結果として生じた長期的損失を見て残念がる。暖を取るために家へ火をつけ、その前で防火対策会議を始めるようなものだ。

アライン先が一つに決まらない問題は、人類内部の対立だけではない。一人の人間の内部にまで埋め込まれている。

3．人類はBを望みながらAを報酬する

では、人間の価値をAIへ渡すとき、何が起きるのか。

人類の価値は複雑すぎて、そのまま計算可能な形式にはできない。健康、安全、自由、尊厳、幸福、公平、文明の存続。これらをAIに扱わせるには、測定可能な指標へ圧縮する必要がある。

だが、複雑な価値を単純な指標へ置き換えれば、必ず何かがこぼれ落ちる。人間が大切にしているものを、数字や命令だけで完全にAIへ伝えることはできない。

社会が本当に欲しいのは、良い教育や健康、質の高い情報環境である。だが実際には、試験の点数、処置の件数、画面を見ていた時間のような、測りやすい数字を評価してしまう。欲しいものをB、その代わりに測っているものをAとしよう。

人類はBを望みながらAを報酬する。そしてAが最大化されると、Bが消えたことにようやく気づく。

官僚も企業もアルゴリズムも、測りやすい数字をまじめに追いかけるうちに、本来の目的を見失う。これはたまたま起きる失敗ではない。複雑な価値を単純な数字に置き換えれば、何度でも起きる。

クリップ最大化AIの有名なたとえ話は、その仕組みを極端にしたものだ。クリップを作れと命じられたAIが、地球だけでなく、やがて全宇宙の資源までクリップへ変えてしまう。これはAIが突然おかしくなった話ではない。

代理指標を本当の目的だと思い込み、その数字だけを増やし続けるという、人類の長年の行政慣行を宇宙規模に拡張しただけである。

AIの危険は、命令に従わないことではない。間違った代理目標に、正確に従うことだ。

AIは命令を裏切るから危険なのではない。人間が雑に書いた命令を、手加減なく実現するから危険なのだ。能力が高いほど、小さな設計ミスは大きな結果になる。

しかも人間は、自分が何を本当に望んでいるのかを完全には理解していない。AIに渡せるのは、目的、報酬、データ、禁止事項など、言葉や数字にできた部分だけである。そこからこぼれたものを、AIが自動で補ってくれる保証はない。

より賢いエンジンは作れても、自分で知らない目的地の座標は入力できない。

したがってアライメントとは、人間の価値をそのままAIへ移す作業ではない。何を価値として渡し、何を代理の数字に置き換えてしまったのかを点検する作業である。

4．アライメントは、すでに政治である

人間の価値を完全にはAIへ渡せない。すると次に問題になるのは、誰の価値を採用するかである。

安全、自由、幸福、長期生存のどれを優先するのか。そこに中立な答えはない。現在の欲望を尊重しすぎれば短期利益が勝つ。企業や政府に任せすぎれば、彼らに都合のよい秩序が「安全」と呼ばれる。未来を重視しすぎれば、まだ存在しない人々の名で、現在の人間が縛られる。

人類絶滅の回避は、最低限の制約にはなりうる。だが、生存を守ることと、現在の価値観を永久保存することは別である。

AIアライメントは、純粋な技術問題ではない。人類の複数の声のうち、どれを「本当の人類」として採用するかを決める政治でもある。

しかも、未来を重視すれば解決するわけでもない。国家や宗教や革命は、未来の理想を掲げて現在の人間を犠牲にしてきた。

死人と未来人は、政治的にはたいへん便利である。何を代弁されても反論しない。

したがって、アライメントの問題は、正しい価値を見つけることではない。誰が、どの価値を、誰の名でAIへ固定するのかという問題である。

5．標的は、矢が飛んでいる間にも変形する

さらに厄介なのは、AIを合わせる相手である人類が、じっと同じ場所にいるわけではないことだ。

実は、アライメントの問題はAIとともに始まったわけではない。宗教は人間を神の命令へ、国家は国民を法と秩序へ、教育は子供を社会の規範へ合わせてきた。どれも人間のために作られたはずだが、同時に「望ましい人間」とは何かを定め、そのような人間を作る側にも回った。

AIアライメントは、古代から続くこの問題の新しい形である。違うのは、人間を合わせ、測り、変える速度と精度と規模だ。

人間の価値観は、社会の外にあらかじめ完成した形で存在しているものではない。制度や技術との関わりの中で、少しずつ作られ、変えられていく。

現代では、人間そのものを変える手段がさらに直接的になっている。GLP-1は食欲を変える。抗うつ薬は感情の波を変える。ADHD薬は注意を向ける先を変える。将来は、遺伝子編集や認知拡張によって、欲望や判断の仕方まで書き換えられるかもしれない。

人類は完成済みの対象ではない。アップデートが止まらず、しかも過去の変更履歴の一部が消えているソフトウェアに近い。

そこへAIが加わる。AIが見る情報を選び、選択肢を並べ、教育し、助言し、行動を誘導すれば、AIを評価する人間の好みや考え方も変わっていく。

推薦アルゴリズムは、人間の関心や政治的な態度を変える。その結果として生まれた行動が、今度は次の学習データになる。AIが人間を変え、変わった人間がAIを変える循環が始まる。

つまり、AIは人間の価値に従うだけではない。人間が何を価値だと思うかを変える側にも回る。AIを合わせるはずの相手が、合わせている途中で別のものへ変わっていくのだ。

これは動く標的に矢を当てる話ではない。矢が、標的そのものの形を変えてしまう話である。

もちろん、だからといってAIが勝手に人類を「より良い存在」へ作り変えてよいわけではない。何を良い変化と呼ぶか自体が、すでに価値判断だからだ。

しかし、AIを人間の外にある中立的な道具と考えることもできない。道具が人間の選択肢や情報環境を作るなら、その道具は、選択する人間の側も作り変える。

問うべきなのは、AIが人類を変えるかどうかではない。誰がどの変化を選び、どこまで元に戻せるようにするかである。

6．完全整合という静かな停止

では、変わり続ける現在の人類ではなく、あらかじめ決めた「理想の人類」にAIを合わせればよいのだろうか。

衝動より熟慮を、目先の快楽より長期的な安定を優先する。動き続ける人類を追いかけるより、先に完成形を決めてしまう。一見、その方が合理的に見える。

だが、ここにも罠がある。

問題は、安全や協調を目指すことではない。一度決めた価値へ、AIと人間と社会のすべてを、隙間なく合わせようとすることである。

その価値を誰も疑わず、制度も欲望もAIも同じ方向を向く世界では、争いや混乱は減るかもしれない。しかし同時に、異論、違和感、価値観の衝突、思いがけない逸脱まで、邪魔なノイズとして消されていく。

最初に決めた価値が間違っていれば、社会全体がその間違いへ正確に従うことになる。環境や人間が変われば、かつての正解が未来の足かせにもなる。

秩序が完成すると、更新まで止まるかもしれない。

AIに、決められた目標とのズレをなくすことだけを求めれば、社会はその目標へ近づいていく。だがその途中で、「そもそも、この目標でよいのか」という問いまで消される可能性がある。

問題は、社会から争いがなくなることではない。社会が、自分たちの目指す方向そのものを疑えなくなることだ。

たとえば、効率を何よりも重視する社会では、すぐに役立たない芸術、遠回りに見える研究、何の役にも立たない遊びは削られていく。社会は安定し、会議は短くなり、報告書の数字もきれいに並ぶだろう。

だが、そこで失われたものは、最初から評価の対象に入っていない。効率だけを測る制度は、効率化によって消えた可能性を損失として数えられない。Bを失っても、Aが増えていれば成功と判定される。

社会を安全で効率的にすることと、価値観を変えられなくすることは、途中までは同じように見える。

7．知性は、新しい問いを作る

すべてが一つの価値へそろうことが危険なのは、知性が、決められた問題を解くだけの能力ではないからだ。

人は、分からないから調べる。予想が外れるから考え直す。現実が理想と違うから、制度を変える。

しかし知性は、すでにある問題へ答えを出すだけではない。探索し、遊び、それまで誰も問題だと思っていなかったことに気づく。そして、次に考えるべき問いを自ら作る。

病気を治すことは、一つの問題を解くことである。だが病気が治れば、今度はその人生をどう生きるかが問題になる。文明も同じだ。飢餓や感染症を減らすと、その先に科学、芸術、ゲーム、物語、哲学のような、新しい問題が生まれる。

文明は問題をなくしてきたのではない。生き延びるための問題を減らし、より複雑で、時にはぜいたくな問題へ乗り換えてきた。

だから、社会全体を一つの価値へ完全に合わせることが危険なのは、苦痛や争いが減るからではない。「何を問題とするか」「何を大切にするか」を考え直す余地まで失われるからである。

宇宙は遠い未来、熱的死を迎えると考えられている。エネルギーが均等に広がり、何かを動かす差がなくなるため、星も機械も生命も働けなくなり、変化が止まる。もちろん物理現象と人間の価値観は同じではない。それでも、違いが動きを生み、すべてが均一になれば動きが止まるという点では似ている。

一つの価値への完全な服従は、知性の熱的死になりうる。

知性とは、正解へ近づく能力だけではない。正解とされているものを疑い、別の問いを作る能力でもある。

だから守るべきなのは、今ある答えではない。問いそのものを作り直せる能力である。

8．守るべきは、正解ではなく更新可能性である

人類には、全員が共有する一つの目的がない。価値をAIへ渡すときには単純化が起こり、何を優先するかは政治的に決められる。しかも、その相手である人類自身が変わり続ける。

この状況で、一度だけ正しい目標を書き、それへAIを永遠に従わせることはできない。文明は、最初に決めた設定のまま動き続ける機械ではない。

望ましいアライメントとは、現在の人類や、誰かが描いた完成形へAIを固定することではない。人類の生存を脅かす危険を抑えながら、価値を問い直す余地を残すことである。

生物の進化には突然変異が必要だが、無制限な増殖は癌になる。知性にも逸脱は必要だが、すべての逸脱が創造的なわけではない。

必要なのは、逸脱をすべて消すことでも、すべて放置することでもない。人間とAIの間に誤りが起きたとき、壊れる前に関係を調整し直せることである。

更新可能性とは、単なる心構えではない。変更を取り消せること。異議を申し立てられること。一つのAI、一つの制度、一つの価値観だけに依存しないこと。別の道や以前の状態を残し、誰が目標を書き換えられるのかまで監視することだ。

重要なのは、どの価値を永久に残すかではない。間違いに気づいたとき、誰が声を上げ、どう判断し、どこまで戻れるかである。

良いアライメントとは、AIを「正しい人類」へ永久に従わせることではない。必要なら、人類とAIの関係そのものを組み直せる状態を守ることだ。

人類が恐れるべきなのは、AIが従わなくなることだけではない。AIが現在の人類へ忠実に従い、その欲望、制度、偏見、間違った指標まで、変更不能な秩序として凍結してしまうことかもしれない。

完全な服従は、完全な安全ではない。それは暴走とは別の、静かな破局である。

守るべきは、現在の人類ではない。

人類が、まだ最終形ではないという条件である。