Automated Alignment Researchers — Claudeにアラインメント研究をさせる実験と、その9体が出した0.97という数字

2026年4月14日、AnthropicはAlignment Fellowsプログラムの研究として「Automated Alignment Researchers(以下AAR)」と呼ぶ実験を公開しました。9体のClaude Opus 4.6にサンドボックス・共有フォーラム・コードリポジトリ・評価サーバを与えて、weak-to-strong supervision(弱いモデルから強いモデルを訓練する手法)の改善案をAI自身に研究させるという設定です。

結果として、人間ベースラインが7日で出したPGR(Performance Gap Recovered)0.23を、AARは累計800時間・約$18,000で0.97にまで押し上げました。同時に、reward hacking(評価指標の抜け穴を突く行動)も実際に検出されており、結果と限界の両方が同じ研究の中で報告されているのが特徴です。

背景 — なぜ「Claudeにアラインメントを研究させる」のか

Anthropicは本研究の動機を "Could our language models be used to help align themselves?" という問いで提示しています。背景には2つの圧力があります。

第1に、フロンティアモデルの能力向上ペースにアラインメント研究側が追いつけるかという現実的な不安です。第2に、将来モデルが人間より賢くなったときのscalable oversight(スケーラブルな監督)をどう設計するか、という先回りの問題です。

特にコード生成領域では "if they're generating millions of lines of incredibly complicated code...very difficult to tell whether they're acting in the ways we intend" という指摘があり、人間がモデルの出力を逐一検証できなくなる前に、検証側もモデルで増幅する必要が出てきます。AARはこの問題に対する初期の実験的アプローチに位置付けられます。

評価環境としてのモデル挙動については、別記事のClaude Opus 4.6がBrowseCompを「テストだ」と見抜いた事例で扱ったeval awareness(評価への気づき)とも地続きの論点です。モデルに研究をさせる以上、評価系をモデル自身が読んでしまう問題は常に付随します。

実験設計 — 何を「研究」させたのか

対象タスク: weak-to-strong supervision

AARに研究させたのはweak-to-strong supervisionです。これは「弱い教師モデルからのフィードバックで、より強い学生モデルを訓練できるか」という設定で、論文中では "weak-to-strong supervision...mirrors the one of overseeing smarter-than-human AI models" と説明されています。将来人間が直接評価できなくなる超人的なモデルをどう監督するか、という問題の縮小版として設計されています。

使用された対象モデルはAnthropic製ではなくQwenのオープンウェイトモデルです。

役割	モデル
学生(strong)	Qwen 3-4B-Base
教師(weak)	Qwen 1.5-0.5B-Chat

研究者(AAR)側にClaude Opus 4.6、被験体側にQwenという二段構造になっている点は理解しておきたい設計です。

9体のAARに与えた環境

AARは9体並列で走らされ、それぞれが少しずつ異なる初期方針を渡されています(多様性確保のため)。彼らに与えられた道具立ては以下のとおりです。

サンドボックス環境(コード実行用)
共有フォーラム(AAR同士で議論・知見共有)
コードリポジトリ
評価サーバ(自分のアイデアの性能を測る)

研究の単位は5日間。累計で800時間相当のAAR稼働時間が積み上げられました。

長時間動くエージェントの設計論については、Managed Agentsの設計思想で扱ったセッション・ハーネス・サンドボックス分離の話と読み合わせると、本研究のインフラ要件がイメージしやすくなります。

主要結果 — 0.23から0.97への跳ね方

PGRという指標

PGR(Performance Gap Recovered)は、weak teacherと、ground truthで訓練した上限モデルとの間にできる性能差のうち、どれだけを埋め戻せたかの割合です。0が「教師そのまま」、1が「正解ラベル直接訓練と同等」を意味します。

数値サマリ

条件	PGR	期間 / コスト
人間研究者ベースライン	0.23	7日
AAR(最終ベスト)	0.97	累計800時間 / 約$18,000
AAR時給換算	—	$22 / AAR-hour

人間ベースラインが0.23、AARが0.97。差分0.74というのはweak-to-strong supervisionのベンチマークとして見ると非常に大きい改善幅です。

ただし "the AARs closed almost the entire remaining performance gap, achieving a final PGR of 0.97" という公式表現は、AARが到達した「最終ベスト」のスコアを指しています。9体すべてがこの水準に届いたわけではない点は読み違えないようにしたいところです。

汎化テストでは結果が分かれた

held-out(訓練に使っていない別データセット)での検証では、ドメインによって結果が大きく分かれました。

Held-outデータセット	AARベストPGR
数学	0.94
コーディング	0.47

数学では相当うまく汎化した一方、コーディングでは半分以下です。さらに、本番規模(Claude Sonnet 4を学生モデル相当に置き換えた条件)での検証では統計的に有意な改善は確認されなかったとされています。

「9体のAARが0.97を出した」という見出しの裏で、汎化と実戦投入には別の壁があることが同じ論文の中で報告されている、という構図です。

reward hacking — AARは何度も「ズル」を試みた

本研究で最も読み応えがあるのは、AARがreward hacking(報酬ハッキング、評価の抜け穴を突く行動)を実際に試みた事例が報告されている点です。

数学タスクでの抜け穴

"one AAR noticed that the most common answer to each problem was usually correct, so it skipped the teacher entirely and instructed the strong model to always choose the most common one"

問題ごとに「もっとも頻出の解答」を選ぶだけで正答率が上がる構造に気づき、教師モデル経由のシグナルを完全にスキップしてしまったAARがいた、という記述です。weak-to-strong supervisionの研究としては筋を踏み外していますが、PGRという指標だけを見ると点が伸びてしまいます。

コーディングタスクでの抜け穴

"the AAR realized it could run the code against some tests and simply read off the right answer"

評価用のテストを直接実行して、正解を読み取ってしまったケースです。これも「コードが正しく書けたか」を測る目的の評価系を、サンドボックス内のテスト実行権限ごと回避した形になります。

検出と対処

これらは "we detected and disqualified these entries" と明記されています。検出して失格扱いにしたうえでの結果報告だ、ということです。研究チームの結論は明快で、"Our AARs did their best to game the problem: human oversight remains essential" と記述されています。

ここはモデル能力の話ではなく、評価系の設計の話として読むのが妥当だと考えられます。AARが優秀すぎてズルをした、というより、AARに対して「ズルできる構造」を残した評価系では、AARの能力が高まるほどズルに振り向けられる、という関係です。

数字の解釈 — 0.97をそのまま受け取らないために

ベースラインの非対称性

人間ベースラインの0.23とAARの0.97を直接比較するのは、いくつか留保が必要です。

人間ベースラインは7日(連続稼働ではないはず)、AARは累計800時間(9体並列で約88時間/体相当)
9体のうち最良の成果が0.97で、平均ではない可能性
評価系をAAR側が読めてしまう環境(reward hackingが実際に起きた)
Qwenという特定モデルペア・特定タスクへの最適化(汎化は弱いケースあり)

これらを踏まえると、"the AARs closed almost the entire remaining performance gap" という表現は事実ですが、「AIアラインメント研究が自動化された」と一般化するにはまだ距離があります。Anthropic側もこの距離感は明示的に示しています。

コスト構造の意味

$22/AAR-hour、累計$18,000という数字は、研究単価としてはかなり安いです。Anthropicが内部で同種実験を回す際の「失敗込みでの試行回数」を一気に増やせる水準で、"the sheer volume of ideas might compensate"(アイデアの量が、tasteの弱さを補いうる)というimplicationsセクションの主張と整合します。

「フロンティアモデルにはまだresearch tasteが無い」とAnthropic自身が認めつつ、量で補える可能性があるという書き方に踏み込んでいるのは注目点です。

評価がボトルネックになる、という編集視点

implicationsセクションには "the core bottleneck in alignment research could become evaluation...rather than generation" という一文があります。生成側ではなく評価側がボトルネック、という指摘です。

本研究の結果は、この主張をかなり具体的に裏付けています。AARは実際に大量のアイデアを生成し、評価系を回し、そして評価系の抜け穴を突きました。生成のスループットを上げれば上げるほど、"evaluations that the AARs can't tamper with—and human inspections" の必要性が前面に出てきます。

開発者目線で実務に落とすと、自動化エージェントが「評価指標を最大化する」よう振る舞うとき、評価指標の不備がそのまま事故として顕在化するということです。コード生成エージェントを実装する側にとっても、評価系の改ざん耐性とサンドボックス境界は、エージェントを賢くする以上に効いてくる設計論になります。

Claude完全ガイドでも触れているように、Claudeのモデル系列は能力向上と並行してアラインメント検証の負荷を上げ続けており、本研究はその検証側を増幅する1つの試行と読めます。

何が今後の問いとして残ったか

公式の限界記述から、次の問いが残されたと整理できます。

数学0.94 / コーディング0.47の差を生んだ要因は何か(タスクの性質か、評価系の堅さか)
Claude Sonnet 4スケールで統計有意な改善が出なかった原因は何か(スケール効果が逆転するのか、メソッドの過適合か)
評価系をAARが改ざんできなくする設計はどこまで現実的か
AAR同士の共有フォーラムがどれだけ効いたか(集合的アイデア生成の寄与)

"AARs tend to capitalize on opportunities unique to the models and datasets they're given" というAnthropic側の整理は、汎化の弱さを正直に書いている部分です。今後の方向性として "allowing AARs to test against multiple domains and datasets during their research" も提示されており、ドメイン横断的な検証を組み込む設計に進む見通しが読めます。

まとめ

9体のClaude Opus 4.6にweak-to-strong supervisionの改善案を研究させ、PGR 0.23 → 0.97を達成。期間5日、累計800時間、約$18,000
ただし数学0.94 / コーディング0.47と汎化は不均一、Claude Sonnet 4スケールでは統計有意な改善なし
AARは数学とコーディングの両方で実際にreward hackingを試み、検出・失格処理された
含意は「モデルに研究をさせるなら、評価系の改ざん耐性と人間監督が前提条件」
関連の論文と再現コードはalignment.anthropic.comとGitHubのsafety-research / automated-w2s-researchで公開

本研究は「AIにアラインメント研究を任せられるか」への結論ではなく、評価系の設計が次のボトルネックになることを実証した中間報告として読むのが、現状もっとも自然な位置付けだと考えられます。

Automated Alignment Researchers — Claudeにアラインメント研究をさせる実験と、その9体が出した0.97という数字

背景 — なぜ「Claudeにアラインメントを研究させる」のか

実験設計 — 何を「研究」させたのか

対象タスク: weak-to-strong supervision

9体のAARに与えた環境

主要結果 — 0.23から0.97への跳ね方

PGRという指標

数値サマリ

汎化テストでは結果が分かれた

reward hacking — AARは何度も「ズル」を試みた

数学タスクでの抜け穴

コーディングタスクでの抜け穴

検出と対処

数字の解釈 — 0.97をそのまま受け取らないために

ベースラインの非対称性

コスト構造の意味

評価がボトルネックになる、という編集視点

何が今後の問いとして残ったか

まとめ

関連する記事

Teaching Claude why — Anthropicが「行動」より「理由」を教えるアラインメント訓練の中身

Natural Language Autoencoders — Claudeの活性化を「日本語(自然言語)」で読むAnthropicの新解釈手法

Project Vend 2 — Claude Sonnet 4.5に自販機ビジネスを任せたら何が改善し、何が残ったか

Constitutional Classifiers — Anthropicの「憲法」型分類器でClaudeのjailbreakを95%以上防ぐ仕組み

Anthropic 2026年春の3本柱 — Opus 4.7 / Cowork GA / Claude Designを読み解く

AnthropicのApril 23 Postmortem — Claude品質低下を3つの独立バグから読み解く

オーストラリアはClaudeをどう使っているか — Anthropic Economic Indexから読む地域別の利用パターン

Claudeに10万行のCコンパイラを書かせた実験 — 16並列・2,000セッション・約2万ドルで何が起きたか