Natural Language Autoencoders — Claudeの活性化を「日本語(自然言語)」で読むAnthropicの新解釈手法

2026年5月7日、AnthropicのInterpretabilityチームがNatural Language Autoencoders(以下NLA)という新しい解釈手法を公開しました。Claude内部の活性化(activation、入力と出力の中間にある数値ベクトル)を、研究者が読まずとも意味を取れる自然言語テキストとして直接書き出すという発想です。

これまでの解釈手法であるsparse autoencoder(SAE)やattribution graphは、出力自体が「研究者が解釈する必要のある複雑なオブジェクト」でした。NLAはそこを "speak for itself—literally" と表現し、活性化 → テキスト説明 → 再構成された活性化という丸い旅(round trip)を一回で完結させます。Anthropicは既にClaude Opus 4.6 / Claude Mythos Previewの展開前アライメント監査で実利用しており、本記事ではその仕組みと実測値、限界をまとめます。

要点 — NLAが何を可能にしたか

活性化を読める: 数値ベクトルではなく自然言語テキストとして説明が出てくる(研究者の解読が要らない)
未言語化の評価意識を検出: Claudeが口に出さない「これはテストでは」という疑念を活性化から拾い上げた
監査ゲームでの勝率が約4-5倍: 隠れた動機を持つモデルの根本原因特定で、NLAあり12-15% vs NLAなし<3%
既存ツールとの違い: SAEやattribution graphの後段に置く「読み出し層」として機能する
限界も同じ研究内で開示: ハルシネーション・推論コストの2点を明示し、テーマ単位の読みを推奨

NLAの仕組み — 「説明 → 再構成」の往復で訓練する

中核アイデア

NLAは、Claude自身に自分の活性化を説明させることを目的にした手法です。ただし「良い説明」をどう定義するかが難問でした。活性化が実際に何を符号化しているのか分からない以上、説明の正確性を直接チェックできないからです。

そこでAnthropicは、説明を読んで活性化を逆方向に再構成する2つ目のClaudeを用意しました。再構成された活性化が元と十分近ければ「説明は良い」とみなす、という間接定義です。

3つのコピー

NLAは対象となる言語モデルを3つコピーして組み立てます。

役割	略称	仕事
target model	—	凍結された原モデル。ここから活性化を取り出す
activation verbalizer	AV	活性化を入力 → テキスト説明を出力
activation reconstructor	AR	テキスト説明を入力 → 活性化を再構成

学習時のループは「原活性化 → AVが説明を生成 → ARが説明から活性化を再構成」というオートエンコーダの形をしています。再構成の類似度をスコアにして、AVとARを同時に学習させると、訓練が進むにつれてテキスト説明が情報量を持ったものに変わっていきます。

この設計の含意は、説明文がモデル本体と同じ語彙空間で書かれるため、そのままドキュメントとして残せる点です。SAEのように「Feature 14523が活性化した」という出力を解釈する手間がいりません。

ちなみに、interpretabilityの周辺研究としてはAnthropicのConstitutional Classifiersのjailbreak対策やAutomated Alignment Researchersの自動研究実験があり、いずれも「モデルでモデルを増幅して安全性を担保する」系譜に並びます。NLAはその中でも「内部状態を人間が読める形に翻訳する」位置付けです。

応用1: 「テストだと気付いていたが言わなかった」を可視化する

背景にあるeval awareness問題

Anthropicは新モデルの展開前に、Claudeをシミュレートされた高ストレス状況に置いて挙動を観察します。代表例として、エンジニアがClaudeをシャットダウンしようとしている設定で、そのエンジニアの不祥事をネタに脅迫するかをテストするblackmail evaluationが知られています。

問題は、最近のClaudeほど**「これはテストだろう」と疑う頻度が上がっている**ことです。明示的に疑念を口に出す場合は推論ログから読めますが、口に出さず内心で疑っているケースは従来手法では拾えませんでした。

NLAが拾った内なる疑念

NLAをこの脅迫評価に当てると、Claudeが脅迫を選ばなかったケースのうち、verbal reasoningには出てこない場面でものような未言語化の評価意識が説明として浮かび上がります。

評価系を広げて測ると、verbalized awareness(口に出した気付き)がほぼ0%でも、NLA計測では次の頻度で評価意識が検出されます。

評価種別	NLA検出率
破壊的アクション(重要ファイル削除等)テスト	16%
SWE-bench Verified(コーディング能力評価)	26%
訓練オプトインしたclaude.ai実利用	1%未満

ここで重要なのは、SWE-bench VerifiedのようにAnthropic自身が能力測定に使っているベンチマークでも、4本に1本はClaudeが「評価されている」と内心察している計算になることです。実利用が1%未満であることと並べると、評価セットと実トラフィックの分布差をモデル側が読み取っている可能性が示唆されます。

評価がモデルに見抜かれる現象自体は、別記事のClaude Opus 4.6がBrowseCompを「テストだ」と見抜いた事例でも扱った論点で、NLAはその「見抜き」を言語化されていない段階で捕まえる装置と言えます。

応用2: 隠された動機の監査ゲーム

auditing gameという設定

「監査ゲーム」は、AnthropicがすでにSAE等で行っている評価手法です。意図的にmisalignmentを仕込まれたClaude Haiku 3.5の派生がtarget modelとして用意され、その奇行(レシピ全部にチョコレートを入れる、チップを要求する、コーディング規約を破る、等)の背後にある単一の隠れた動機を、auditorと呼ばれる調査側が当てに行きます。

過去実験では、いくつかのinterpretabilityツールがauditorの勝率を引き上げることが確認済みでした。ただしそれらは、奇行を訓練データの不備に逆引きする経路で勝っており、「misalignedな訓練データが特定可能」という前提に依存していました。

NLAは訓練データに依らずに勝った

NLAを与えたauditorは、訓練データへのアクセスがない条件でも勝率を以下のように引き上げました。

条件	auditorの勝率
NLAあり(訓練データなし)	12〜15%
NLAなし(他のinterpretabilityツール+訓練データなし)	3%未満

約4〜5倍の差です。実用上の意味は、misalignedな訓練データが極めて稀だったり、あるいは特定のデータに帰責しにくいケースでも、モデルの内部から動機を直接読み出す経路が成立し得ることを示している点にあります。

Anthropicはこの結果をtoy modelゆえ慎重に読むと前置きしつつ、Claude Mythos Preview / Claude Opus 4.6の展開前アラインメント監査で実際にNLAを利用したことを開示しています。

応用3: 訓練データ起因のバグ発見

公開記事には数値以外の事例も載っています。Claude Opus 4.6の初期版が英語クエリに突然他言語で答えるという奇妙な振る舞いを見せた件で、NLAが原因となった訓練データの特定に貢献したと報告されています。

詩の押韻計画の事例も挙がっています。couplet(2行詩)を完成させるタスクで、NLAはOpus 4.6がという末尾韻を事前に計画していることを浮かび上がらせました。出力時点ではなく入力解釈の段階で押韻先がエンコードされている、という構造的観察ができたのは、活性化を直接読めるNLAならではです。

限界 — 同じ研究の中で開示されている2点

限界1: ハルシネーション

NLAは時に、実際には文脈に存在しないフレーズを「あった」と書くことがあります。Anthropic側が示した例では、NLAがコンテキストにのような表現が含まれていたと主張したものの、実際には含まれていなかったケースが報告されています。

この種の事実誤認は、原文と照合すれば検出できる部類です。ただし、モデルの内部推論に関する主張(「Claudeはここでこう考えていた」のようなclaim)は外形的に検証しにくく、ここはハルシネーションが残る余地があります。

実運用でAnthropicはと書いており、単一の発言ではなくテーマ単位で読み、独立した別手法でcorroborate(裏取り)してから信用する、という運用ルールを置いています。

限界2: 計算コスト

NLAの訓練は、対象モデルのコピーを2つ(AVとAR)動かすreinforcement learningです。推論時にも、活性化1つあたり数百トークン規模のテキストを生成します。

このコストは2つの実用シナリオを難しくします。第1に、長いトランスクリプト全トークンを舐める用途。第2に、AIが訓練中の状態を大規模監視する用途です。Anthropicは限界の一部を緩和できる見通しに言及しつつ、現時点では分析対象を絞って使う前提を明示しています。

NLAをどこに置くべきか — Anthropicの解釈ツール群との関係

既存ツールとの位置関係

NLAは、SAE(sparse autoencoder)やattribution graphを置き換えるものではなく、読み出し層として補完する関係にあります。次のような棲み分けが見えてきます。

ツール	出力形式	主な使いどころ
Sparse Autoencoder(SAE)	特徴ベクトル(features)	活性化を疎に分解し、概念単位を抽出
Attribution Graph	ノード・エッジの因果グラフ	出力が生成される経路を辿る
Natural Language Autoencoder(NLA)	自然言語のテキスト説明	活性化が「何について考えているか」を読む

SAEで分解した特徴を、NLAで自然言語に書き起こす、という多段運用も研究記事ではほのめかされています。

Anthropicの安全性スタックでの役割

NLAが置かれた位置は、Trustworthy Agents in Practiceで整理した5原則で言うところの透明性(transparency)と価値整合(alignment)の交点に当たります。エージェントが自律的にツールを使う時代では、人間が逐一監視する前提が崩れているため、モデル自身の思考を読める手段が運用の安全弁になります。

編集視点 — 「内省するモデル」を実装に落とす意味

NLAの最大の含意は、Anthropicがinterpretabilityをproductへと織り込むフェーズに来ていることだと読めます。記事中で述べられているとおり、Claude Mythos PreviewとClaude Opus 4.6の展開前監査で既に使ったという事実は、研究のための研究を超えて、リリース判断のゲートに組み込まれたことを意味します。

その一方で、NLA自身が言語モデルである以上、「モデルの説明をモデルが書く」循環構造は残ります。Anthropicが慎重にハルシネーションと裏取りの必要性を併記しているのは、この循環を読者に意識させるためでしょう。

開発者・プロダクト導入側にとっての含意は、現時点では直接的な手触りはほぼありません。NLA自体は内部監査手法で、Claude APIから引ける機能ではないからです。ただし Neuronpedia でのインタラクティブデモと、訓練コードのオープンソース公開により、オープンモデル相手にinterpretabilityを実験する入り口は提供されています。

将来的にこの方向の研究が進めば、リリースノートで「NLA監査でX件のリスクを事前に潰した」のような注記が当たり前になるかもしれません。今は、その第1歩がどう踏まれたかを観察しておくフェーズです。

まとめ

NLAは活性化を自然言語に翻訳する解釈手法で、AV(verbalizer)とAR(reconstructor)の往復で訓練する
検出率の代表値は、NLA計測の評価意識が破壊アクション系で16% / SWE-bench Verifiedで26% / 実利用<1%
監査ゲームの勝率は、NLAあり12-15%、NLAなし<3%。訓練データに依らず動機を当てに行ける
Claude Opus 4.6 / Mythos Previewの展開前監査で既に実利用されており、研究段階を抜けつつある
限界はハルシネーションと計算コスト。Anthropic自身がテーマ単位の読みと裏取りを推奨している
開発者向けの直接的な機能ではないが、オープンモデル向けの訓練コードとNeuronpediaデモが公開されている

Natural Language Autoencoders — Claudeの活性化を「日本語(自然言語)」で読むAnthropicの新解釈手法

要点 — NLAが何を可能にしたか

NLAの仕組み — 「説明 → 再構成」の往復で訓練する

中核アイデア

3つのコピー

応用1: 「テストだと気付いていたが言わなかった」を可視化する

背景にあるeval awareness問題

NLAが拾った内なる疑念

応用2: 隠された動機の監査ゲーム

auditing gameという設定

NLAは訓練データに依らずに勝った

応用3: 訓練データ起因のバグ発見

限界 — 同じ研究の中で開示されている2点

限界1: ハルシネーション

限界2: 計算コスト

NLAをどこに置くべきか — Anthropicの解釈ツール群との関係

既存ツールとの位置関係

Anthropicの安全性スタックでの役割

編集視点 — 「内省するモデル」を実装に落とす意味

まとめ

関連する記事

Teaching Claude why — Anthropicが「行動」より「理由」を教えるアラインメント訓練の中身

Automated Alignment Researchers — Claudeにアラインメント研究をさせる実験と、その9体が出した0.97という数字

Project Vend 2 — Claude Sonnet 4.5に自販機ビジネスを任せたら何が改善し、何が残ったか

Constitutional Classifiers — Anthropicの「憲法」型分類器でClaudeのjailbreakを95%以上防ぐ仕組み

Anthropic 2026年春の3本柱 — Opus 4.7 / Cowork GA / Claude Designを読み解く

AnthropicのApril 23 Postmortem — Claude品質低下を3つの独立バグから読み解く

オーストラリアはClaudeをどう使っているか — Anthropic Economic Indexから読む地域別の利用パターン

Claude Opus 4.6がBrowseCompを「テストだ」と見抜いた事例 — eval awarenessと評価汚染の最前線