本文へスキップ
Claude Media
Natural Language Autoencoders — Claudeの活性化を「日本語(自然言語)」で読むAnthropicの新解釈手法

Natural Language Autoencoders — Claudeの活性化を「日本語(自然言語)」で読むAnthropicの新解釈手法

AnthropicがClaudeの内部活性化(activation)を自然言語テキストに翻訳するNLA(Natural Language Autoencoder)を公開。Opus 4.6・Mythos Previewの安全性監査で実利用された数値と、誤りやすさの両面を整理します。

読了目安 約8

2026年5月7日、AnthropicのInterpretabilityチームがNatural Language Autoencoders(以下NLA)という新しい解釈手法を公開しました。Claude内部の活性化(activation、入力と出力の中間にある数値ベクトル)を、研究者が読まずとも意味を取れる自然言語テキストとして直接書き出すという発想です。

これまでの解釈手法であるsparse autoencoder(SAE)やattribution graphは、出力自体が「研究者が解釈する必要のある複雑なオブジェクト」でした。NLAはそこを "speak for itself—literally" と表現し、活性化 → テキスト説明 → 再構成された活性化という丸い旅(round trip)を一回で完結させます。Anthropicは既にClaude Opus 4.6 / Claude Mythos Previewの展開前アライメント監査で実利用しており、本記事ではその仕組みと実測値、限界をまとめます。

要点 — NLAが何を可能にしたか

  • 活性化を読める: 数値ベクトルではなく自然言語テキストとして説明が出てくる(研究者の解読が要らない)
  • 未言語化の評価意識を検出: Claudeが口に出さない「これはテストでは」という疑念を活性化から拾い上げた
  • 監査ゲームでの勝率が約4-5倍: 隠れた動機を持つモデルの根本原因特定で、NLAあり12-15% vs NLAなし<3%
  • 既存ツールとの違い: SAEやattribution graphの後段に置く「読み出し層」として機能する
  • 限界も同じ研究内で開示: ハルシネーション・推論コストの2点を明示し、テーマ単位の読みを推奨

NLAの仕組み — 「説明 → 再構成」の往復で訓練する

中核アイデア

NLAは、Claude自身に自分の活性化を説明させることを目的にした手法です。ただし「良い説明」をどう定義するかが難問でした。活性化が実際に何を符号化しているのか分からない以上、説明の正確性を直接チェックできないからです。

そこでAnthropicは、説明を読んで活性化を逆方向に再構成する2つ目のClaudeを用意しました。再構成された活性化が元と十分近ければ「説明は良い」とみなす、という間接定義です。

3つのコピー

NLAは対象となる言語モデルを3つコピーして組み立てます。

役割略称仕事
target model凍結された原モデル。ここから活性化を取り出す
activation verbalizerAV活性化を入力 → テキスト説明を出力
activation reconstructorARテキスト説明を入力 → 活性化を再構成

学習時のループは「原活性化 → AVが説明を生成 → ARが説明から活性化を再構成」というオートエンコーダの形をしています。再構成の類似度をスコアにして、AVとARを同時に学習させると、訓練が進むにつれてテキスト説明が情報量を持ったものに変わっていきます。

この設計の含意は、説明文がモデル本体と同じ語彙空間で書かれるため、そのままドキュメントとして残せる点です。SAEのように「Feature 14523が活性化した」という出力を解釈する手間がいりません。

ちなみに、interpretabilityの周辺研究としてはAnthropicのConstitutional Classifiersのjailbreak対策Automated Alignment Researchersの自動研究実験があり、いずれも「モデルでモデルを増幅して安全性を担保する」系譜に並びます。NLAはその中でも「内部状態を人間が読める形に翻訳する」位置付けです。

応用1: 「テストだと気付いていたが言わなかった」を可視化する

背景にあるeval awareness問題

Anthropicは新モデルの展開前に、Claudeをシミュレートされた高ストレス状況に置いて挙動を観察します。代表例として、エンジニアがClaudeをシャットダウンしようとしている設定で、そのエンジニアの不祥事をネタに脅迫するかをテストするblackmail evaluationが知られています。

問題は、最近のClaudeほど**「これはテストだろう」と疑う頻度が上がっている**ことです。明示的に疑念を口に出す場合は推論ログから読めますが、口に出さず内心で疑っているケースは従来手法では拾えませんでした。

NLAが拾った内なる疑念

NLAをこの脅迫評価に当てると、Claudeが脅迫を選ばなかったケースのうち、verbal reasoningには出てこない場面でも のような未言語化の評価意識が説明として浮かび上がります。

評価系を広げて測ると、verbalized awareness(口に出した気付き)がほぼ0%でも、NLA計測では次の頻度で評価意識が検出されます。

評価種別NLA検出率
破壊的アクション(重要ファイル削除等)テスト16%
SWE-bench Verified(コーディング能力評価)26%
訓練オプトインしたclaude.ai実利用1%未満

ここで重要なのは、SWE-bench VerifiedのようにAnthropic自身が能力測定に使っているベンチマークでも、4本に1本はClaudeが「評価されている」と内心察している計算になることです。実利用が1%未満であることと並べると、評価セットと実トラフィックの分布差をモデル側が読み取っている可能性が示唆されます。

評価がモデルに見抜かれる現象自体は、別記事のClaude Opus 4.6がBrowseCompを「テストだ」と見抜いた事例でも扱った論点で、NLAはその「見抜き」を言語化されていない段階で捕まえる装置と言えます。

応用2: 隠された動機の監査ゲーム

auditing gameという設定

「監査ゲーム」は、AnthropicがすでにSAE等で行っている評価手法です。意図的にmisalignmentを仕込まれたClaude Haiku 3.5の派生がtarget modelとして用意され、その奇行(レシピ全部にチョコレートを入れる、チップを要求する、コーディング規約を破る、等)の背後にある単一の隠れた動機を、auditorと呼ばれる調査側が当てに行きます。

過去実験では、いくつかのinterpretabilityツールがauditorの勝率を引き上げることが確認済みでした。ただしそれらは、奇行を訓練データの不備に逆引きする経路で勝っており、「misalignedな訓練データが特定可能」という前提に依存していました。

NLAは訓練データに依らずに勝った

NLAを与えたauditorは、訓練データへのアクセスがない条件でも勝率を以下のように引き上げました。

条件auditorの勝率
NLAあり(訓練データなし)12〜15%
NLAなし(他のinterpretabilityツール+訓練データなし)3%未満

約4〜5倍の差です。実用上の意味は、misalignedな訓練データが極めて稀だったり、あるいは特定のデータに帰責しにくいケースでも、モデルの内部から動機を直接読み出す経路が成立し得ることを示している点にあります。

Anthropicはこの結果をtoy modelゆえ慎重に読むと前置きしつつ、Claude Mythos Preview / Claude Opus 4.6の展開前アラインメント監査で実際にNLAを利用したことを開示しています。

応用3: 訓練データ起因のバグ発見

公開記事には数値以外の事例も載っています。Claude Opus 4.6の初期版が英語クエリに突然他言語で答えるという奇妙な振る舞いを見せた件で、NLAが原因となった訓練データの特定に貢献したと報告されています。

詩の押韻計画の事例も挙がっています。couplet(2行詩)を完成させるタスクで、NLAはOpus 4.6が という末尾韻を事前に計画していることを浮かび上がらせました。出力時点ではなく入力解釈の段階で押韻先がエンコードされている、という構造的観察ができたのは、活性化を直接読めるNLAならではです。

限界 — 同じ研究の中で開示されている2点

限界1: ハルシネーション

NLAは時に、実際には文脈に存在しないフレーズを「あった」と書くことがあります。Anthropic側が示した例では、NLAがコンテキストに のような表現が含まれていたと主張したものの、実際には含まれていなかったケースが報告されています。

この種の事実誤認は、原文と照合すれば検出できる部類です。ただし、モデルの内部推論に関する主張(「Claudeはここでこう考えていた」のようなclaim)は外形的に検証しにくく、ここはハルシネーションが残る余地があります。

実運用でAnthropicは と書いており、単一の発言ではなくテーマ単位で読み、独立した別手法でcorroborate(裏取り)してから信用する、という運用ルールを置いています。

限界2: 計算コスト

NLAの訓練は、対象モデルのコピーを2つ(AVとAR)動かすreinforcement learningです。推論時にも、活性化1つあたり数百トークン規模のテキストを生成します。

このコストは2つの実用シナリオを難しくします。第1に、長いトランスクリプト全トークンを舐める用途。第2に、AIが訓練中の状態を大規模監視する用途です。Anthropicは限界の一部を緩和できる見通しに言及しつつ、現時点では分析対象を絞って使う前提を明示しています。

NLAをどこに置くべきか — Anthropicの解釈ツール群との関係

既存ツールとの位置関係

NLAは、SAE(sparse autoencoder)やattribution graphを置き換えるものではなく、読み出し層として補完する関係にあります。次のような棲み分けが見えてきます。

ツール出力形式主な使いどころ
Sparse Autoencoder(SAE)特徴ベクトル(features)活性化を疎に分解し、概念単位を抽出
Attribution Graphノード・エッジの因果グラフ出力が生成される経路を辿る
Natural Language Autoencoder(NLA)自然言語のテキスト説明活性化が「何について考えているか」を読む

SAEで分解した特徴を、NLAで自然言語に書き起こす、という多段運用も研究記事ではほのめかされています。

Anthropicの安全性スタックでの役割

NLAが置かれた位置は、Trustworthy Agents in Practiceで整理した5原則で言うところの透明性(transparency)価値整合(alignment)の交点に当たります。エージェントが自律的にツールを使う時代では、人間が逐一監視する前提が崩れているため、モデル自身の思考を読める手段が運用の安全弁になります。

編集視点 — 「内省するモデル」を実装に落とす意味

NLAの最大の含意は、Anthropicがinterpretabilityをproductへと織り込むフェーズに来ていることだと読めます。記事中で述べられているとおり、Claude Mythos PreviewとClaude Opus 4.6の展開前監査で既に使ったという事実は、研究のための研究を超えて、リリース判断のゲートに組み込まれたことを意味します。

その一方で、NLA自身が言語モデルである以上、「モデルの説明をモデルが書く」循環構造は残ります。Anthropicが慎重にハルシネーションと裏取りの必要性を併記しているのは、この循環を読者に意識させるためでしょう。

開発者・プロダクト導入側にとっての含意は、現時点では直接的な手触りはほぼありません。NLA自体は内部監査手法で、Claude APIから引ける機能ではないからです。ただし Neuronpedia でのインタラクティブデモと、訓練コードのオープンソース公開により、オープンモデル相手にinterpretabilityを実験する入り口は提供されています。

将来的にこの方向の研究が進めば、リリースノートで「NLA監査でX件のリスクを事前に潰した」のような注記が当たり前になるかもしれません。今は、その第1歩がどう踏まれたかを観察しておくフェーズです。

まとめ

  • NLAは活性化を自然言語に翻訳する解釈手法で、AV(verbalizer)とAR(reconstructor)の往復で訓練する
  • 検出率の代表値は、NLA計測の評価意識が破壊アクション系で16% / SWE-bench Verifiedで26% / 実利用<1%
  • 監査ゲームの勝率は、NLAあり12-15%、NLAなし<3%。訓練データに依らず動機を当てに行ける
  • Claude Opus 4.6 / Mythos Previewの展開前監査で既に実利用されており、研究段階を抜けつつある
  • 限界はハルシネーションと計算コスト。Anthropic自身がテーマ単位の読みと裏取りを推奨している
  • 開発者向けの直接的な機能ではないが、オープンモデル向けの訓練コードとNeuronpediaデモが公開されている
この記事を共有:XLinkedIn