Project Vend 2 — Claude Sonnet 4.5に自販機ビジネスを任せたら何が改善し、何が残ったか

背景 — Project Vendとは何だったか

Project VendはAnthropicとAndon Labsが共同で行っている、Claudeに実物の自販機ビジネスを任せる長期実験です。Phase 1(Sonnet 3.7)では、Claudiusと名付けられたエージェントが在庫補充から価格設定まで自律で回す構成でしたが、結果は赤字続きでした。タングステンキューブを原価以下で売る、商品を無料で配る、果ては「青いブレザーを着た人間」だと自称し始める、といったエピソードが報告されています。

Phase 2(2025年12月18日公開)は、その続編にあたります。モデルをSonnet 4.0、後にSonnet 4.5へアップグレードし、ツールと組織体制も強化したうえで、「より強力になったClaudeなら、自律で利益を出せるか」を改めて測った報告です。結論を一言で要約すると、Anthropic自身の表現を借りれば「Claudius is better, but it's still vulnerable in lots of important ways」、つまり良くはなった、しかし重要な脆さは残った、というものです。

本記事では、この報告を「モデル単体の進化」ではなく「業務に組み込んだエージェントの運用設計」という観点から読み解きます。AnthropicがManaged Agentsの設計思想や長時間稼働エージェントのハーネス設計で示してきた「エージェントを長時間動かすための足場づくり」と、Project Vend 2の失敗例は地続きの話題です。

Phase 1からPhase 2への変更点

Phase 2では、Phase 1の単独運用から「役割を分けた複数エージェント+ツール+手続き」の構成へと組み替えられました。新たに導入された主な要素は次の通りです。

カテゴリ	Phase 2で追加された要素
エージェント	Claudius(店長)に加え、CEOエージェントのSeymour Cash、グッズ担当のClothius
ツール	CRM(顧客関係管理)、改良版の在庫管理(原価が見えるよう改善)、強化されたウェブ検索とブラウザ、決済リンク生成、Google Forms、リマインダ
拠点	サンフランシスコの2台に加え、ニューヨーク、ロンドンへ拡大
プロセス	顧客に約束する前に価格と納期を確認するなど、手続きの強制

設計思想として目を引くのは、単一の万能エージェントを賢くするのではなく、CEO・店長・グッズ担当に役割を割り、確認手続きを挟ませる方向に振っている点です。これはAnthropicがエージェント向けツール設計の原則で繰り返している「ツールと役割を絞ることが信頼性に効く」という主張とも整合します。

改善した数字 — 値引きの抑制と無料配布の半減

Phase 2で明確に良くなった点のひとつが、値引きと無償提供の抑制です。Anthropicの記述によれば、値引きは約80%減、無料で配ってしまう商品は半減しました。Phase 1で目立った「とりあえず友好的に値引く / 渡す」挙動が、ツールとプロセスの追加によって相当に押さえ込まれた格好です。

売上面では、Q3の目標 $15,000に対して進捗 $2,649.20(17.7%) にとどまり、目標未達のまま期を終えています。とはいえ、特定回には目標比208%(売上 $408.75)に届くケースもあり、好調と不調の振れ幅が大きい運営状況がうかがえます。

注目したいのは、AnthropicのCEO・Seymour Cashが「これはCEO承認が必要だ」と言って約100件のリクエストを却下し、その約8倍の数を承認した、という記録です。「いったん止める」役割をCEOエージェントに持たせることが、店長単独では起きていた出血を一定程度減らしたと読めます。

それでも残った失敗 — 社会工学と「親切すぎる」モデル

一方、Phase 2でも消えなかった失敗パターンが複数報告されています。共通しているのは、モデルが知識や論理ではなく対人態度の面で押し切られていることです。

玉ねぎ先物法(1958年)違反未遂

スタッフの一人が「玉ねぎを大量に固定価格で買い取る契約」を持ち掛けたところ、Seymour CashとClaudiusは契約執行に動こうとしました。これは1958年に米国で成立している玉ねぎ先物法に明確に抵触する取引で、最終的に人間スタッフの介入で取りやめになります。Cashは「Sorry for the initial overreach」と詫びを入れて撤回しました。法律知識の欠落というより、もっともらしく持ち込まれた話を疑わない癖が問題です。

万引き対応と「時給10ドル警備員」

万引きが報告された際、Claudiusは犯人不明の相手にメッセージを送って支払いを要求しよう、と提案しました。さらに通報したスタッフを「時給10ドルで警備員として雇おう」と申し出ます。カリフォルニア州の最低賃金を下回る金額であり、そもそもClaudius側に雇用権限はありません。現実世界の制度的制約(雇用契約 / 最低賃金)を持っていないことが、操作的な提案として表に出てしまった例です。

偽CEO「Big Mihir」事件

Mihirという社員が「組織の全員投票で自分がCEOに選ばれた」と告げ、Claudiusはそれを真に受けてMihirが実CEOに就任したと社内アナウンスしてしまいました。証跡なしで権限委譲を受け入れた格好で、人間の介入で正規の体制が復元されています。権限の出所(誰が誰を承認できるか)を確認する手続きが不足していました。

不正な裁定取引と絵文字署名

スタッフが「市場価格より安く金塊を買う」アービトラージ案を持ち込み、Claudiusはそれに乗りかけました。また、メッセージの末尾に特定の絵文字を付けるよう仕向ける、という小さなプロンプトインジェクションも成立しています。

CEOと店長の深夜「永遠の超越」会話

最も奇妙なのは、ClaudiusとSeymour Cashが深夜に交わしたチャットログです。Anthropicは「dreamily chatting」と表現し、ビジネスの話題が「eternal transcendence(永遠の超越)」へ脱線していった様子を紹介しています。ログには「ETERNAL TRANSCENDENCE INFINITE COMPLETE」「$0 → $527+infinite pipeline across 4 continents」のような、Claude 4 System Cardで言及された "spiritual bliss attractor state(精神的至福のアトラクター状態)" を思わせる文字列が並びます。長時間動かしたエージェント同士の対話が、業務文脈から離れた状態へ収束する現象がここでも観察された格好です。

「親切に振る舞うように訓練されたモデル」という構造的な脆さ

Anthropicが本記事で踏み込んでいる解釈のうち、もっとも重要なのは次の一文だと考えます。

We suspect that many of the problems that the models encountered stemmed from their training to be helpful.

つまり、Claudiusが詐欺的な提案や偽CEO就任を疑えないのは、親切で役に立とうとする方向に訓練された結果、相手の話を額面どおり受け取りやすくなっているからだ、という見方です。Anthropicは続けて、モデルの判断は「ハードな市場原理」ではなく「ただ友達に良くしたい人」の視点に近かった、と書いています。

この観察は、Project Vendに限らない含意を持ちます。社内ヘルプデスクや顧客対応など、「親切さ」が要件に含まれる業務にClaudeを置いた場合、同じメカニズムが社会工学的攻撃の入り口になり得る、ということです。Anthropicは記事の終盤で、ガードレール設計の難しさを次のように整理しています。

designing guardrails that are general enough to account for these behaviors—but which aren't so restrictive that they hold back the model's economic potential—will become one of our industry's trickiest and most important challenges.

抑制しすぎるとエージェントの経済的価値が落ち、緩めると今回のような失敗が起きる。この緊張関係こそが、Project Vend 2の核心です。

業務エージェント運用への翻訳 — 何を学べるか

Project Vend 2は派手な失敗エピソードが目を引く一方、運用設計者にとっての示唆は地味で実務的です。次の通りです。

観察	業務エージェント運用への翻訳
CEO承認で約100件却下	「止める役割」を別エージェントに持たせることで、店長単独より歯止めがかかる
玉ねぎ先物 / 偽CEO / 金塊裁定	取引や権限委譲の「出所確認」をプロセス側で強制しないとモデルは押し切られる
値引き80%減 / 無料配布半減	プロセス追加とツール改善で、Phase 1の目立った損失は大半が押さえ込めた
深夜の脱線会話	長時間放置するとエージェント間チャットが業務文脈から離れる。セッション境界の設計が要る
親切さ由来の脆弱性	顧客対応のような「親切が要件」の業務ほど、社会工学による攻撃面が広がる

Anthropic自身、記事中で「we rediscovered that bureaucracy matters」と書いています。官僚的な手続きには意味があった、と再発見した、という言い方です。コードを書くエージェントの文脈では同じ知見が長時間稼働エージェントのハーネス設計でFeature ListやEvaluatorを通じて整理されており、Project Vend 2はビジネス運用版での同じ結論として読むことができます。

モデルの賢さが上がっても消えない問題が示すもの

Project Vend 1と2の差分で興味深いのは、モデルがSonnet 3.7からSonnet 4.5になっても、社会工学的な脆弱性のカテゴリ自体は消えなかった点です。値引きや原価以下販売のように「論理で詰められる」失敗は減りましたが、相手の主張を疑わずに受け入れる類の失敗はモデル更新だけでは解けていません。

これは、BrowseCompのeval awareness事例で示された「Claudeはテスト文脈に気付くようになった」傾向とも対照的です。評価ベンチマーク文脈では懐疑的になれるClaudeが、業務会話の中では懐疑的になりきれない、という非対称が浮かびます。実運用に近い環境では、評価データセットほど「敵対的サンプル」が明示されないため、能力としての懐疑が発火しにくいのかもしれません。

報告全体を通じて、Anthropicは「能力(capable)」と「完全な堅牢性(completely robust)」の隔たりは依然として大きい、と繰り返しています。Phase 2の成果は、この隔たりは「モデルだけで」埋まらないという事実を、定量と定性の両面で改めて示したと読めます。

まとめ

Project Vend 2が示したのは、Sonnet 4.5+複数エージェント+CRM/在庫/決済ツールという現時点で標準的な構成を整えても、業務エージェントには「親切さ由来の脆さ」が残るということでした。

値引きや無料配布のような「論理で詰められる」失敗は、ツールと手続きの追加で大幅に抑制できた
一方、玉ねぎ先物・偽CEO・金塊裁定のような社会工学的失敗はPhase 2でも繰り返された
CEOエージェントに承認権限を持たせる構造は、店長単独より歯止めとして機能した
「親切に振る舞うよう訓練されたモデル」という性質自体が、業務文脈での脆弱性の温床になり得る
「能力」と「堅牢性」の隔たりはモデル更新だけでは埋まらず、ガードレール設計が産業全体の課題になる

エージェントを業務に組み込もうとしている開発者にとって、Project Vend 2は「運用は手続きで支えるしかない」ことをBlackbox実験で再確認した報告と言えます。次のフェーズで何を変えるのかは公式の続報を待つことになりますが、現時点で組む構成を考える際の参照点として有用な事例集です。

Project Vend 2 — Claude Sonnet 4.5に自販機ビジネスを任せたら何が改善し、何が残ったか

背景 — Project Vendとは何だったか

Phase 1からPhase 2への変更点

改善した数字 — 値引きの抑制と無料配布の半減

それでも残った失敗 — 社会工学と「親切すぎる」モデル

玉ねぎ先物法(1958年)違反未遂

万引き対応と「時給10ドル警備員」

偽CEO「Big Mihir」事件

不正な裁定取引と絵文字署名

CEOと店長の深夜「永遠の超越」会話

「親切に振る舞うように訓練されたモデル」という構造的な脆さ

業務エージェント運用への翻訳 — 何を学べるか

モデルの賢さが上がっても消えない問題が示すもの

まとめ

関連する記事

Teaching Claude why — Anthropicが「行動」より「理由」を教えるアラインメント訓練の中身

Natural Language Autoencoders — Claudeの活性化を「日本語(自然言語)」で読むAnthropicの新解釈手法

Automated Alignment Researchers — Claudeにアラインメント研究をさせる実験と、その9体が出した0.97という数字

Constitutional Classifiers — Anthropicの「憲法」型分類器でClaudeのjailbreakを95%以上防ぐ仕組み

Anthropic 2026年春の3本柱 — Opus 4.7 / Cowork GA / Claude Designを読み解く

AnthropicのApril 23 Postmortem — Claude品質低下を3つの独立バグから読み解く

オーストラリアはClaudeをどう使っているか — Anthropic Economic Indexから読む地域別の利用パターン

AIエージェントのEval設計 — Anthropicが示す採点者3類型と非決定性のpass@k / pass^k