2025年夏 AIエージェントシステムに対する考え方

はじめに

正直に言って、AIエージェントを初めて理解しようとしたとき、私は完全に見当違いをしていた。単なる賢いチャットボットの延長線上にあるものだと思っていた。でも、実際に触れてみて驚いた。これは全く違う生き物だった。

エージェントとは「行為者性（agency）」を持つ存在だ。つまり、ただ反応するだけじゃなくて、目的を持ち、意図的に行動し、経験から学習する自律的な存在だ。これって、ある意味で「生きている」ということに近いんじゃないだろうか。

従来のソフトウェアを思い出してみる。入力に対して決まった出力を返す、予測可能な機械だった。でもAIエージェントは違う。確率的で、時に予想外の振る舞いを見せる。まるでデジタル世界に新しい種類の「生命」が誕生したかのような感覚を覚えることがある。

私たちは今、Andrej Karpathyが言うところのSoftware 3.0の時代にいる。自然言語がプログラミング言語になり、プロンプトを書くことで複雑なタスクを実行できる時代だ。でも、この技術革新の中で、私が最も関心を持っているのは、エージェントシステムをどう設計し、どう制御し、どう共生していくかということだ。

blog.riywo.com

karpathy.medium.com

考えてみれば、人類の歴史は道具との共進化の歴史だった。石器が私たちの手を変え、文字が私たちの記憶を変え、インターネットが私たちの社会を変えた。そして今、AIエージェントが私たちの思考そのものを変えようとしている。

speakerdeck.com

サピエンス全史　上　文明の構造と人類の幸福 (河出文庫)

Amazon

このブログが良ければ読者になったり、nwiizoのXやGithubをフォローしてくれると嬉しいです。では、早速はじめていきます。

エージェントとは何か

行為者性を持つデジタル存在

エージェントを理解するには、まずその本質である「行為者性（agency）」を理解する必要がある。これは単に命令に従うだけではなく、自らの判断で行動を選択する能力だ。

人間の秘書を思い浮かべてみてほしい。優秀な秘書は、単に言われたことをこなすだけじゃない。スケジュールを見て「この会議の前に資料の確認時間が必要ですね」と提案したり、「先方からの返信がまだですが、リマインドしましょうか」と気を利かせたりする。

AIエージェントも同じような能力を持ち始めている。環境を認識し、目標を理解し、最適な行動を選択する。これは従来のプログラムとは根本的に違う。プログラムは「もしAならBをする」という決まったルールに従うが、エージェントは「この状況で目標を達成するには何をすべきか」を考える。

エージェントの基本的な能力

技術的に見れば、エージェントは大規模言語モデル（LLM）を基盤として動いている。でも、ここが面白いところで、彼らは単に反応するだけじゃない。環境を認識し、意思決定し、行動を実行するサイクルを自律的に回す。

エージェントの環境認識能力は驚くほど幅広い。テキストはもちろん、画像、音声、構造化データなど、人間が理解できる情報ならほぼ何でも処理できる。例えば、スクリーンショットを見せて「このエラーを解決して」と言えば、画面の内容を理解し、エラーメッセージを読み取り、解決策を提案する。この能力により、人間とほぼ同じような方法で情報を受け取り、理解できるようになった。

推論能力においては、エージェントは複雑な問題を人間の専門家のように段階的に分解して考える。「売上が下がっている原因を分析して」と言われたら、まず売上データを確認し、前期との比較を行い、変化があった要因を特定し、それぞれの影響度を評価する。この思考プロセスは、経験豊富なアナリストが行うアプローチとほとんど変わらない。

そして行動実行能力により、エージェントは考えるだけでなく実際に行動できる。メールを送り、カレンダーに予定を入れ、データベースを更新し、レポートを作成する。これらの能力を組み合わせることで、単純なタスクから複雑なワークフローまで、幅広い業務を完遂できるようになった。

zenn.dev

非同期処理による新しい働き方

エージェントの革命的な特徴の一つが非同期的な処理だ。これにより、人間の働き方が根本的に変わりつつある。

従来は、タスクが発生したら人間がすぐに対応する必要があった。メールが来たら読んで返信し、レポートの依頼が来たら作成し、バグが報告されたら調査する。常に反応的で、割り込みに振り回される日々だった。

でも、エージェントがいれば違う。メールが届いたとき、エージェントが内容を理解し、返信の下書きを用意してくれる。朝起きたら、すでに適切な返信案が準備されている。人間は内容を確認し、必要に応じて修正し、送信ボタンを押すだけだ。

請求書の処理も変わる。以前は、請求書を受け取ったら内容を確認し、システムに入力し、承認フローに回す...という作業を人間がやっていた。今は、エージェントが請求書を読み取り、過去の取引と照合し、異常がなければ自動的に処理を進める。人間は例外的なケースだけを確認すればいい。

24時間365日の継続的な監視も可能になった。人間には睡眠が必要だが、エージェントは休まない。システムの異常を検知し、初期対応を行い、必要に応じて人間にエスカレーションする。Microsoftが発表したAzure SRE Agentは、まさにこの概念を具現化したものだ。

techcommunity.microsoft.com

これにより、人間は作業者から管理者へと役割が変わる。細かい作業はエージェントに任せ、人間は戦略的な判断や創造的な仕事に集中できる。

文書処理の革命

エージェントの最も実用的な強みの一つは、大規模文書の高速解析と構造化データ抽出だ。これは単なる要約機能を超えて、技術ブログのサンプルコードを実際に検証し、動作確認まで行う段階に進化しつつある。

例えば、新しいライブラリやフレームワークの解説記事があったとき、エージェントはコードスニペットを自動抽出し、実行環境を構築してサンプルコードを検証、バージョン間の互換性問題や潜在的なエラーを検出し、「このコードは最新版では動作しないため、こう修正する必要があります」といった具体的なフィードバックを提供する。技術仕様書や契約書なら、数百ページの文書から技術要件、制約条件、リスク要因を構造化データとして抽出し、人間なら丸一日かかる作業を数分で完了する。

技術調査においては、特定の技術トピックについて、公式ドキュメント、技術ブログ、コミュニティの議論から情報を収集し、実装例の動作検証、採用事例の分析、メリット・デメリットの整理、既存システムへの適用可能性の評価まで自動化できる。さらに、ブログで紹介されているアーキテクチャやベストプラクティスの実現可能性を、技術的複雑さ、運用負荷、チームのスキルセット、投資対効果の観点から多角的に検証し、「この技術を採用すべきか？」という意思決定に必要な判断材料を提供する。エージェントフレームワークを活用すれば、このような文書処理と検証のシステムは比較的短期間で構築可能だ。

非構造化データの理解

従来のシステムの最大の弱点は、決まった形式のデータしか扱えないことだった。CSVファイルやデータベースなら処理できるが、メールの文面や手書きのメモは理解できなかった。

エージェントは違う。人間の自然な言葉をそのまま理解できる。「先週の会議で話した件について、関連する情報をまとめて」という曖昧な指示でも、会議の議事録を探し、関連するメールを見つけ、該当するドキュメントを特定し、coherentなサマリーを作成する。

ソーシャルメディアの分析も得意だ。「うちの製品についての評判を調べて」と言えば、TwitterやRedditの投稿を分析し、ポジティブ・ネガティブな意見を分類し、改善点の示唆まで提供する。感情のニュアンスも理解するので、「不満はあるが期待している」といった複雑な感情も読み取れる。

zenn.dev

マルチモーダルな理解

最新のエージェントは、テキストと画像を統合した推論もできる。これが実務でどれだけ強力か、いくつか例を挙げてみよう。

エラー画面のスクリーンショットを見せて「このエラーの原因は？」と聞けば、スタックトレース、エラーメッセージ、UIの状態から問題を特定し、解決策を提案する。「このNullPointerExceptionは、非同期処理の完了前にUIが更新されているためです。Promise.allで待機処理を追加してください」といった具体的なアドバイスを提供する。

システム構成図やアーキテクチャ図を見せて「パフォーマンスのボトルネックは？」と聞けば、データフローやコンポーネント間の依存関係から潜在的な問題を指摘する。「このAPI ゲートウェイに全てのトラフィックが集中しています」「データベースへの同期的なアクセスがレスポンス時間を悪化させています」など、設計上の改善点を提案する。

モニタリングダッシュボードのスクリーンショットから異常を検出することも可能だ。CPU使用率、メモリ使用量、レスポンスタイムのグラフを見て、「午後3時頃からメモリリークの兆候が見られます」「このスパイクはデプロイのタイミングと一致しています」といった分析を行う。ホワイトボードに描かれたシステム設計をコードの雛形に変換したり、UIモックアップからReactコンポーネントを生成したりと、視覚的な情報を実装可能なコードに変換する能力も備えている。

エージェントの自律性と責任

観察・判断・実行のサイクル

エージェントの本質的な能力は、「観察→判断→アクション」という自律的なサイクルを回せることだ。これは人間の専門家が行う思考プロセスと同じだが、エージェントは疲れることなく、24時間このサイクルを続けられる。

システム運用の文脈で考えてみよう。エージェントはまず、メトリクス、ログ、イベントを継続的にモニタリングして環境を観察する。そこから異常パターンを検出し、原因を推論し、対応策を選定するという判断を下す。そして、自動修復やスケーリング、必要に応じたアラート送信といったアクションを実行する。

このサイクルが高速で回ることで、人間では見逃しがちな微細な異常も早期に発見できる。さらに重要なのは、属人化の解消だ。特定の専門家しか判断できなかった複雑な問題も、エージェントなら一貫した品質で対応できる。

自律性がもたらす問題

ここで重要な問題に直面する。エージェントが自律的に何かを決定したとき、その責任は一体誰にあるのだろうか。

ある企業でこんな事件があった。在庫管理エージェントが、過去のデータから需要を予測し、「最適」と判断して大量の商品を自動発注した。しかし、そのエージェントは季節的な要因を十分に考慮していなかった。クリスマス商戦の直後に、クリスマス用品を大量発注してしまったのだ。

この責任は誰にある？エージェントを開発した会社？それを導入した企業？設定を行った担当者？あるいは、エージェント自身に責任能力を認めるべきなのか？

法的にも倫理的にも、これは簡単に答えの出ない問題だ。でも、実務的には何らかの解決策が必要だ。

zenn.dev

genai.owasp.org

監督された自律性（Supervised Autonomy）というアプローチ

私の考えでは、「監督された自律性（Supervised Autonomy）」というモデルが現実的だと思う。これは、エージェントに自律性を与えつつ、人間が適切に監督・制御する仕組みだ。

speakerdeck.com

これはちょうど、見習いに仕事を任せる職人のようなものだ。基本的な作業は任せるが、重要な決定や最終チェックは師匠が行う。そして何より、最終的な責任は人間が持つ。

例えば、顧客対応エージェントの場合。簡単な問い合わせには自動で回答するが、クレームや複雑な要求は人間にエスカレーションする。返金や補償の判断は必ず人間が行う。エージェントは提案はするが、最終決定は人間の承認が必要だ。

タスクの重要度に応じた自律性レベル

タスクの重要度に応じて自律性のレベルを変えることが重要だ。すべてを同じレベルで扱うのは危険だし、非効率でもある。

最も基本的な完全自動レベルでは、定期的なレポート作成やデータのバックアップ、システムの監視といったルーチンタスクを完全に自動化する。これらは失敗してもリカバリ可能で、影響が限定的なタスクだから、エージェントに完全に任せても問題ない。

一段階上の通知付き自動レベルでは、在庫の自動発注や定型的な顧客対応などを扱う。エージェントは自律的に行動するが、実行内容を人間に通知する。これにより、問題があれば人間がすぐに介入できる体制を保ちながら、日常業務の効率化を実現する。

さらに重要度が高い作業には承認後実行レベルを適用する。大きな購入、重要な顧客への提案、システムの大幅な変更などがこれに該当する。エージェントは詳細な提案を作成するが、人間の明示的な承認なしには実行しない。これにより、エージェントの分析力を活用しながら、最終的な責任は人間が持つという体制を維持できる。

最も慎重さが求められる場面では支援モードを使う。戦略立案、創造的な作業、倫理的判断が必要な場面では、エージェントは情報提供と提案に徹し、すべての判断と実行は人間が行う。これは、エージェントを優秀な助手として活用しながら、人間の判断力を最大限に活かすアプローチだ。

責任の所在を明確にする仕組み

エージェントシステムを運用する上で、責任の所在を明確にする仕組みが不可欠だ。

まず、すべての決定とその理由を記録する必要がある。エージェントが何を根拠に、どんな判断をしたのか、使用したデータ、適用したルール、考慮した要因をすべて追跡可能にする。これは法的な保護のためだけでなく、システムの改善にも役立つ。透明性のある記録は、問題が起きたときの原因究明を容易にし、同じ過ちを繰り返さないための貴重な学習材料となる。

次に、人間の承認プロセスを明文化することが重要だ。どのレベルの決定には誰の承認が必要か、緊急時の対応はどうするか、承認者が不在の場合の代理権限は誰にあるか。これらを事前に決めておくことで、責任の所在が曖昧になることを防げる。

そして、定期的な監査とレビューを行う必要がある。エージェントの判断が適切だったか、人間の介入が必要だった場面はなかったかを月次でレビューし、必要に応じてルールを更新する。この継続的な改善プロセスが、システムの信頼性を高めていく。

zenn.dev

人間のフィードバックによる継続的改善

エージェントは完璧じゃない。だからこそ、人間からのフィードバックを継続的に受け入れる仕組みが重要だ。

「この判断は良かった」「これは違う」という評価を積み重ねることで、エージェントは人間の価値観を学んでいく。単純な正解・不正解だけでなく、「技術的には正しいが、ビジネス的には不適切」といった微妙なニュアンスも理解できるようにするように修正すべき。

syu-m-5151.hatenablog.com

ブラックボックスを開ける

なぜ透明性が必要か

エージェントの「ブラックボックス」問題は、実は深刻だ。なぜその決定を下したのか分からないシステムを、どうやって信頼すればいいのか？

実際にあった話を紹介しよう。ある投資会社で、AIの推奨に従って大量の株を購入した。AIは過去のパターンから「買い」と判断したが、前例のない政治的な出来事を考慮できなかった。結果は大損失。後から分析しても、なぜAIがその判断をしたのか、完全には理解できなかった。

これは単なる技術的な問題じゃない。信頼の問題だ。人間は、理解できないものを信頼しにくい。特に、重要な決定に関わる場合はなおさらだ。

透明性の3つのレベル

ここで重要なのは、単に技術的な透明性じゃなくて、「認識論的透明性」だと思う。つまり、人間が理解できる形で説明できること。私は透明性を三つのレベルで考えている。

プロセスレベルの透明性 エージェントがどんな手順を踏んだかを示すこと。どのツールを使い、どんな情報を参照し、どんな推論をしたか。

例えば、市場分析を行うときには「まず過去3ヶ月の売上データを取得しました。次に競合5社の価格推移を調査しました。その後、季節要因を考慮して需要予測モデルを適用し、最後にこれらを総合して推奨価格を算出しました」というように、ステップバイステップで説明する。料理のレシピを見せるように、誰でも理解できる形で思考プロセスを開示することが重要だ。

意図レベルの透明性 そもそも何を達成しようとしているのかを明確にすること。同じデータを見ても、目的が違えば結論も変わる。

売上データを分析するときを考えてみよう。「異常を検出するため」という目的なら、エージェントは外れ値や急激な変化に注目する。「成長機会を探すため」なら、上昇トレンドや相関関係に注目する。「リスクを評価するため」なら、ボラティリティや下降要因に注目する。同じデータでも、意図によってまったく異なる分析になるのだ。

エージェントが「私は顧客満足度を最大化しようとしています」と言うのと「利益を最大化しようとしています」と言うのでは、全く違う行動につながる。この意図を明確にすることで、人間は適切な指示を出せる。

限界の透明性 これが意外と重要で、エージェントが「これはできません」「ここは自信がありません」と正直に言えることが、逆説的に信頼を生む。

完璧を装うシステムより、「この分析は70%の確信度です。過去のデータが少ないため、精度に限界があります」と説明してくれる方が信頼できる。また、「為替の影響は考慮していません。必要であれば、金融専門エージェントと連携します」といった形で、自分の限界を認識した上で代替案を提示できることも重要だ。時には「このタスクは私の専門外です。他のエージェントに引き継ぐことを推奨します」と、適切に判断を委ねることも必要になる。

医師が「わからない」と言える勇気を持つように、エージェントも自分の限界を認識し、それを伝える能力を持つべきだ。

説明可能性の実装

技術的には、エージェントの説明可能性を高めるいくつかのアプローチがある。

Chain of Thought（思考の連鎖）は、エージェントに段階的に考えさせ、その思考過程を出力させる手法だ。「まず...次に...したがって...」という形で、論理的な流れを明示することで、人間がエージェントの推論を追跡できるようになる。

関連性スコアの表示も有効だ。判断の根拠となった情報に、それぞれの重要度を数値で示す。「この要因が60%、この要因が30%、この要因が10%影響しました」といった形で、どの情報がどの程度判断に寄与したかを明確にする。

反事実的説明は、「もし〜だったら、結果は変わっていた」という形で説明を提供する手法だ。「もし在庫が20%多かったら、値下げを推奨していました」というように、条件が変わった場合の結果を示すことで、現在の判断の妥当性を理解しやすくする。

類似事例の提示も効果的だ。過去の似たケースを示して、判断の妥当性を説明する。「3ヶ月前の類似状況では、同じ判断をして成功しました」といった形で、経験に基づく判断であることを示すことができる。

エージェントに魂を吹き込む

なぜコンテキストが重要なのか

ここまでエージェントの自律性と透明性について話してきたが、これらを実現する上で最も重要な技術がコンテキストエンジニアリングだ。

考えてみてほしい。どんなに優秀な人でも、状況がわからなければ適切な判断はできない。会議に途中から参加して「で、どう思う？」と聞かれても、答えようがない。背景、目的、制約条件...これらの文脈（コンテキスト）があって初めて、意味のある貢献ができる。

エージェントも同じだ。どんなに高性能なLLMを使っていても、適切なコンテキストがなければ、的外れな回答しかできない。

プロンプトエンジニアリングからコンテキストエンジニアリングへ

エージェントシステムの設計において、最も重要な概念の転換が起きている。それは「プロンプトエンジニアリング」から「コンテキストエンジニアリング」への進化だ。

blog.langchain.com

プロンプトエンジニアリングは、単一のタスクを最適な形式でLLMに伝える技術だった。まるで料理のレシピを完璧に書くようなものだ。「材料はこれとこれ、手順は1、2、3...」と明確に指示する。

でも、実際の料理人の仕事を考えてみてほしい。その日の気温、湿度、食材の状態、お客様の好み、使える調理器具、時間の制約...これらすべてを考慮しながら、動的に判断していく。レシピは出発点に過ぎない。

コンテキストエンジニアリングは、まさにこの動的な判断を可能にする技術だ。エージェントに、その時々で必要な情報とツールを、ちょうど良いタイミングで提供し続ける。

エージェントが失敗する最大の原因は、適切なコンテキスト、指示、ツールがモデルに伝達されていないことだ。どんなに賢いエージェントでも、文脈なしには良い仕事はできない。

コンテキストエンジニアリングは「デジタル世界の建築学」

私は、コンテキストエンジニアリングを「デジタル世界の建築学」だと考えている。

物理的な建築が空間を設計するように、コンテキストエンジニアリングは情報の空間を設計する。どの情報をどこに配置し、どのタイミングでアクセス可能にするか。どの情報同士を近くに置き、どれを遠ざけるか。

良い建築が人の動線を自然に導くように、良いコンテキスト設計はエージェントの思考を自然に導く。必要な情報がすぐ手に入り、不要な情報に邪魔されない。これがエージェントの能力を最大限に引き出す。

コンテキストエンジニアリングの4つの戦略

コンテキストエンジニアリングの実践には、4つの基本戦略がある。これらは独立したものではなく、相互に関連し、組み合わせて使われる。

Write（書き込み）戦略 エージェントがタスクを実行する過程で得た情報や洞察を、コンテキストウィンドウの外部に保存する戦略だ。

人間がメモを取るように、エージェントも重要な情報を記録する。でも、ただ記録するだけじゃない。未来の自分（または他のエージェント）が理解しやすい形で構造化することが重要だ。

例えば、顧客分析を行ったときには、「顧客プロファイル：田中様」として、購買傾向は高品質志向でブランド重視、予算感は中〜高価格帯、過去のクレームとして配送遅延に敏感であること、そして推奨アプローチとして品質と信頼性を強調すべきことを記録する。このような構造化された記録があれば、次回の対応時に素早く文脈を把握できる。

Select（選択）戦略 必要な情報を動的に取得してコンテキストに追加する戦略だ。すべての情報を常に持ち歩くわけにはいかない。コンテキストウィンドウは有限のリソースだから。

図書館で本を探すように、必要な時に必要な情報だけを取り出す。でも、何が「必要」かを判断すること自体が高度な能力を要求する。

例えば、「新商品の価格設定」というタスクなら、競合商品の価格データ、ターゲット顧客の購買力データ、原価と利益率の情報、過去の類似商品の販売実績といった情報を選択的に取得する。一方で、在庫データや物流情報は、このタスクには不要なので取得しない。優れた選択は、ノイズを減らし、シグナルを増幅する。

Compress（圧縮）戦略 長大な会話履歴やツール出力を要約し、本質的な情報だけを保持する戦略だ。

1時間の会議の議事録を、5つの決定事項と3つのアクションアイテムに圧縮する。100ページのレポートを、1ページのエグゼクティブサマリーにする。

圧縮は単なる要約じゃない。それは情報の蒸留だ。ウィスキーを作るときのように、大量の原料から本質的なエッセンスだけを抽出する。何を残し、何を捨てるか。この判断が、圧縮の品質を決める。

Isolate（分離）戦略 複雑なタスクを小さな部分に分割し、それぞれに独立したコンテキストを提供する戦略だ。

例えば、「新規事業の立ち上げ」という巨大なタスクは、市場調査、競合分析、事業計画作成、資金調達、チーム編成といったサブタスクに分割できる。それぞれに必要なコンテキストは違う。市場調査には業界データが必要だが、チーム編成には人材データが必要だ。

一つの大きな混沌より、複数の小さな秩序の方が管理しやすい。分離は複雑さを飼いならす技術だ。

コンテキストの種類と管理

エージェントが扱うコンテキストは多様だ。それぞれが異なる性質を持ち、異なる管理方法を必要とする。

指示とプロンプト：エージェントの憲法 基本的な振る舞いを定義し、価値観を埋め込む。「顧客第一主義で行動する」「プライバシーを最優先する」といった根本的な指針。

これらは頻繁に変更すべきじゃない。コロコロ変わる憲法では、一貫性のある行動ができない。でも、必要に応じて慎重に進化させる必要はある。

会話履歴：短期記憶 現在進行中の対話の文脈を保持する。「さっき言った件だけど」と言われたときに、何の話か理解できるようにする。

でも、すべてを覚えている必要はない。人間だって、1週間前の雑談の詳細は覚えていない。重要なのは、関連性の高い情報を適切に保持すること。

ツールの説明：能力カタログ エージェントが使えるツールとその使い方を記述する。でも、ツールが増えすぎると選択が困難になる。

人間の道具箱を考えてみてほしい。よく使う道具は手前に、たまにしか使わない道具は奥に。同じように、ツールも使用頻度や重要度で階層化する必要がある。

作業メモリ：ワーキングスペース 現在のタスク実行中の中間状態を保持する。複雑な計算の途中結果、仮説、検討中の選択肢など。

人間が紙に計算式を書きながら問題を解くように、エージェントも作業メモリを使って思考を展開する。これがないと、複雑な推論ができない。

長期記憶：経験の蓄積 ユーザーの好み、過去の成功パターン、失敗から学んだ教訓。これらが積み重なることで、エージェントは単なるツールから、信頼できるパートナーへと成長する。

でも、記憶も整理が必要だ。古い情報、間違った情報、もう関係ない情報...これらを適切に忘却することも、良い記憶管理の一部だ。

コンテキストエンジニアリングの実践例

実際の例を見てみよう。カスタマーサポートエージェントのコンテキスト設計だ。

まず基本コンテキストとして、会社のサポートポリシー、製品の基本情報、よくある質問と回答を常に保持する。これらは変化が少なく、すべての対応で必要となる基礎的な情報だ。

次に動的コンテキストとして、顧客の購入履歴、過去の問い合わせ履歴、現在のキャンペーン情報などを必要に応じて取得する。これらは状況や顧客によって変わる情報で、パーソナライズされた対応を可能にする。

会話コンテキストはリアルタイムで更新される。現在の問い合わせ内容、顧客の感情状態、解決に向けた進捗などを追跡し、会話の流れに応じて適切な対応を選択できるようにする。

最後に圧縮されたコンテキストとして、過去の類似ケースの要約や成功した解決パターンを保持する。これにより、新しい問題に直面しても、過去の経験から素早く解決策を導き出せる。

この構造により、エージェントは適切な情報に基づいて、パーソナライズされた対応ができる。情報過多にもならず、情報不足にもならない。

コンテキストエンジニアリングの未来

コンテキストエンジニアリングは、今後さらに重要になっていく。エージェントが複雑化し、扱う情報が増えるにつれて、適切なコンテキスト管理がシステムの成否を分ける。

将来的には、コンテキストエンジニアが独立した専門職として確立されるだろう。建築家が物理空間を設計するように、コンテキストエンジニアが情報空間を設計する時代が来る。

そして、エージェント自身がコンテキストを最適化することも可能になるだろう。どの情報が有用で、どの情報が邪魔だったか。使用パターンから学習し、自動的にコンテキストを改善していく。

でも、最終的な設計思想は人間が持つべきだ。何を重視し、何を優先するか。これは技術的な問題じゃなく、価値観の問題だから。

実践的な設計アプローチ：MVAから始める

最小実行可能エージェント（MVA）の思想

ソフトウェア開発の世界で学んだ最大の教訓は「完璧を目指すな、まず動くものを作れ」ということだ。これをエージェントに応用したのがMVA（最小実行可能エージェント）の考え方だ。

リーン・スタートアップ

作者:エリック・リース
日経BP

Amazon

MVAは単純さの美学だ。複雑さは敵であり、シンプルさは力だ。最初から全知全能のエージェントを作ろうとすれば、必ず失敗する。代わりに、一つのことを確実にできるエージェントから始める。

例えば、最初は「FAQに答える」だけのシンプルなエージェントを作る。これが安定して動作し、ユーザーに価値を提供できることを確認する。そして重要なのは、実際のユーザーの使い方を観察することだ。開発者の想定と実際の使われ方は、しばしば大きく異なる。

次に「過去の問い合わせを参照する」機能を追加する。これによってエージェントは文脈を理解し始める。さらに「簡単な問題を自動解決する」機能を追加する。こうして段階的に成長させていく。

進化は革命より強い。小さな改善の積み重ねが、やがて質的な変化をもたらす。生物の進化と同じように、エージェントも環境との相互作用を通じて、より適応的な形へと変化していく。

モジュラリティと責任の明確化

エージェントシステムのモジュラリティは、単なる技術的な話じゃない。それは複雑さを管理し、理解可能性を保つための哲学的アプローチだ。

優れたモジュール設計は、音楽のオーケストラに似ている。各楽器（モジュール）は独自の音色と役割を持ちながら、全体として調和のとれた音楽を奏でる。バイオリンがトランペットの役割を担おうとしても、良い音楽は生まれない。同様に、各モジュールは自分の責任に集中すべきだ。

スキルモジュールは、エージェントの手足だ。特定の能力を提供し、実世界（デジタル世界）に働きかける。Web検索、データ分析、文書作成など、具体的なアクションを実行する。

メモリモジュールは、エージェントの記憶装置だ。情報を記憶し、必要に応じて提供する。しかし、単なるストレージではない。記憶の整理、関連付け、忘却までを管理する、生きたシステムだ。

プランニングモジュールは、エージェントの前頭葉だ。タスクを分解し、実行順序を決定し、リソースを配分する。複雑な問題に直面したとき、どこから手をつけるべきかを判断する知恵を提供する。

重要なのは、各モジュール間でのコンテキストの受け渡し方法だ。必要な情報だけを共有し、不要な情報でコンテキストを汚染しない。これは組織におけるコミュニケーションと同じだ。すべての情報を全員に共有すれば、情報の洪水で溺れてしまう。

失敗からの学習メカニズム

エージェントも人間と同じで、試行錯誤を通じて成長する。重要なのは、失敗を恥じることではなく、失敗から学ぶことだ。

Reflexionという手法は、この考え方を技術的に実装したものだ。エージェントが失敗したとき、単に「失敗した」で終わらせない。「なぜ失敗したんだろう？」と自問自答する。そして具体的な教訓を言語化して記録する。

例えば、ユーザーの要求を文字通りに解釈しすぎて失敗したとする。「簡潔に」と言われたので重要な詳細を省略してしまい、かえって分かりにくくなった。この経験から、「簡潔さと完全性のバランスを取る」という教訓を学ぶ。

失敗は教師であり、エラーは進化の原動力だ。完璧を求めて何もしないより、失敗を恐れずに挑戦し、そこから学ぶ方がはるかに価値がある。

失敗から学ぶためには、適切なコンテキストの保存が不可欠だ。何を試みて、どんな結果になり、なぜそうなったのか。これらの情報を構造化して保存し、将来の意思決定に活用する。単なるログではなく、経験の結晶化だ。

トイルの削減と自動化

エージェントシステムの大きな価値の一つは、トイル（繰り返し作業）の削減だ。人間が何度も繰り返す単調な作業をエージェントに任せることで、より価値の高い仕事に集中できる。

トイルとは、手動で行う繰り返し作業のことで、本来は自動化可能だが、まだ人間がやっているものを指す。これらは戦術的で長期的な価値を生まず、しかもサービスの成長に比例して作業量が増えていくという厄介な性質を持っている。毎朝のシステムチェック、定期レポートの作成、ルーチンのデータ整理などがその典型例だ。

エージェントはこれらを学習し、自動化し、人間を解放する。しかし重要なのは、単に自動化するだけでなく、プロアクティブな改善も行うことだ。エージェントは作業を実行しながら、「もっと効率的な方法はないか」「このステップは本当に必要か」と考え、改善提案を行う。これにより、単なる作業の自動化を超えて、プロセス全体の最適化が実現される。

マルチエージェントシステムとコンテキスト共有

なぜマルチエージェントが必要か

単一のエージェントですべてを処理しようとすると、すぐに限界が来る。これは人間の組織と同じだ。一人の天才より、専門性を持った複数の人が協力する方が、より大きな成果を生み出せる。

実際、Claudeにはsub agentという機能が実装され、この考え方が現実のものとなった。sub agentは特定のタスクに特化したAIアシスタントで、それぞれが独自のコンテキストウィンドウを持ち、専門的な作業を効率的に処理できる。

docs.anthropic.com

blog.langchain.com

sub agentの本質は、認知の分散化だ。人間の脳が異なる領域で異なる処理を行うように、エージェントシステムも専門性を持った複数のユニットが協調することで、より高度な知的活動を実現する。

例えば、コードレビューを専門とするエージェント、デバッグを専門とするエージェント、データ分析を専門とするエージェントといった形で、それぞれが特定の領域に特化している。これは単なる作業の分担ではなく、異なる思考パターンの共存を意味する。

sub agentの最大の利点はコンテキストの分離だ。メインの会話のコンテキストを汚染することなく、それぞれのタスクに集中できる。これは、人間が複雑な問題を解くときに、異なる視点を切り替えながら考えるのと同じだ。数学的に考えたり、直感的に考えたり、論理的に考えたりする、その切り替えをシステム的に実現している。

さらに重要なのは、sub agentがプロアクティブに動作できることだ。これは、優秀なチームメンバーが指示を待たずに必要な作業を先回りして実行するのと同じだ。システムが成熟するにつれて、各エージェントは自分の役割を理解し、適切なタイミングで自律的に行動するようになる。

しかし、マルチエージェントシステムの最大の課題は、各エージェントが適切なコンテキストを持つことだ。情報が不足していれば適切な判断ができないし、過剰な情報は混乱を招く。

これはデジタル世界における「伝言ゲーム」問題だ。情報が伝達される過程で歪み、本来の意図が失われる。あるエージェントが「売上を分析して」と言われたとき、それは前四半期との比較なのか、競合との比較なのか、地域別の分析なのか。文脈が失われれば、的外れな分析になってしまう。

効果的なコンテキスト共有の方法

マルチエージェントシステムにおけるコンテキスト共有は、情報の交響曲を奏でるようなものだ。各エージェントが持つ情報が適切に共有され、調和することで、単独では不可能な成果を生み出す。

sub agentシステムでは、各エージェントが独立したコンテキストウィンドウを持つことで、この理想に近づいている。メインのエージェントは全体の流れを把握し、各sub agentは自分の専門領域に深く潜る。この階層的なコンテキスト管理により、情報の混乱を防ぎながら、必要な深さの分析が可能になる。

共有メモリパターンは、中央の図書館のようなものだ。重要な情報を一箇所に集め、各エージェントが必要に応じて参照する。しかし、すべての本を全員が読む必要はない。インデックスとメタデータが重要だ。何がどこにあるかを知ることで、必要な情報に素早くアクセスできる。

メッセージパッシングは、手紙のやり取りのようなものだ。エージェント間で必要な情報だけを直接やり取りする。送り手は受け手が何を必要としているかを理解し、適切にパッケージングする必要がある。良いメッセージは、短く、明確で、行動可能だ。

ハンドオフプロトコルは、リレーのバトンパスのようなものだ。タスクを引き継ぐ際に、これまでの経緯、現在の状態、次にすべきことを明確に伝える。単に「これをやって」ではなく、「なぜこれが必要で、今までに何を試みて、どんな制約があるか」を伝える。優れたハンドオフは、シームレスな継続を可能にする。

sub agentの登場により、このコンテキスト共有はより洗練されたものになった。各エージェントが自分の文脈を保持しながら、必要な情報だけを交換する。これは、専門家チームが効率的に協働する理想的な形に近い。

Sub Agentという思想

sub agentの設計思想は、専門性と責任の明確化にある。これは単なる機能分割ではなく、認知の本質に関わる深い洞察を含んでいる。

人間の思考を観察すると、私たちは常に異なる「モード」を切り替えながら考えている。分析的に考えるとき、創造的に考えるとき、批判的に考えるとき、共感的に考えるとき。これらは同じ脳の中で起きているが、それぞれ異なる神経回路が活性化している。

sub agentは、この認知の多様性をシステム的に実現する試みだ。各エージェントは、特定の「思考の型」を体現する。それは単に異なるタスクを実行するのではなく、異なる視点から世界を見る。

例えば、品質を重視する視点、効率を重視する視点、セキュリティを重視する視点、ユーザビリティを重視する視点。これらは時に対立することもあるが、その対立こそが健全な判断を生む。一つの視点に偏ることなく、多面的な検討が可能になる。

さらに深い意味で、sub agentは分散化された知性の実験でもある。単一の巨大な知性ではなく、専門化された複数の知性が協調することで、より柔軟で適応的なシステムを作る。これは、生物の進化が単細胞から多細胞へと進んだプロセスにも似ている。

各sub agentは、限定された権限と視野を持つ。しかし、その限定こそが深い洞察を可能にする。すべてを見ようとすれば何も見えない。特定の側面に集中することで、その領域の微細な変化や重要なパターンを捉えることができる。

Sub Agentの協調と創発

さらに高度な使い方として、複数のsub agentを連鎖的に協調させることもできる。これは、異なる専門性を持つエージェントが、より大きな目標に向かって協力するプロセスだ。

問題を発見する視点、原因を分析する視点、解決策を実装する視点、結果を検証する視点。これらが順番に、あるいは同時並行的に働くことで、単一のエージェントでは不可能な深い問題解決が可能になる。

これは現実の知的労働のプロセスと同じだ。研究者が仮説を立て、実験者がそれを検証し、分析者が結果を解釈し、著述者がそれを文書化する。各段階で異なる思考様式が必要であり、それぞれに特化したエージェントが最適な処理を行う。

興味深いのは、このような協調から予期しない創発的なパターンが生まれることだ。あるエージェントの出力が、別のエージェントにとって新しい視点を提供し、それがさらに第三のエージェントの創造的な解決策につながる。これは計画されたものではなく、システムの中から自然に生まれる知性だ。

現在のsub agentシステムは、このような高度な協調の第一歩に過ぎない。しかし、すでに小規模な創発現象は観察されている。複数の専門性が交差する点で、新しい洞察が生まれる瞬間を目撃することができる。

Sub Agentの設計哲学

sub agentを効果的に活用するには、いくつかの重要な設計哲学がある。

まず、単一責任の原則だ。各エージェントは一つの明確な責任を持つべきで、その責任に完全に集中する。これは単純化のためではなく、深い専門性を実現するためだ。浅く広い知識より、狭く深い専門性の方が、実際の問題解決では価値がある。

次に、最小権限の原則が重要だ。各エージェントには、その役割を果たすために必要な最小限の権限だけを与える。これはセキュリティの観点だけでなく、認知的な明確さのためでもある。限定された権限は、限定された責任を意味し、それが明確な思考につながる。

文脈依存の自律性も重要な概念だ。エージェントは、適切な文脈で自動的に起動し、自律的に行動する。しかし、この自律性は無制限ではない。明確に定義された境界の中で、最大限の自由を発揮する。これは、信頼できる専門家に仕事を任せるときの原則と同じだ。

継続的な進化も忘れてはいけない。sub agentは静的な存在ではなく、使用を通じて進化する。フィードバックを受け、パフォーマンスを改善し、新しい状況に適応する。これは、生きたシステムとしてのエージェントの本質を表している。

最後に、協調的な独立性という一見矛盾した概念が重要だ。各エージェントは独立して動作するが、より大きな目標に向かって協調する。オーケストラの各楽器が独立した音を出しながら、全体として美しい音楽を奏でるように。

創発的な振る舞いへの対処

マルチエージェントシステムの魅力的な特性として、個々のエージェントの単純な相互作用から、予想外の複雑なパターンが生まれることがある。これを創発と呼ぶ。

創発は自然界でも見られる現象だ。アリの群れが複雑な巣を作り、鳥の群れが美しい編隊を組む。個々のアリや鳥は単純なルールに従っているだけなのに、全体として驚くべき知性を示す。

sub agentシステムにおいても、各エージェントが自分の専門領域で最善を尽くすことで、予想外の相乗効果が生まれることがある。あるエージェントの洞察が、別のエージェントにとって新しい視点となり、それがさらに第三のエージェントの創造的な解決策を触発する。

この創発は、計画された協調を超えた何かだ。設計者が意図しなかった、しかし有用な振る舞いが自然に生まれる。それは、異なる専門性が交差する境界で起きる化学反応のようなものだ。

重要なのは、創発的な振る舞いを観察し、評価し、必要なら介入する仕組みを持つことだ。創発は素晴らしいイノベーションを生むこともあれば、システムを不安定にすることもある。賢明な庭師のように、成長を見守りながら、必要に応じて剪定する。

現段階では、エージェント間の予期しない協調パターンを観察し、それが価値を生んでいれば、新しい標準的なワークフローとして定式化するアプローチが有効だ。偶然の発見を意図的な設計に昇華させることで、システムの能力を着実に向上させることができる。

sub agentシステムは、より大規模で複雑な創発現象への第一歩だ。個々の専門性が保たれながら、全体として新しい知性が生まれる可能性を秘めている。

エージェントたちの民主的意思決定

なぜサンガが必要か

エージェントシステムが成長し、自己改善能力を持つようになると、根本的な問題に直面する。「誰が何を決めるのか」という問題だ。

コード・ブッダ　機械仏教史縁起 (文春e-book)

作者:円城塔
文藝春秋

Amazon

現在のsub agent機能では、人間が各エージェントの役割と権限を定義している。しかし、将来的にエージェントがより自律的になったとき、エージェント同士が協調して意思決定する仕組みが必要になるかもしれない。

中央集権的な制御では柔軟性に欠ける。一人の独裁者がすべてを決めるシステムは、その独裁者の限界がシステムの限界になる。一方、完全な自律では暴走のリスクがある。各エージェントが勝手に判断すれば、システム全体の一貫性が失われる。

サンガ（Sangha）は、この二つの極端の間にある第三の道だ。仏教用語で「僧侶の共同体」を意味するこの言葉を、私はエージェントシステムの集団意思決定機構として再定義した。ただし、これはまだ実験的な概念であり、実装には多くの技術的・倫理的課題が残されている。

github.com

サンガはデジタル民主主義の実験場だ。エージェントたちが議論し、投票し、合意を形成する。人間の民主主義が何世紀もかけて洗練させてきた知恵を、デジタル世界に実装する試みだ。

現状では、sub agentのような仕組みで十分かもしれない。しかし、エージェントの能力が向上し、より複雑な協調が必要になったとき、サンガのような民主的な意思決定機構が重要になる可能性がある。

サンガの基本機能

サンガは生きた組織だ。固定的なルールに縛られるのではなく、状況に応じて進化する。以下は、将来的に実現可能かもしれない機能の構想である。

議題提案の機能により、どのエージェントも改善提案や新しいルールの制定を提案できる。これはイノベーションの民主化だ。良いアイデアは、どこから来てもおかしくない。新人エージェントの新鮮な視点が、システム全体を変革することもある。

議論の過程では、各エージェントが専門的観点から意見を述べる。フロントエンドエージェントはユーザビリティの観点から、セキュリティエージェントは安全性の観点から、パフォーマンスエージェントは効率性の観点から。多様な視点の衝突が、より良い解決策を生む。

投票と決定のプロセスは、単なる多数決ではない。議論の質、提案の実現可能性、潜在的なリスクなど、多面的な評価を経て決定される。時には少数意見が正しいこともある。重要なのは、決定プロセスの透明性と、結果への責任だ。

実装と遵守の段階では、決定事項が全エージェントによって実行される。しかし、盲目的な服従ではない。実装の過程で問題が見つかれば、それをフィードバックする仕組みがある。サンガは学習する組織だ。

サンガがもたらす価値

以下は、サンガが実現した場合に期待される価値である。現時点では検討段階にある。

サンガによる意思決定は、単なる効率化のツールではない。それはエージェントシステムに魂を吹き込む仕組みだ。

集合知の活用により、個々のエージェントの限界を超えた判断が可能になる。一人の専門家より、多様な専門家の協議の方が、より包括的な視点を提供する。しかし、これは単なる知識の足し算ではない。相互作用により、新しい洞察が生まれる。

透明性の確保は、信頼の基盤だ。すべての決定プロセスが記録され、後から検証可能になる。なぜその決定がなされたのか、どんな議論があったのか、誰がどんな意見を述べたのか。歴史を持つシステムは、未来を持つシステムだ。

柔軟な進化により、環境の変化に適応できる。固定的なルールは、変化する世界では足枷になる。サンガは、必要に応じてルールを更新し、新しい状況に対応する。生き残るのは最も強い種ではなく、最も適応力のある種だ。

正統性の維持は、システムの安定性につながる。独裁的な決定は反発を生むが、民主的な決定は受け入れられやすい。たとえ自分の意見が通らなくても、公正なプロセスを経た決定なら従いやすい。プロセスの正統性が、結果の正統性を生む。

しかし、これらを実現するには、まだ多くの技術的・倫理的課題を解決する必要がある。現時点では、sub agentのような実装可能な技術を活用しながら、将来の可能性を模索している段階だ。

エージェントとの共進化

人間の役割の変化

エージェントシステムの発展は、人間の役割を根本的に変える。しかし、それは置き換えではなく、能力の拡張と役割の進化だ。

かつて、計算機の登場で人間は計算から解放され、より高度な数学的思考に集中できるようになった。同様に、エージェントの登場で人間はルーチンワークから解放され、より創造的で戦略的な仕事に集中できる。

トイルからの解放は、単に楽になるということではない。それは人間の潜在能力を解き放つことだ。定期レポートの作成、データ入力、ルーチンのチェック作業...これらに費やしていた時間を、新しいアイデアの探求、イノベーションの推進、人間関係の構築に使える。

人間の新しい役割の一つは、意図の設計者だ。何を達成したいかを明確に定義し、それをエージェントが理解できる形で表現する。これは単なる命令ではない。ビジョンを描き、価値観を埋め込み、方向性を示すことだ。

もう一つの重要な役割は、倫理的判断者だ。技術的に可能なことと、すべきことは異なる。エージェントは効率的な解を見つけられるが、それが正しい解かどうかは人間が判断する必要がある。できることとすべきことの間にある深淵を橋渡しするのが、人間の責任だ。

そして、創造的探索者としての役割も重要だ。エージェントは既知のパターンを学習し、最適化できる。しかし、真に新しいアイデア、パラダイムシフトを起こすような発想は、人間の領域に留まる。エージェントが思いつかない問いを投げかけ、新しい可能性を探索する。

このように、エージェントの進化は人間を不要にするのではなく、人間をより人間らしくする。機械的な作業から解放され、創造性、共感、戦略的思考といった、人間固有の能力を最大限に発揮できるようになる。

コンテキストエンジニアリングの進化

コンテキストエンジニアリングは、今後さらに重要性を増していく。エージェントシステムが複雑化するにつれ、適切なコンテキスト管理がシステムの成否を分ける決定的な要因となる。

将来的には、コンテキストエンジニアリングが独立した専門分野として確立されるだろう。建築家が物理的な空間を設計するように、コンテキストエンジニアが情報の空間を設計する。どの情報をどこに配置し、どのように流通させ、どのタイミングでアクセス可能にするか。これらの設計が、エージェントシステムの性能を左右する。

コンテキストエンジニアは、情報の詩人でもある。大量の情報を、エージェントが理解しやすい形に編集し、構造化する。不要な情報を削ぎ落とし、本質を浮かび上がらせる。それは科学であると同時に芸術でもある。

また、コンテキストエンジニアリングは動的な分野だ。エージェントの能力が向上すれば、より高度なコンテキスト管理が可能になる。新しいツールや手法が開発され、より効率的で効果的な方法が生まれる。常に学び続け、進化し続ける必要がある。

エージェント向けの世界設計

Software 3.0の時代では、世界そのものがエージェント向けに再設計される必要がある。これまで人間向けに作られてきたインターフェースやシステムが、エージェントフレンドリーなものへと進化していく。

llmstxt.org

これは単なる技術的な変更ではない。世界観の転換だ。道路が自動車のために設計されたように、デジタル世界もエージェントのために設計される。しかし、それは人間を排除することではない。むしろ、人間とエージェントが共に生きやすい世界を作ることだ。

例えば、ウェブサイトは人間が読むためのHTMLと、エージェントが理解するための構造化データの両方を提供する。APIは人間の開発者にとって使いやすく、同時にエージェントが自動的に理解し利用できるように設計される。

情報のアクセシビリティも重要だ。視覚障害者のためのスクリーンリーダー対応と同じように、エージェントのための情報アクセシビリティが標準となる。すべての情報が、エージェントにとって発見可能で、理解可能で、利用可能になる。

この変化は、新しい仕事や産業を生み出す。エージェント向けのコンテンツ作成、エージェント体験の設計、エージェントと人間の仲介など。エージェントエコノミーとでも呼ぶべき新しい経済圏が形成される。

さいごに

AIエージェントシステムの設計において最も重要なのは、コンテキストエンジニアリングを中心に据えた実践的なアプローチだ。それは単なる技術的な手法ではなく、エージェントに魂を吹き込む芸術だ。

MVAから始め、段階的に機能を追加し、適切なコンテキスト管理を行う。小さく始めて大きく育てる。これは自然の摂理に従った、最も確実な成長の道だ。

マルチエージェントシステムでは、効果的なコンテキスト共有の仕組みを設計する。情報の交響曲を奏でるように、各エージェントの知識と能力を調和させる。そして、サンガのような民主的意思決定機構により、個の成長と全体の調和のバランスを保つ。

技術は急速に進化している。しかし、人間中心の設計思想と段階的な実装アプローチは今後も有効だ。そして何より、適切なコンテキスト管理こそが、エージェントシステムの成功の鍵となる。

www.oreilly.com

プログラミングの定義は変わりつつある。コードを書くことから、意図を設計することへ。命令することから、協働することへ。しかし、良い意図を持ち、それを適切に表現し、システムに実装する能力の価値はむしろ高まっている。

私たちは今、人間とAIが真に協働する新しい時代の入り口に立っている。エージェントは道具であると同時に、新しい形の知的存在でもある。この両面性を理解し、適切に設計し、共に成長していくことが、これからの私たちの課題だ。

現実的には、sub agentのような実装可能な技術から始めて、段階的に高度な協調メカニズムへと進化させていくことになるだろう。サンガのような民主的意思決定機構は、まだ実験的な概念だが、エージェントシステムの未来の一つの可能性を示している。

エージェントとの共進化は、人類の次なる進化かもしれない。それは生物学的な進化ではなく、文化的、知的、そして精神的な進化だ。私たちがエージェントを育て、エージェントが私たちを高める。この相互作用の中で、両者とも今まで到達できなかった高みへと昇っていく。

未来は不確実だ。しかし、一つ確かなことがある。私たちが作るエージェントシステムが、私たちの未来を形作るということだ。だからこそ、慎重に、思慮深く、そして希望を持って、この新しい世界を設計していく必要がある。

現実的な技術と理想的な概念の両方を視野に入れながら、将来像を考えながらバランスの取れた発展を目指すべきだ。技術的に可能なことと、倫理的に望ましいことの間で、常に適切な判断を下していく必要がある。

これが2025年夏の、私のAIエージェントシステムに対する考え方だ。