計算ソフトウェアエージェントが、信じられるような人間の行動をシミュレートする世界を想像してみてください。AIアーティストが絵を描き、作家が文章を書き、これらのAIエージェントが意見を形成し、会話を開始し、記憶が高次の考察に統合され、行動を計画する世界です。これが生成エージェントの世界です。この記事では、生成エージェントを紹介する画期的な論文と、それがゲームの未来やその他のアプリケーションに与える影響について探ります。
論文の概要
スタンフォード大学とGoogleによる「生成エージェント:人間行動のインタラクティブなシミュラクラ」というタイトルの、興味深い新しい論文では、信じられるような人間の行動をシミュレートする計算ソフトウェアエージェントである、生成エージェントを紹介しています。研究者たちは、それぞれが独自の個性を持つ25の生成エージェントを配置した、シミュレートされた世界を作成しました。
これらのエージェントは、人間のように目を覚まし、朝食を作り、仕事に行き、意見を形成します。興味深いのは、これらのエージェントが過去の日々を記憶し、振り返り、自分が持っていたインタラクションの記憶を使って、次の日を計画することです。これらのエージェントはすべて、大規模言語モデルによって駆動されており、そのアーキテクチャは、大規模言語モデルを拡張して、エージェントの経験の複雑な記録を自然言語を使用して保存します。
エージェントは、人間のように、信じられるような個人的および創発的な社会的行動を生み出します。この研究は、ビデオゲーム業界に大きな影響を与えます。ビデオゲームのノンプレイアブルキャラクター(NPC)が、独自のキャラクターと個性を持つことができ、プレイヤーとより自然にインタラクションできるようになるからです。
シミュレーション環境:スマートビル
著者らは、「ザ・シムズ」という人気ゲームに触発された、スマートビルと呼ばれる小さなサンドボックスの世界をシミュレートしました。スマートビルは、共同生活空間、家、カフェ、バー、店、公園、大学、食料品店、薬局で構成されています。アイデアは、AIエージェント間でどのように社会的行動が生まれるかを探求することでした。
エージェントのアーキテクチャには、3つの主要なコンポーネントが含まれていました。
- 記憶ストリーム:エージェントの経験を記録します。
- リフレクション:記憶を高次の推論に統合します。
- 計画:結論を実行計画に変換します。
これらのリフレクションと計画は、エージェントの将来の行動に影響を与え、エージェントが独立して行動できるようにします。
ゲーム内イベントとインタラクションの作成
生成エージェントは、ゲーム内イベントとインタラクションを作成するプロセスを簡素化できます。たとえば、バレンタインデーのパーティーのために複数のキャラクターの行動を手動でスクリプト化する代わりに、1人のエージェントにパーティーを開きたいと伝えるだけで十分です。これらのエージェントは互いに独立してインタラクションでき、環境はパーティーについて広め、姿を現すことに成功しました。1人のエージェントは、別のエージェントをパーティーにデートに誘うことさえしました。これらはすべて、ユーザーが生成した1つのシード提案から生まれました。
エージェントの個性とインタラクション
著者らは、各エージェントのアイデンティティ(職業や他のエージェントとの関係など)を自然言語で1段落で記述しました。これらの記述は、エージェントのシードメモリとして機能します。たとえば、ジョン・リンは、次のように、薬局の店主として説明されています。
「ジョン・リンは、ザ・ヴィト・マーケット・アンド・ファーマシーの薬局の店主で、人々を助けるのが大好きです。彼は常に、顧客が薬を手に入れるプロセスを簡単にする方法を探しています。」
これらのエージェントと世界との、そしてエージェント同士のすべてのインタラクションは、自然言語を介して行われます。タイムスタンプごとに、エージェントは現在の行動を説明する自然言語のステートメントを出力します。これは現在の動きに変換され、サンドボックスインターフェイスに一連の絵文字として表示されます。
エージェントの制御と操作
これらのAIエージェントは独立しており、そのインタラクションは有機的に発生しますが、ユーザーもある程度の制御が可能です。ユーザーがゲームとインタラクションできる方法は2つあります。
- 会話を通じてエージェントとコミュニケーションを取ります。
- エージェントの行動を制御する、内なる声の形式で、エージェントに指示を出します。
たとえば、ユーザーがジョンの内なる声として「次の選挙でサムと対戦するつもりだ」と伝えると、ジョンは出馬することを決定し、妻と息子に立候補を伝えます。これは、ユーザーがこれらのエージェントの環境と行動を制御および操作できる方法を示しています。
エージェントの1日
エージェントの1日は、1つの段落の説明から始まり、その行動は、互いに、そして世界とインタラクションするにつれて進化します。たとえば、ジョナサンは約午前7時に起床し、歯を磨き、シャワーを浴び、朝食を準備して食べ、ダイニングテーブルでニュースをチェックします。彼の息子エディが目を覚まし、彼らは一日を始める前に短い会話をします。
エージェントの行動は、他のエージェントとのインタラクションに基づいて変化します。エージェントのアーキテクチャは、各エージェントの行動を制御し、環境を認識し、認識を記憶ストリームに保存できるようにします。行動を実行する必要がある場合、記憶ストリームから情報を取得し、その情報に基づいて次の行動を計画します。保存された記憶は、エージェントの行動を変化させるためにも使用され、過去の記憶を振り返り、環境や他のエージェントとのインタラクションを調整できます。
現実世界のアプリケーション
ゲームやNPCとは別に、生成エージェントには現実世界のアプリケーションがあります。たとえば、気難しい人や個性的な人との面接を準備している場合、AIエージェントを使用してその行動をシミュレートし、インタラクションできます。これは、面接やその他の社交的な状況に備えるのに役立ちます。
オンラインデモ
オンラインデモはリアルタイムではなく、以前に発生したシミュレーションの事前計算されたリプレイを表示しますが、インタラクションやさまざまなエージェントのアクティビティを確認できます。25人の異なるエージェントの1人を選択し、特定のエージェントが特定の時間に何をしているかを確認できます。この魅力的な研究は、ゲーム業界と、私たちがさまざまなAIエージェントとインタラクションする方法を変える可能性を秘めており、可能性のまったく新しい世界を切り開きます。
https://reverie.herokuapp.com/arXiv_Demo/
結論として、生成エージェントはAIの世界における大きな進歩を表しており、信じられるような人間の行動がシミュレートされ、インタラクティブになる未来を垣間見ることができます。このテクノロジーは、ゲームやその他のアプリケーションに革命をもたらし、AI主導のエクスペリエンスとインタラクションのための無限の機会を提供することが期待されます。
研究論文
https://arxiv.org/pdf/2304.03442.pdf