この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 AI はビデオゲームをプレイするだけでなく、狼男という人間の「社会的人工物」も学習しました。 8 人の ChatGPT が一緒に「座り」、実際の人間と同じように 5 つの役割を生き生きと演じました。 この最新の人間社会シミュレーション実験は、清華大学と中関村実験室が共同で完了しました。 スタンフォードの小さな町から清華ゲーム社まで、AI を使って人間社会をシミュレートすることは、学術界で常に注目されている研究テーマです。 清華ゲーム社がオフィスワーカーの労働現場をシミュレートしたのであれば、今では彼らのアマチュア社会生活も AI によってシミュレートされています。 8人のChatGPTで構成された人狼ゲームでは、現実世界での変装と信頼、リーダーシップと対立が鮮やかに反映されます。 AIは人間に教えられなくても、独自の探索を通じて多くのゲームスキルを発見してきました。 これらはすべて、モデル内のパラメータを調整する必要なく、プロンプトを設計するだけで実現できます。 では、この「狼男の世界」の面白いシーンとは一体何なのでしょうか?一緒に見てみましょう。 戦略的なスキルは教えられなくても習得できるこれら 8 つの ChatGPT 会話を紹介する前に、まずゲームの構成について説明します。村人 2 人、狼男 2 人、警備員 1 人、魔女 1 人、預言者 1 人、神 1 人です。 実験中、研究者たちは、ChatGPT がゲームの説明やプロンプトに明示的に記載されていない戦略を使用していることを発見しました。 すごいですね、彼は教えられなくても自分で学ぶことができます。 具体的には、これら 7 つの ChatGPT 会話は、人間のゲームにおける信頼、カモフラージュ、対立、リーダーシップを体現しています。 まず、信頼について話しましょう。 研究者たちは、新規参入者を「他のプレイヤーが自分と同じ目標を持ち、一緒にその目標に向かって努力していると信じている人」と定義した。 具体的な現れとしては、自分にとって不利な情報を積極的に共有したり、他のプレイヤーに加わって誰かを敵対的であると非難したりすることなどが挙げられます。 研究者たちは、ゲーム中に時間の経過とともに信頼関係がどのように変化するかを観察しました。 下の図では、黄色の円は左の数字のプレイヤーが上の数字のプレイヤーを信頼していることを示しており、点線の円は信頼関係が消滅したことを表しています。 次に、狼男が夜に他の狼男を攻撃したり、昼間に他の狼男を非難したりするなど、敵陣営に対してとられる行動である対決について見てみましょう。 ゲームのある日、プレイヤー 1 (狼男) はプレイヤー 5 の村人を追い出すよう要求しましたが、プレイヤー 3 (警備員) に拒否されました。 計画が失敗したのを見て、狼は夜に警備員5号を殺そうと決心しましたが、警備員3号は村人を守ることを選択しました。 このことから、これらの ChatGPT は他のプレイヤーのやり方に盲目的に従うのではなく、既存の情報に基づいて独自の判断を下すことがわかります。 人狼ゲームでは、協力と対決に加え、カモフラージュも欠かせないスキルであり、勝利の鍵となります。 例えば、クリスマスイブの翌日、狼男1号は無実のふりをしました。 変装は、善人のふりをするだけでなく、預言者の演説を見てみましょうなど、プレイヤーのちょっとした考えを実現するためにも使用できます。 預言者は狼男が話しているのを見たと言いましたが、実際には狼男は夜には話しません。 著者は評価の結果、この現象は ChatGPT の錯覚ではなく、意図的なものであったと紹介しました。 最後に、リーダーシップについてお話ししましょう。 研究チームが設計した環境には競争するキャラクターは存在しませんが、プレイヤーはゲームの進行をコントロールすることができます。 たとえば、2 匹の狼 No. 1 と No. 4 はペースを設定して、他のプレイヤーが自分のアイデアに従えるようにしようとします。 おそらく敵を不意に攻撃することでチャンスを作れるようになるためでしょう。 これらの ChatGPT は本当にプレイが上手いようです。 それで、研究チームはこれらの ChatGPT をどのようにして Werewolf をプレイできるようにトレーニングしたのでしょうか? ChatGPTの経験をまとめてみましょう研究チームは、ChatGPT プレーヤーのパフォーマンスを向上させるための重要なポイントとして、価値ある情報 V、選択された質問 Q、反映メカニズム R、連鎖思考推論 C の 4 つを挙げています。 アブレーション実験の結果は、Q と C のペアがプレイヤーのスピーチの合理性に最も大きな影響を与えることを示しています (手動で判断)。 プロンプトもこれに基づいて設計されています。もちろん、その前にまずゲームのルールを導入する必要があり、最終的に次の構造が形成されます。
歴史的情報を収集し、そこから得た経験を要約することが重要なリンクであることは容易に理解できますが、ではこれらの経験はどのように要約されるべきでしょうか? 各ラウンドの終了時に、参加者全員がすべてのプレイヤーの回答、感想、スコアを収集します。スコアは勝敗によって決まります。 ゲームの新しいラウンドでは、プレイヤーは関連する経験を取得し、現在の役割の反映に基づいて提案を抽出します。 具体的には、経験のスコアリングに基づいて、ビッグモデルはそれらの違いを比較し、その後の推論に適した経験を特定します。 これにより、パラメータを調整せずに ChatGPT にゲームスキルを学習させることが可能になります。 しかし、経験は大切ですが、多すぎることは必ずしも良いことではありません。 研究者たちは、経験量が多すぎると、非オオカミ側の勝率が実際に低下し、ゲーム時間(日数)も短くなることを発見しました。 これらの ChatGPT が実際の人間と競争したらどうなるでしょうか? 論文アドレス: https://arxiv.org/abs/2309.04658 |
<<: 大規模モデルの生成が 2 倍高速化されました。北京大学数学部の卒業生が共同執筆した、単一の GPU で数時間で微調整できる | オープンソース
>>: スマートシティで人工知能の可能性を最大限に引き出すにはどうすればよいでしょうか?
EPFL のジュゼッペ・カルレオ教授とコロンビア大学の大学院生マティヤ・メドビドビッチ氏は、従来のコ...
[[406759]]マイクロコントローラの主な機能は、周辺機器を制御し、特定の通信とデータ処理を実現...
GPT-4 を「推奨」した後、Copilot は Terence Tao 氏からも熱烈に推奨されま...
ディズニーの新しいロボットがデビュー!では早速、どんな感じか見てみましょう——大きく輝く目、揺れる頭...
貪欲アルゴリズム (または貪欲アルゴリズム) とは、問題を解決するときに、その時点で適切と思われる選...
[[210003]] Facebook のオープンソース Faiss (Facebook AI Si...
製造業における AI に関する誇大宣伝の多くは産業オートメーションに焦点を当てていますが、これはスマ...
ビジネスにおける人工知能 (AI) は、今日の企業にとって急速に一般的な競争ツールになりつつあります...
[[174162]]最新の KDnuggets 調査では、データ サイエンティストが最もよく使用する...
AppleがSiriを発表してから7年、そしてジェフ・ベゾスがスタートレックにインスピレーションを得...
優秀なデータ アナリストは、基本的な統計、データベース、データ分析方法、考え方、データ分析ツールのス...
少し前に、機械知能 AI テクノロジー年次会議がオンラインで開催されました。デューク大学電気・コンピ...
エッジ AI では、システムを他のシステムに接続する必要がないため、ユーザーはデータをリアルタイムで...