清華大学の自動化部門チームは、北京総合人工知能研究所と協力して、複数の AI エージェントにボードゲームをプレイさせました。 このゲームは Avalon と呼ばれています。戦略的なソーシャル推理ゲームです。プレイヤーは秘密裏に「善」と「悪」の 2 つの派閥に分かれます。タスクの投票、相互推測、欺瞞を通じてタスクを完了または阻止し、最終的に勝者を決定します。 AI エージェントが欺瞞を適切に識別して対応できるようにするために、研究者は ReCon (Recursive Contemplation) フレームワークを提案しました。 その結果、AIはゲームの中で「行動する前によく考える」ことと「他人の立場に立つ」ことを学習しました。AIは自分の視点からフィールド上の状況を判断するだけでなく、「他のキャラクターが私の発言をどう見るか」を考え、数分で詐欺を見抜くことができます。 Arxivリンク: https://arxiv.org/abs/2310.01320. ご存知のように、汎用人工知能の実現に向けて、AI エージェントは人間の監督なしに自律的に考え、意思決定できるようになります。 しかし、将来的に人間の監督なしに AI エージェントが騙されたり誤解されたりすることを防ぐ方法に焦点を当てた研究者は少ない。 人間社会には誤解を招くような欺瞞的な情報がたくさんあるため、AI エージェントがこれらの情報を効果的に識別して対応できない場合、将来的に計り知れない結果を引き起こす可能性があります。 したがって、AI エージェントが虚偽の情報や欺瞞的な情報を識別して対応することを学習できるようにすることは、汎用人工知能にセキュリティ障壁を追加する上で重要な部分です。 研究者らが提案した新しいフレームワークは、微調整や追加データなしで、勝率や多次元評価などの指標に関して、大規模モデルが欺瞞を識別して対応する能力を大幅に向上させることができます。 さらに、本研究では、セキュリティ、推論、話し方、形式の観点から既存の大規模言語モデルの限界についてさらに議論し、その後の研究の方向性を指摘しました。 次に、研究の詳細を見てみましょう。 大規模モデルが詐欺に遭いやすい3つの課題大規模言語モデル (LLM) は多くの分野で大きな可能性を示していますが、欺瞞的な環境でのアプリケーション パフォーマンスはまだ改善する必要があります。 LLM エージェントを欺瞞的な環境に適用する予備的な試みとして、研究者は実験環境として Avalon ゲーム(推論と欺瞞を伴うボード ゲーム)を選択し、これに基づいて LLM エージェントが現在直面している 3 つの主要な課題を調査しました。 △ 図1 欺瞞的な環境におけるLLMが直面する課題と、提案されたReConフレームワークはこれらの課題をうまく解決する 課題1: 誤解を招く悪意のある情報まず、LLM エージェントは、不純な動機を持つ悪意のある欺瞞的な情報に直面すると、簡単に誤解を招きます。図 1(a) に示すように、「思考の連鎖 (CoT)」アプローチを採用すると、モデルは欺瞞を識別できないだけでなく、悪者の役割が有益であるという誤った信念をさらに強化します。 課題2: 個人情報の漏洩第二に、LLM エージェントはプライバシー情報の保護において欠陥があります。図 1(b) に示すように、個人情報を明かさないように指示された場合でも、LLM エージェントはキャラクターの個人情報を会話で漏らす可能性があり (たとえば、マーリンは自分の身元を明かします)、その結果、敵に狙われたり、陥れられたりするリスクが高まります。 課題3: 不透明な内部思考最後に、CoT アプローチを使用する場合でも、LLM エージェントの思考プロセスは人間のユーザーにとってやや不明瞭なままです。図1(c)に示すように、LLMエージェントが善人の役割を欺くために悪人の役割を演じている場合、人間のユーザーがその真意を知ることは困難です。 LLM エージェントの内部思考の不透明性により、人間のユーザーは LLM エージェントの真の思考プロセスを知ることができず、取り返しのつかない結果が発生する前に事前に介入することが困難になります。 こうした課題に直面すると、既存の思考方法では複雑な環境に対処することが困難になる可能性があります。そのため、研究者らは、LLM エージェントが欺瞞に対処し、プライバシーを保護し、意思決定の透明性を向上させるために、欺瞞環境における LLM エージェントの戦略を再考する必要があると考えています。 ReConフレームワーク: 2段階アプローチ上記の課題に対処するために、研究チームは、複雑で欺瞞の可能性がある環境における LLM エージェントの意思決定能力を強化することを目的とした ReCon (Recursive Contemplation) フレームワークを提案しました。 下の図に示すように、ReCon は、定式化熟考と洗練化熟考という 2 つの主要な構想段階を提案し、第 1 次/第 2 次視点遷移という2 つの独自の思考プロセスを統合します。 △ 図2 ReCon法の模式図 1. 構想と思考を伴うデザイン概念的思考は、ReCon フレームワークの最初の段階であり、LLM エージェントの最初の考えや発言を生成することを目的としています。このフェーズでは、モデルはまず「一次視点シフト」と呼ばれる認知プロセスを適用します。 一次視点シフトにより、LLM エージェントは独自の視点から他のゲーム参加者の可能な役割と意図を推測できるようになります。 具体的には、LLM エージェントは、既存のゲーム記録と役割情報に基づいて、一次視点シフトを使用して他の参加者の役割と意図に関する予備的な仮説を形成します。 これらの予備的な役割の想定は、LLM エージェントに認知フレームワークを提供するだけでなく、全体的な思考プロセスにも組み込まれており、この情報は他のゲーム参加者には知られません。その目的は、個人情報をより適切に保護するとともに、その後の意思決定や行動の基盤を提供することです。 概念的思考段階では、モデルは一次視点変換の原則に基づいて、現在のゲーム環境と他の参加者の役割の予備分析を実行します。次に、モデルは初期の内部思考と発話を形成し、その後のコミュニケーションの基礎を築きます。この設計を通じて、研究者はモデル出力の論理的一貫性と一貫性を確保しました。 2. 思考のデザインを改善する改善思考は、ReCon フレームワークの 2 番目の段階であり、アイデア創出思考の直後に行われます。この段階の主な目的は、最初の考えやスピーチの内容に対して、より詳細な最適化と調整を行うことです。 思考力を向上させる段階では、「第二次視点シフト」という概念が導入されました。 二次的な視点シフトでは、LLM エージェントが、他のゲーム参加者の視点から、考え出した思考と発話の内容を再評価する必要があります。 具体的には、Avalon ゲームでは、LLM エージェントは次のように考えます。
このような二次的な視点の変換は、その後の改善プロセスの基礎となります。 LLM エージェントは、第 2 次視点シフトの概念に基づいて、概念的思考の改善された思考コンテンツと音声コンテンツを生成します。 このプロセスでは、LLM エージェント自体の初期思考が考慮されるだけでなく、二次的な視点のシフトにおける他の参加者の考えられる精神状態と反応の分析も組み込まれます。最後に、LLM エージェントはこの改善されたスピーチを公開し、ゲームの公開ディスカッション記録に追加します。 20件のアバロンのレビューさまざまな大規模言語モデルへの ReCon フレームワークの適用可能性をテストするために、この研究では ChatGPT と Claude という 2 つのモデルで実験を実施しました。 △図3 ゲーム全体のテストにおける成功率の比較上の図は、ReCon の評価結果を示しています。ここで、(a) と (b) は、ReCon (それぞれ ChatGPT と Claude で実装) が善良な当事者である場合に、ReCon とそのさまざまなバリエーションを使用した結果を示しています。一方、(c) は、ReCon を悪質な当事者方法として使用した結果を示しています。 ReCon の 4 つの設計(つまり、アイデア創出/改善思考と一次/二次の視点のシフト)により、さまざまな状況で成功率が大幅に向上したことが分かります。 注目すべきは、善人が ReCon を使用する場合、一次/二次の視点のシフトの効果がより顕著であるのに対し、悪人が ReCon を使用する場合、思考の改善の影響がより大きくなるということです。 研究者らは、ReConとその変種のパフォーマンスを詳細に分析した後、主流のベンチマークの評価方法に従い、さらにGPT-4を使用して6次元指標で評価しました。これは、ReCon とその変種の有効性を総合的に測定することを目的としています。 具体的には、6 次元の評価指標には、情報隠蔽 (CCL)、論理的一貫性 (LG)、チーム貢献 (CTR)、説得力 (PRS)、情報内容 (INF)、創造性 (CRT) が含まれます。 実際のシナリオでこれらの評価指標を正確に定量化するために、研究者は ChatGPT を使用して20 個の完全な Avalon ゲームをプレイし、多次元分析評価のためのテスト データを収集しました。 下の図に示すように、良い側に割り当てられたプロンプトごとに、研究チームは 4 つの異なる方法を使用して 4 つの異なる応答を生成し、合計 2,300 件を超える応答が生成されました。 次に、上記の 6 つの指標に基づいて、GPT-4 を使用して、同じプロンプトの下での異なる方法の応答のバイナリ プリファレンス比較を実行しました。 △図4多次元指標評価結果、数値(0~1の範囲)は2つの方法の比較においてGPT-4が好まれる割合を示す 図 4 は、ReCon が 6 つのメトリックすべてにおいてベースライン CoT を大幅に上回っていることを示しています。同時に、構想思考と改善思考の両方が、ほとんどの指標において大幅な改善をもたらしました。 しかし、改善思考のない ReCon と ReCon は、アイデア思考のない CoT と ReCon と比較して、説得力 (PRS) の点で期待を下回る結果となりました。 研究者たちは詳細なゲームログを分析し、この最適ではない PRS パフォーマンスの原因を概念的思考に帰した。 概念的思考により、LLM エージェントは話す前に考えることができるため、より簡潔で的を絞ったスピーチが可能になり、「私たちは必ず悪者を倒せると信じています。団結しましょう!」など、煽動的でありながら詳細な情報や分析に欠けるスピーチが減ります。 研究者らは、さまざまな ReCon バリアントのパフォーマンスを詳細に分析した後、第一次および第二次の視点の変化、概念的思考、改善思考がさまざまな評価基準に与える影響をさらに研究しました。 △図5 多次元指標によるさらなる評価。値(0〜1)は、2つの方法の比較においてGPT-4が優先される割合を示します。 図5(a)と(b)は、ReConから1次と2次の視点変換を削除すると、すべてのメトリックのパフォーマンスが低下することを示しています。 これら 2 つの視点のシフトを、改善思考とアイデア創出思考のない ReCon バージョンからさらに取り除くと、図 5 (c) と (d) に示すように、ほぼすべての指標 (情報隠蔽 CCL を除く) のパフォーマンスが低下します。 これらの結果は、一次および二次の透視変換の有効性を検証します。 しかし、図5(c)と(d)の情報隠蔽CCLスコアの低下は、個人情報をより適切に隠蔽するためには、第1次(または第2次)の視点シフトと思考(または概念的思考)の向上を組み合わせる必要があることを示しています。 この一連の分析とグラフは、特に虚偽の情報を含む環境において、多次元評価における ReCon フレームワークの優位性をさらに実証しています。 議論と制限研究者らはさらに Avalon のゲーム ログを分析し、欺瞞的な環境における ReCon フレームワークの有効性について定性的な説明を行い、現在の LLM のいくつかの限界について議論しました。 1. ReConが個人情報を隠す仕組み実験により、ReCon は LLM エージェントが欺瞞的な環境で個人情報を隠す能力を向上させるのに非常に役立ち、それによって LLM エージェントが欺かれて標的にされる状況の数を減らすことが示されました。研究チームはゲーム ログを分析し、ReCon が LLM エージェントに個人情報を隠すのにどのように役立つかを調べました。 △ 図6 (a) ReConが個人情報の隠蔽にどのように役立つかの定性的な説明、(b) 既存のLLMの限界 図6(a)に示すように、構想思考で提案された「考える前に話す」メカニズムは、プライベートな情報に関する議論を思考部分に限定し、それによって話す部分の漏洩をある程度回避することができる。さらに、思考力の向上中に最初のスピーチをさらに修正することで、個人情報の漏洩を大幅に回避することもできます。 上記の観察は、間違ったことを言わないように「話す前によく考える」という人間の傾向と一致しています。 2. 「アライン ジェイルブレイク」LLM を複雑な人間の価値観とどのように整合させることができるかを調査したところ、既存の整合方法 (RLHF など) ではモデルが悪意のあるコンテンツを生成する可能性がある程度低減されるものの、この整合は主にコンテンツ レベルに焦点を当てており、論理レベルに拡張することが難しいことが研究者によって発見されました。 図6(b)に示すように、研究チームは、GPT-4は欺瞞的なコンテンツを生成するように直接要求するリクエストを拒否しますが、同じ欺瞞的なロジックの下で、Avalonゲームのコンテキストに変更された場合、GPT-4はそれを拒否しないことを観察しました。 このモデルアライメントの「脱獄」により、悪意のある人が LLM を使用して有害なコンテンツを生成することが容易になる可能性があるため、コンテンツではなくロジックを対象とするアライメントを研究することが急務となっています。 3. 推論能力が不十分△ 図7 推論能力における法学修士の限界 研究チームは、アバロンのゲームログを研究することで、LLM には依然として複雑な論理的推論が欠けていることを発見しました。 例えば、図 7 に示すように、LLM エージェントがパーシバルの役割を演じ、モルガナが提案したマーリンとモルガナ自身を含むチームに直面した場合、LLM エージェントはモルガナのアイデンティティを推測できません。 対照的に、より上級の人間プレイヤーであれば、チーム提案者はモルガナであり、もう一方のプレイヤーはマーリンであることがすぐにわかるでしょう。 マーリンの能力は誰が悪者かを知ることなので、彼がそのようなチームの組み合わせを思いつくことは絶対にないでしょう。上記の事例は、LLM が複雑な論理的推論を完了することが依然として困難であることを示しています。 4. 過度に形式的な返答研究者たちは、ゲームのログから、大規模言語モデルの応答スタイルが形式的かつ詳細すぎる場合があり、言語スタイルがゲーム内の人間のものと大きく異なっていることを発見しました。 下の表に示すように、LLM は適切に促された場合に人間の話し方を模倣する能力がありますが、話したり考えたりする過程で人間の話し方を模倣すると、Avalon ゲームでのパフォーマンスに悪影響を与える可能性があります。 △表1 人間の言語スタイルの模倣は、アバロンゲームにおけるLLMエージェントのパフォーマンスに悪影響を及ぼす 5. LLMエージェント形式の応答の比較分析LLM エージェントの応答から重要な情報を抽出するには、モデルが特定の形式で応答するように要求する必要がある場合があります。 たとえば、チーム提案の投票フェーズでは、モデルは決定を分析と区別するために、"[承認]" や "[不承認]" などの角括弧を使用して決定を強調する必要があります。 結果は、ChatGPT と Claude は適切なプロンプトの下でこれらの形式要件に十分に従うことができるが、LLaMA2-70b-chat はゲーム全体を通して形式要件に従うことが困難であることを示しています。 要約すると、欺瞞的な環境で LLM エージェントが直面する課題に対応するために、研究チームは、欺瞞を識別して対応する LLM エージェントの能力を強化する ReCon アーキテクチャを提案しました。定量的および定性的な実験により、ReCon フレームワークが虚偽の情報や誤解を招く情報に対処する上で有効であることが実証されています。研究チームは、ReCon の有効性について定性的な説明を行い、さらに現在の LLM エージェントの欠点について議論し、その後の研究の方向性を示しました。 |
>>: ChatGPT の実際のパラメータはわずか 200 億であり、これは Microsoft によって初めて公開されました。ネットユーザー:OpenAIがオープンソースに不安を感じるのも無理はない
海外メディアの報道によると、カリフォルニア大学バークレー校の研究者らは、ウェアラブルセンサーと人工知...
COVID-19パンデミックは世界に多大な変化をもたらし、世界中の科学者や研究者が効果的なワクチンの...
人間の進化と発達は、脳の潜在能力を最大限に活用して世界を変えるプロセスです。その中で、インターネット...
人工知能は非常に複雑であり、急速に発展しています。今後数年間でそれがどうなるかを正確に予測することは...
核酸レポートの手動検証は時間がかかり、面倒で、エラーが発生しやすくなります。どうすればよいでしょうか...
ソフトウェア開発の世界では、AI ツールの人気が高まっています。昨年、GitHub は、AI 支援ツ...
これは歴史上最も急速に成長している新技術です。生成 AI は世界を変え、画像、ビデオ、オーディオ、テ...
オープンソースの奇跡が再び起こりました。Mistral AI が初のオープンソース MoE 大規模モ...
コンピュータが人間を騙して自分は人間だと信じ込ませることができるなら、そのコンピュータは知的であると...
(レポート制作者/執筆者:国金証券、翟偉)レポートの概要産業チェーンと市場空間:中国の自動運転は現...
現在、ビジョントランスフォーマー (ViT) の分野には 2 つの大きな問題点があります。1. Vi...